正则表达式太难不会?试试靓汤，真香!(学习爬虫第55天)

昨天将爬取网页的代码中utf-8 改为 gbk 后，程序运行成功。

为了方便后面的工作，在test文件夹下，新建一个html文件，将刚才运行成功的结果粘贴过来。

下一步，定义获取所有工作岗位链接的函数。

在搜索页面，岗位显示的信息是很少的，我们只有通过点击某个岗位链接的时候，才可以看到这个岗位的详情页。

也就是说，通过这个函数，可以爬取岗位详情页面的信息。

所以，这个事得分两步：第一步是拿到所有岗位的链接；第二步是爬取链接页面的所有内容。

要注意三个问题：

1、网址中的岗位如果是中文名怎么办？

比如要是岗位搜“大数据”，网址就变成了这个鬼样子。

这里需要从 urllib引入一个包 parse，可以将字符串解析成相应的字符。

在 PyCharm里用 parse 解析下“大数据”三个字会出来什么结果呢？

咦？仔细对比可以发现，虽然跟网址不完全一样，但是只是区别在网址比我们的运行结果每个字符前多了个25而已。

这说明51job是进行了两次解析。

所以我们也得相应进行两次解析就对上了。

结果与网址一样，完美契合！

于是，按照这个思路，要将 main 函数中的网址也要进行相应改造。

2、如何解析网页

如果不使用正则表达式解析，那么可以使用BeautifulSoup。

在 Chrome 利用指针进行定位，然后通过层级关系精确找到需要的内容。

感觉这个办法真的挺简单，比正则表达式要强好多。

唯一的难点就是在 Chrome里面认真分析的过程，但实际上通过在 PyCharm里面不停的试错，终究也会找到的。

至此，获取所有岗位链接的 getLink 函数已经搞定了。

今天先到这里，后面的内容明天再说吧。

相关推荐

C语言自学课程大纲（c语言入门自学资料）: 一、自学C语言，很多人不知道应该如何学习，从哪儿学习，学习又分为几个阶段，总是学着学着就很迷茫？？？分享C语言的学习路线图，跟着路线图学吧，天天看。...

「linux」定时器方案:红黑树、最小堆和时间轮的原理: 一、网络事件和时间事件对于服务端来说，驱动服务端逻辑的事件主要有两个，一个是网络事件，另一个是时间事件；...

程序员怎么会不知道 C10K 问题呢?: 昨天的文章中提到了C10K问题，结果好些程序员跑过来问，啥是C10K，我写了这么多年程序，我怎么不知道呢？我说，那你听说过前腿儿猪肉吗？今天简单说说C10K的问题。关于这个问题，Ruby...

朝荐开源 - glib（朝廷百科）: glib是一套通用的实用程序库，它为C语言提供了许多有用的数据结构、工具函数和抽象层，旨在简化C语言的跨平台开发，并提高代码的可重用性和效率。glib是GTK+和GNOME桌面环...

libevent总结(事件处理框架)（libevent libev）: libevent的事件处理框架是一个反应堆模型，而反应堆模型的核心就是io复用，拿epoll来说反应堆模型有两个核心数据结构，一个是epoll维护的内核事件表，一个是保存激活事件的事件队列当然，值得注...

日荐开源 - LibEvent（aldente官网网址）: libevent...

快递单号一键查询，高效追踪包裹物流，省时省力!: 在繁忙的现代生活中，快递已成为我们日常生活中不可或缺的一部分。然而，面对众多的快递单号，如何快速、准确地查询包裹的物流信息成为了一个难题。现在，我们为您带来了一款快递单号一键查询工具，让您的物流追踪变...

导入不同快递公司下的单号批量查快递动态，一键解决物流查询难题: 看着满屏快递单号陷入沉思？同事小王已经用《快递批量查询高手》一键导入多家快递，批量查询快递信息并统计了…而你还在中通、圆通、申通官网来回切换到鼠标冒烟？是时候亮出这个让快递公司接口“集体颤抖”的...

一键解锁快递查询高效能:批量查询快递，智能排序延误单号: 当你的客服团队还在用5个浏览器轮番刷新物流页面时，隔壁仓库的王叔已经用快递批量查询高手把多个个滞留件变成会说话的预警红点！这篇教程将揭秘物流圈的「神器」，让「未更新快递」自动排队到你面前认罪。1.在软...

一站式快递单号查询平台，修改单号刷新快递信息的快递查询教程: 一站式快递单号查询平台，支持导入单号查询时修改快递单号，高效刷新快递信息的快递查询教程随着电子商务的繁荣发展，快递业务量不断增长，无论是电商卖家还是普通消费者，对快递信息的查询和管理需求都日益增强。为...

高效快递单号查询，批量查询快递信息，多种查看方式满足你的需求: 最近有很多朋友在问，如何查快递，怎么根据条件查看单号呢？不知道如何操作的宝贝们，下面请随小编一起来试试，希望能给大家带来帮助。需要哪些工具？安装一个快递批量查询高手快递单号若干怎么快速查询？步骤1：运...

物流查询达人必备!一键批量查询快递单号，根据发出时间筛选单号: 嘿，各位快递查询达人们，是不是经常为海量的快递单号查询而头疼不已？想要一款能够在线批量查询快递动态，还能根据发出物流时间一键筛选所需快递单号信息的神器吗？来来来，让我给你们揭秘一款快递批量查询高手软件...

快递查询神器，多单号导入，筛选保存一键完成: 当面对如山的快递单号，你是否曾感到手足无措？每一个单号都需要你逐一输入、查询，再逐个根据时间差进行筛选，这样的工作无疑是对耐心与精力的双重考验。但别担心，今天，我们将为你揭示一款物流行业的秘密武器——...

快递单号查询神器:一键复制粘贴，轻松批量追踪同公司快递: 嘿，小伙伴们！还在为手动输入快递单号查询物流信息而烦恼吗？是不是觉得每次都要一个个输入单号，既费时又费力？别急，今天我要给大家介绍一款神奇的软件——快递批量查询高手！这款软件就像你的私人快递助手一样，...

快递单号查询入口自动批量查询快递动态并根据派件员字段排序单号: 想象一下，面对堆积如山的快递单号，你不再需要一个个手动输入查询，而是轻轻一点，就能瞬间掌握所有快递的物流动态，甚至还能根据派件员智能排序，让管理变得井井有条。这不再是遥不可及的梦想，快递批量查询高手软...

相关推荐

取消回复欢迎你发表评论:

一个小时多点，完成scrapy爬取官方网站新房的数据，50块到手

爬虫项目:实现京东全网爬虫京东爬虫跳过登录页

C语言char同时读取多个输入字符并打印

信息系统安全:软件系统安全

C语言总结_格式化打印函数、字符串、运算符

嵌入式开发C语言编程的那些编程思路与技巧

在博图中，如何对S7-1200/S7-1500 进行数据类型转换

民间石子棋玩法，摆方，简单好学，你会吗?

科普|锂电dQ/dV 与dV/dQ什么意思?怎么使用?

volatile很难?由浅入深怼到CPU汇编，彻底搞清楚它的底层原理

正则表达式太难不会?试试靓汤，真香!(学习爬虫第55天)

相关推荐

取消回复欢迎 你 发表评论:

一个小时多点，完成scrapy爬取官方网站新房的数据，50块到手

爬虫项目:实现京东全网爬虫 京东爬虫跳过登录页

C语言char同时读取多个输入字符并打印

信息系统安全:软件系统安全

C语言总结_格式化打印函数、字符串、运算符

嵌入式开发C语言编程的那些编程思路与技巧

在 博图中，如何对S7-1200/S7-1500 进行数据类型转换

民间石子棋玩法，摆方，简单好学，你会吗?

科普|锂电dQ/dV 与dV/dQ什么意思?怎么使用?

volatile很难?由浅入深怼到CPU汇编，彻底搞清楚它的底层原理

取消回复欢迎你发表评论:

爬虫项目:实现京东全网爬虫京东爬虫跳过登录页

在博图中，如何对S7-1200/S7-1500 进行数据类型转换