当前位置：龙泉人才网 - 人才百科 -

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

人才百科
2023-05-05 10:30
龙泉小编

- 实战

分析网站结构，确定我们要抓取的数据内容

通过 Chrome 浏览器右键检查查看 network 并对网站结构进行分析发现我们在 ajax 请求界面中，可以看到这些返回的数据正是网站页面中Python岗位招聘的详情信息。

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

之后我们在查看headers的时候发现该网站请求的方式是Post请求，也就是说在请求的过程中需要携带Form Data数据，这一块在第一篇博客中也分析过,甚至请求的是另一种Post携带方式。

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

在多次对网页界面进行分析评测的时候，发现在点击第二页的时候Form Data的携带格式发生了变化。可以看到 pn=2 肯定是咱们的当前的页数。

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

第一步：不管三七二十一，先请求拿到数据再说

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

在直接请求界面的时候我们发现网站有反爬机制，不让我们请求《"msg":"您操作太频繁,请稍后再访问"》，我们携带请求头伪装一下，不行

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

这里我用了一种可以快速生成headers以及cookie的工具：用法如下：

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

我怀疑该网站具有多重反爬策略，当我再次添加cookies试一下的时候；我们发现数据可以正常获取了；难道就这么简单就解决拉勾网数据获取的问题了吗？然而机智的我察觉到事情并没有想像的那么简单；

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

我的最终解决方案是共用 session，就是说我们在每次请求界面的时候先获取session然后原地更新我们的session之后再进行数据的抓取，最后拿到想要的数据。

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

第二步：对数据进行分解

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

运行结果：

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

第三步：对解析数据进行存储

这里通过 excel 表格的形式进行存储；

需要 pip install xlwt 安装一下 xlwt 库.

import xlwt info_result = [] title = ['城市', '公司名称', '福利待遇', '工作地点', '学历要求', '发布时间', '职位名称', '薪资'] info_result.append(title) # 获取请求返回数据 info_list=get_requests_data(url, form_data) # 创建workbook,即excel workbook = xlwt.Workbook(encoding='utf-8') worksheet = workbook.add_sheet('lg_lagou', cell_overwrite_ok=True) # 遍历枚举 for item, title_data in enumerate(info_list): for item_data, content_data in enumerate(title_data): worksheet.write(item, item_data, content_data) workbook.save('lg_lagou.xls') 复制代码

最终显示数据内容

拉勾网招聘（Python爬虫2020年拉勾网招聘信息）

在这个浮躁的时代；竟然还有人能坚持篇篇原创；

如果本文对你学习有所帮助-可以点赞+ 关注！将持续更新更多新的文章。

支持原创。感谢！

免责声明：本文内容来源于网络或用户投稿，龙泉人才网仅提供信息存储空间服务，不承担相关法律责任。若收录文章侵犯到您的权益/违法违规的内容，可请联系我们删除。

https://www.lqrc.cn/a/rencai/18071.html

关注微信

上一篇：拉勾网招聘（拉勾网被曝大批裁员）

下一篇：ems招聘（老牌国企）

猜你喜欢

关注我们