当前位置：龙泉人才网 - 职业人才 -

前程无忧招聘信息（学习爬虫第54天）

职业人才
2023-05-16 16:00
龙泉小编

昨天，跟着b站的教程，终于成功爬取了豆瓣top250电影。

而实际上，作为这个教程来说，这才只是踏上月球的一小步而已。

这个教程一共是41集，我只是学到了25集。

前程无忧招聘信息（学习爬虫第54天）

因为这个教程是成都工业大学2016级数字媒体专业实训课程，所以除了爬虫内容，数据可视化也是很重要的部分。

我粗略看了一下，26、27集是讲如何将数据保存到数据库，28集之后都是讲数据可视化的内容。

目前对于我来说，可视化我还没觉得有啥用，所以也就不学了。

毕竟，40岁老男人的时间也是蛮宝贵，有很多事情需要做的。

前程无忧招聘信息（学习爬虫第54天）

课程的最后，是老师给学生们留的作业及讲解。

这个项目我觉得倒是可以跟着学习一下。

项目介绍

项目名称：51job招聘网数据爬取分析

项目目标：对搜索出的信息进行地域、薪资、工作经验、学历、职责与要求等方面的数据分析。

基本功能：使用爬虫爬取51job数据至少1000条，并保存到数据库中。

制作流程：之前爬豆瓣的四个步骤是：准备工作、获取数据、解析内容、保存数据。那时候毕竟是刚接触爬虫。

这里的步骤改为了爬取数据、数据保存、搭建框架、制作图标。

作为一个理智的成年人，这四个步骤我只选择前两个。

网站分析

之前爬取豆瓣的时候，主要是爬取豆瓣首页内容，然后进行分析。

而前程无忧这个网页的首页对我们毫无意义，我们关心的是某个岗位的具体信息。

在搜索框岗位输入 Python，地点设为天津，出来了236个搜索结果。

吐槽一下，课程里老师输入的地点是成都，一下子搜出1200多个（我也搜了下，是1500多个，更多），而天津Python岗位竟然才有200多需求。

这一个是直辖市，一个是西南省会，差距咋就这么大呢！

前程无忧招聘信息（学习爬虫第54天）

先分析下这个网址。

首先，网址中？后面的部分只是一些辅助信息，都可以删掉。

然后网址中也有 Python 这个词，可见网址跟搜索内容是有关联的。

尝试翻几次页可知，Python 后面的数字 2.1与翻的页是对应的，具体对应关系是2.1为第一页，2.2为第二页，2.3为第三页，以此类推。

最后，通过变换几次要搜索的地点可以确定，list 后面的数字是定位城市用的，050000表示天津，010000表示北京，090200表示成都。

爬取网页

将之前爬豆瓣的部分代码直接复制粘贴过来并进行相应改造。

前程无忧招聘信息（学习爬虫第54天）

然而运行报错了。

前程无忧招聘信息（学习爬虫第54天）

问题出在第28行。

PyCharm 傲娇的说：这个 utf-8 ，我解析不了。

这个没用的家伙！

返回51job网站，查看网页源代码。

前程无忧招聘信息（学习爬虫第54天）

原来如此，人家 charset 写着呢：gbk，怪不得utf-8 搞不定它呢。

那咱就赶紧改吧。

嘿嘿，爬取成功！

免责声明：本文内容来源于网络或用户投稿，龙泉人才网仅提供信息存储空间服务，不承担相关法律责任。若收录文章侵犯到您的权益/违法违规的内容，可请联系我们删除。

https://www.lqrc.cn/a/zhiye/25951.html

微信分享

关注微信

上一篇：注册监理工程师招聘（3月21日施工监理招聘求职信息汇总）

下一篇：暂无

前程无忧招聘信息（学习爬虫第54天）

项目介绍

网站分析

爬取网页

猜你喜欢

热门标签

随便看看

上海学校招聘（上海某高校招聘老师）

河北省第四届第七期雕塑创作高级研修班开课

福建省事业单位招聘（福建这些事业单位公开招聘）

上海译文出版社招聘（50岁离开出版社创业）

贵港招聘网（千万别错过）

阅读排行

石家庄印钞厂招聘信息（人民币是劳改犯印的）

一建人证合一招聘（建筑工程招聘与求职5）

常州国企招聘信息（2月正在进行的国企招聘）

临沂最新喷漆工招聘（临沂公告）

招聘问题（面试官最爱问的16个问题）

关注我们

前程无忧招聘信息（学习爬虫第54天）

项目介绍

网站分析

爬取网页

猜你喜欢

热门标签

随便看看

阅读排行

关注我们

微信公众号