【愚公系列】2021年12月 python爬虫自动化-爬虫环境搭建

湛蓝之海

一、数据的来源

1. 企业产生的用户数据
https://tbi.tencent.com/ 腾讯指数
http://index.baidu.com/#/ 百度指数

2. 数据平台购买数据：
数据堂：http://www.datatang.com/index.html
国云数据市场：
http://www.moojnn.com/data-market/

3. 政府、机构公开的数据：
国家统计局数据：
http://www.moojnn.com/data-market/
世界银行公开数据：
https://data.worldbank.org.cn/

4. 数据管理咨询公司：埃森哲，麦肯锡

5. 爬虫爬取

二、爬虫所需要的库：

1. urllib 标准库，无需安装，直接 import 使用

2. requests 库，需要安装

pip install requests

3. selenium 库，需要安装

pip install selenium

a) selenium 想要驱动 chrome 的话，需要专门的
chromedriver，下载地址：
http://npm.taobao.org/mirrors/chromedriver/
b) 需要注意的是，chromedriver 的版本必须要与自
己机器上的 chrome 版本相对应才可以
c) 将下载的驱动加压缩后（一个 exe 文件）放到
python 的安装目录下（比如 scripts 中），或者
新建一个文件夹专门存放这个 exe，但是要把这
个新建文件夹的路径添加到 path 中。
d) 如果要驱动其他浏览器，比如 IE 或者 Firefox，
也需要去下载对应的驱动

4. phantomJS ，官网下载
http://phantomjs.org/download.html

5. re #正则，标准库，不需要安装

6. BeautifulSoup，html/xml 解析库，需要安装

pip install beatifulsoup4

7. pyquery（可选）解析库，语法与 JQuery 类似

pip install pyquery

8. pymysql，MySQL 数据库驱动，需要安装

pip install pymysql

[Hbase] 【愚公系列】2021年12月 python爬虫自动化-爬虫环境搭建

相关帖子

浏览过的版块

Python 关于TCP简介以及与UDP的区别

什么是IDE（集成开发环境）？

python轻松过滤处理脏话与特殊敏感词汇的方法

python轻松过滤处理脏话与特殊敏感词汇的方法

python实现修改xml文件内容详解

学会这些linux的“自动化”轻松搞定任务

终究还是错付了！这2种Python写法已经被淘汰了，你是不是还在用？

详解 SSL（二）：SSL 证书对网站的好处

开源 | WLock：高可用分布式锁设计实践

基于python的动态时钟，带十二时辰和经络养身

湛蓝之海 LV3