爬虫入门（一）基本环境配置

环境搭建

安装request库、jupyter、selenium

1
2
3

pip install request	# 常用的请求库
pip install jupyter	# 便于创建和共享文学化程序文档
pip install selenium	# 驱动浏览器执行特定的动作，如点击、下拉等

安装chromedriver，如果常用火狐浏览器则需要安装GeckoDriver
- 查看自己chrome版本号：chrome://help
- 下载与自己chrome适配的chromedriver：https://chromedriver.storage.googleapis.com/index.html
- 把chromedriver放在\Anaconda\envs\crawler\Scripts文件夹下
安装PhantomJS是一个无界面的浏览器，可以和Selenium配合使用获取数据
- 在http://phantomjs.org/download.html网站中下载
- 将bin文件夹配置环境变量
安装aiohttp库，用于异步请求网页
1
pip install aiohttp
安装python的解析库，以解析html和xml等文件
- 安装lxml库：pip install lxml
- 安装Beautiful Soup库：pip install bs4
- 安装pyquery库：pip install pyquery

MySQL
- MySQL数据库的安装和使用：MySQL安装
- 安装pymysql以通过python操作MySQL数据库：pip install pymysql
MongoDB
- MongoDB数据库的安装和使用：MongoDB安装
- 安装pymongo以通过python操作MongoDB数据库：pip install pymongo
Redis的安装
- Redis数据库的安装和使用：
- 安装redis以通过python操作redis数据库：pip install redis
- 安装RedisDump 以对Redis进行数据操作
  - 安装Ruby
  - 安装redisdump：gem install redis-dump