爬虫入门(一)基本环境配置
爬虫入门(一)基本环境配置
环境搭建
-
使用anaconda创建虚拟环境,python版本为3.7
1
conda create -n crawler python=3.7
-
进入
crawler
虚拟环境1
conda activate crawler
-
安装request库、jupyter、selenium
1
2
3pip install request # 常用的请求库
pip install jupyter # 便于创建和共享文学化程序文档
pip install selenium # 驱动浏览器执行特定的动作,如点击、下拉等 -
安装chromedriver,如果常用火狐浏览器则需要安装
GeckoDriver
- 查看自己chrome版本号:
chrome://help
- 下载与自己chrome适配的chromedriver:https://chromedriver.storage.googleapis.com/index.html
- 把chromedriver放在
\Anaconda\envs\crawler\Scripts
文件夹下
- 查看自己chrome版本号:
-
安装
PhantomJS
是一个无界面的浏览器,可以和Selenium配合使用获取数据- 在http://phantomjs.org/download.html网站中下载
- 将
bin
文件夹配置环境变量
-
安装
aiohttp
库,用于异步请求网页1
pip install aiohttp
-
安装python的解析库,以解析html和xml等文件
- 安装
lxml
库:pip install lxml
- 安装
Beautiful Soup
库:pip install bs4
- 安装
pyquery
库:pip install pyquery
- 安装
数据库安装与连接
- MySQL
- MySQL数据库的安装和使用:MySQL安装
- 安装
pymysql
以通过python操作MySQL
数据库:pip install pymysql
- MongoDB
- MongoDB数据库的安装和使用:MongoDB安装
- 安装
pymongo
以通过python操作MongoDB
数据库:pip install pymongo
- Redis的安装
- Redis数据库的安装和使用:
- 安装
redis
以通过python操作redis
数据库:pip install redis
- 安装
RedisDump
以对Redis
进行数据操作- 安装
Ruby
- 安装
redisdump
:gem install redis-dump
- 安装
注
上文中提到的是爬虫中常用的库和数据库的搭建和使用,在实际的爬虫任务中,并不是每一个爬虫任务都会用到上述所有库,需要根据实际情况进行选择和甄别
Comment