爬虫入门(一)基本环境配置
爬虫入门(一)基本环境配置
环境搭建
-
使用anaconda创建虚拟环境,python版本为3.7
1
conda create -n crawler python=3.7
-
进入
crawler虚拟环境1
conda activate crawler
-
安装request库、jupyter、selenium
1
2
3pip install request # 常用的请求库
pip install jupyter # 便于创建和共享文学化程序文档
pip install selenium # 驱动浏览器执行特定的动作,如点击、下拉等 -
安装chromedriver,如果常用火狐浏览器则需要安装
GeckoDriver- 查看自己chrome版本号:
chrome://help - 下载与自己chrome适配的chromedriver:https://chromedriver.storage.googleapis.com/index.html
- 把chromedriver放在
\Anaconda\envs\crawler\Scripts文件夹下
- 查看自己chrome版本号:
-
安装
PhantomJS是一个无界面的浏览器,可以和Selenium配合使用获取数据- 在http://phantomjs.org/download.html网站中下载
- 将
bin文件夹配置环境变量
-
安装
aiohttp库,用于异步请求网页1
pip install aiohttp
-
安装python的解析库,以解析html和xml等文件
- 安装
lxml库:pip install lxml - 安装
Beautiful Soup库:pip install bs4 - 安装
pyquery库:pip install pyquery
- 安装
数据库安装与连接
- MySQL
- MySQL数据库的安装和使用:MySQL安装
- 安装
pymysql以通过python操作MySQL数据库:pip install pymysql
- MongoDB
- MongoDB数据库的安装和使用:MongoDB安装
- 安装
pymongo以通过python操作MongoDB数据库:pip install pymongo
- Redis的安装
- Redis数据库的安装和使用:
- 安装
redis以通过python操作redis数据库:pip install redis - 安装
RedisDump以对Redis进行数据操作- 安装
Ruby - 安装
redisdump:gem install redis-dump
- 安装
注
上文中提到的是爬虫中常用的库和数据库的搭建和使用,在实际的爬虫任务中,并不是每一个爬虫任务都会用到上述所有库,需要根据实际情况进行选择和甄别
Comment








