爬虫入门(一)基本环境配置

环境搭建

  • 使用anaconda创建虚拟环境,python版本为3.7

    1
    conda create -n crawler python=3.7
  • 进入crawler 虚拟环境

    1
    conda activate crawler
  • 安装request库、jupyter、selenium

    1
    2
    3
    pip install request	# 常用的请求库
    pip install jupyter # 便于创建和共享文学化程序文档
    pip install selenium # 驱动浏览器执行特定的动作,如点击、下拉等
  • 安装chromedriver,如果常用火狐浏览器则需要安装GeckoDriver

  • 安装PhantomJS是一个无界面的浏览器,可以和Selenium配合使用获取数据

    • 在http://phantomjs.org/download.html网站中下载
    • bin文件夹配置环境变量
  • 安装aiohttp库,用于异步请求网页

    1
    pip install aiohttp
  • 安装python的解析库,以解析html和xml等文件

    • 安装lxml库:pip install lxml
    • 安装Beautiful Soup库:pip install bs4
    • 安装pyquery库:pip install pyquery

数据库安装与连接

  • MySQL
    • MySQL数据库的安装和使用:MySQL安装
    • 安装pymysql以通过python操作MySQL数据库:pip install pymysql
  • MongoDB
    • MongoDB数据库的安装和使用:MongoDB安装
    • 安装pymongo以通过python操作MongoDB数据库:pip install pymongo
  • Redis的安装
    • Redis数据库的安装和使用:
    • 安装redis以通过python操作redis数据库:pip install redis
    • 安装RedisDump 以对Redis进行数据操作
      • 安装Ruby
      • 安装redisdumpgem install redis-dump

上文中提到的是爬虫中常用的库和数据库的搭建和使用,在实际的爬虫任务中,并不是每一个爬虫任务都会用到上述所有库,需要根据实际情况进行选择和甄别