SCRAPY学习笔记(思维导图)

在学校进行科创项目时,由于需要用到 Scrapy 爬虫框架,花了一段时间自学,期间整理的思维导图记录在此。

一、关于 Scrapy

Scrapy 是一个 Python 爬虫框架,可以很方便地使用此框架编写爬虫并爬取解析网络数据,Scrapy 官网在这里

安装 Scrapy:

1.使用 Anaconda 进行安装

在 Windows 平台安装 Scrapy 需要使用 Anaconda Distribution,因为如果直接使用自己安装的 Python PIP 包管理器进行安装可能会导致依赖组件的编译问题(可能需要特定的C++运行库),使用 Anaconda 进行安装的步骤:

  • 安装 Anaconda Distribution;
  • 打开 Anaconda Prompt;
  • 执行命令 conda install -c conda-forge scrapy;
  • 等待安装完成即可。

2.使用 pip 包管理器进行安装

使用虚拟环境或者系统 Python 命令行安装 scrapy。

1
pip install scrapy

1
pip3 install scrapy

二、Scrapy 常用命令

startproject

在 Anaconda Prompt 中执行

1
scrapy startproject <PROJECT_NAME>

用途:创建项目(Project),即创建一个项目文件夹并生成项目中的文件架构。

crawl

在 Anaconda Prompt 中执行

1
2
cd <PROJECT_DIR>
scrapy crawl <SPIDER_NAME>

用途:启动一个编写好的爬虫,爬虫类中 name 属性的值为爬虫的名称(即以上)。

shell

在 Anaconda Prompt 中执行

1
scrapy shell "<TARGET_URL>"

用途:以交互模式启动,抓取 URL 中的网页后提供交互式命令行供用户手动分析,一般用于设计爬虫时的网页元素分析。

三、Scrapy 部分组件思维导图

Scrapy Spider

Scrapy Spider部分属性和方法

Scrapy Item

Scrapy Item相关

Scrapy ItemLoader

Scrapy ItemLoader相关

Scrapy ItemPipeline

Scrapy ItemPipeline相关

Scrapy Request

Scrapy Request相关

Scrapy AutoThrottle Extension

Scrapy AutoThrottle Extension相关

以上。


SCRAPY学习笔记(思维导图)
https://maphical.cn/2019/03/scrapy-study-note/
作者
MaphicalYng
发布于
2019年3月4日
许可协议