Scrapy 爬虫框架-第一个爬虫项目

创建一个scrapy项目
虽然是采用cmd命令来创建，但是可以通过scrapy -h来查询相关的子命令，最后可以通过scrapy startproject douban方式来创建项目

C:\Users\Administrator\Desktop>scrapy -h
Scrapy 1.7.3 – no active project

Usage:
scrapy <command> [options] [args]

C:\Users\Administrator\Desktop>scrapy startproject douban
New Scrapy project ‘douban’, using template directory ‘d:\anaconda3\lib\site-packages\scrapy\templates\project’, created in:
C:\Users\Administrator\Desktop\douban

You can start your first spider with:
cd douban
scrapy genspider example example.com

创建Spider解析器
根据上面的提示：cd douban，然后在项目中执行：scrapy genspider example example.com 则可以创建一个Spider对象

C:\Users\Administrator\Desktop>cd douban

C:\Users\Administrator\Desktop\douban>scrapy genspider douban_spider movie.douban.com
Created spider ‘douban_spider’ using template ‘basic’ in module:
douban.spiders.douban_spider

C:\Users\Administrator\Desktop\douban>

细心的小伙伴会发现，douban_spider默认会存储到douban.spider目录中，采用pycharm IDE打开会发现项目的结构如下：

项目功能模块介绍
scrapy.cfg：配置文件spiders：存放你Spider文件，也就是你爬取的py文件

items.py：相当于一个容器，和字典较像

middlewares.py：定义DownloaderMiddlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现

pipelines.py：定义ItemPipeline的实现，实现数据的清洗，储存，验证。

settings.py：全局配置

配置User-Agent 伪装请求
settings.py 配置User-Agent相关参数，否则爬取会出现失败。

DEFAULT_REQUEST_HEADERS = {
‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’,
‘Accept-Language’: ‘en’,
‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0′
}

启动爬虫获取数据
在cmd dos窗口中启动爬虫，默认会去下载在douban_spider中配的start_urls地址

C:\Users\Administrator\Desktop\douban>scrapy crawl douban_spider

import scrapy

class DoubanSpiderSpider(scrapy.Spider):
name = ‘douban_spider’
allowed_domains = [‘movie.douban.com’]
# 指定启动爬虫时要下载的首页地址
start_urls = [‘http://movie.douban.com/top250’]

def parse(self, response):
print(response.text)

版权声明：本文为CSDN博主「lsqzedu」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/lsqzedu/article/details/99697377

Scrapy 爬虫框架-第一个爬虫项目

相关文章

怎么让phpcms支持https

phpcms首页调用点击量

Marvelous Designer快捷键

标签云

You missed

阿里WAN2.1视频生成神器WanVideoWrapper安装指南，手把手教你搞定Triton和SageAttention

当下最强开源口播数字人 HeyGem 安装教程

手把手教你为最强开源数字人 HeyGem 定制高质量初始数字人视频

AI日报 2025-03-11|把任何内容生成网页的提示词；Manus与阿里通义千问达成战略合作