Scrapy 爬虫框架-第一个爬虫项目

创建一个scrapy项目
虽然是采用cmd命令来创建,但是可以通过scrapy -h来查询相关的子命令,最后可以通过scrapy startproject douban方式来创建项目

C:\Users\Administrator\Desktop>scrapy -h
Scrapy 1.7.3 – no active project

Usage:
scrapy <command> [options] [args]

C:\Users\Administrator\Desktop>scrapy startproject douban
New Scrapy project ‘douban’, using template directory ‘d:\anaconda3\lib\site-packages\scrapy\templates\project’, created in:
C:\Users\Administrator\Desktop\douban

You can start your first spider with:
cd douban
scrapy genspider example example.com

创建Spider解析器
根据上面的提示:cd douban,然后在项目中执行:scrapy genspider example example.com 则可以创建一个Spider对象

C:\Users\Administrator\Desktop>cd douban

C:\Users\Administrator\Desktop\douban>scrapy genspider douban_spider movie.douban.com
Created spider ‘douban_spider’ using template ‘basic’ in module:
douban.spiders.douban_spider

C:\Users\Administrator\Desktop\douban>

细心的小伙伴会发现,douban_spider默认会存储到douban.spider目录中,采用pycharm IDE打开会发现项目的结构如下:

项目功能模块介绍
scrapy.cfg:配置文件spiders:存放你Spider文件,也就是你爬取的py文件

items.py:相当于一个容器,和字典较像

middlewares.py:定义DownloaderMiddlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现

pipelines.py:定义ItemPipeline的实现,实现数据的清洗,储存,验证。

settings.py:全局配置

配置User-Agent 伪装请求
settings.py 配置User-Agent相关参数,否则爬取会出现失败。

DEFAULT_REQUEST_HEADERS = {
‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’,
‘Accept-Language’: ‘en’,
‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0′
}

启动爬虫获取数据
在cmd dos窗口中启动爬虫,默认会去下载在douban_spider中配的start_urls地址

C:\Users\Administrator\Desktop\douban>scrapy crawl douban_spider

 

import scrapy

class DoubanSpiderSpider(scrapy.Spider):
name = ‘douban_spider’
allowed_domains = [‘movie.douban.com’]
# 指定启动爬虫时要下载的首页地址
start_urls = [‘http://movie.douban.com/top250’]

def parse(self, response):
print(response.text)

版权声明:本文为CSDN博主「lsqzedu」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/lsqzedu/article/details/99697377

发表评论

邮箱地址不会被公开。 必填项已用*标注