2025年7月19日上午7:59

Scrapy 爬虫框架-获取简书文章数据

7 月 23, 2020

简书URL地址分析

可以指定爬虫抓取的规则，支持正则表达式，目前简书

https://www.jianshu.com/p/df7cad4eb8d8
https://www.jianshu.com/p/07b0456cbadb?*****
https://www.jianshu.com/p/.*

rules = (
        Rule(LinkExtractor(allow=r'https://www.jianshu.com/p/[0-9a-z]{12}.*'), callback='parse_item', follow=True),
)

获取简书文章数据

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from items import ArticleItem
from lxml import etree

class JsSpider(CrawlSpider):
    name = 'js'
    allowed_domains = ['jianshu.com']
    start_urls = ['https://www.jianshu.com/']

    rules = (
        # 支持正则表达式   .* 代表后面可有可无
        # callback是指定要解析的方法
        # follow可以理解为回调自己的回调函数 (如果当前抓取的页面里面还有符合条件的地址，则继续跟进解析)
        # 简书首页底部的"阅读更多"后续通过AJAX加载实现
        # allow=r'.*/p/[0-9a-z].*'
        Rule(LinkExtractor(allow=r'.*/p/[0-9a-z]{12}.*'), callback='parse_item', follow=True),
    )

    # 也可以通过命令行方式测试：
    #    1: 输入要测试的命令：scrapy shell https://www.jianshu.com/p/00b7130b2fad
    #    2：交互式命令行中执行：response.xpath("//h1[@class='title']/text()").get()
    def parse_item(self, response):
        html = etree.HTML(response.text)
        print(html.xpath("//title/text()")[0].split('-')[0])
        return None

根据业务需求创建模型(items.py)

import scrapy

class JianshuItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    name = scrapy.Field()
    collection = scrapy.Field()
    url = scrapy.Field()

测试parse_item解析函数

# 也可以通过命令行方式测试：
#    1: 输入要测试的命令：scrapy shell https://www.jianshu.com/p/00b7130b2fad
#    2：交互式命令行中执行：response.xpath("//h1[@class='title']/text()").get()
def parse_item(self, response):
    from lxml import etree
    html = etree.HTML(response.text)
    print(html.xpath("//title/text()")[0].split('-')[0])
    time.sleep(1)
    item = JianshuItem()
    item['title'] = html.xpath("//title/text()")[0].split('-')[0]
    item['name'] = html.xpath("//span[@class='name']/a/text()")[0]
    item['url'] = response.url.split('?')[0]
    collection = html.xpath("//div[@class='include-collection']/a/div[@class='name']/text()")
    if collection:
        item['collection'] = '|'.join(collection)
    yield item

相关文章

怎么让phpcms支持https

3 月 1, 2023

phpcms首页调用点击量

2 月 22, 2023

学习笔记设计

Marvelous Designer快捷键

9 月 18, 2022

You missed

当下最强开源口播数字人 HeyGem 安装教程

2025年4月13日

手把手教你为最强开源数字人 HeyGem 定制高质量初始数字人视频

2025年4月13日

AI日报 2025-03-11|把任何内容生成网页的提示词；Manus与阿里通义千问达成战略合作

2025年3月11日

AI日报|2025-03-09 Luma发布 Ray2 视频模型

2025年3月10日