爬取内容 专利基本信息、摘要、专利说明书等。
技术架构 爬虫框架:Scrapy
URL队列:Redis
数据库:PostgreSQL(patent_detail表、patent_task表)
运行方式 手动或定时将patent_task表中的关键词构造成专利URL,并加入redis队列中
定时启动爬虫(支持分布式),從redis队列中获取待爬取url,自动获取指定关键词最新/相关度最高/专利评级最高的专利信息,写入数据库。
数据成果示例 北京大学的专利 其他 反爬处理 随机User-Agent(浏览器)
随机访问频率
对于专利摘要爬取(无需登录)禁用Cookie
代理IP
表结构 专利详情表 -- Table: public.patent_detail -- DROP TABLE IF EXISTS public.patent_detail; CREATE TABLE IF NOT EXISTS public.