专利数据 | NullSpace

爬取内容专利基本信息、摘要、专利说明书等。技术架构爬虫框架：Scrapy URL队列：Redis 数据库：PostgreSQL（patent_detail表、patent_task表）运行方式手动或定时将patent_task表中的关键词构造成专利URL，并加入redis队列中定时启动爬虫（支持分布式），從redis队列中获取待爬取url，自动获取指定关键词最新/相关度最高/专利评级最高的专利信息，写入数据库。数据成果示例北京大学的专利其他反爬处理随机User-Agent（浏览器）随机访问频率对于专利摘要爬取（无需登录）禁用Cookie 代理IP 表结构专利详情表 -- Table: public.patent_detail -- DROP TABLE IF EXISTS public.patent_detail; CREATE TABLE IF NOT EXISTS public.