资讯数据采集框架

资讯类网站爬虫

科技行业资讯网站采集爬虫积累,涵盖源包括(不断增长ing):

挑战

  • 资讯类站点关键属性统一结构化方法

    • 栏目

    • 翻页

    • 资讯基本要素:title、author、content、publish_time、source等

参考项目

  • GeneralNewsExtract

  • Newspaper3k

CoolCats
CoolCats
理学学士

我的研究兴趣是时空数据分析、知识图谱、自然语言处理与服务端开发