资讯数据采集框架 && 新闻简报Agent Workflow

动机

  • 市场各家AI搜索引擎后台策略及数据源质量不透明,不确保数据源高质量。
  • 构建Agent时使用外部搜索引擎工具偶尔出现一些超长乱码返回,导致污染工作流整个上下文,示例情况如下:

因此考虑自构建资讯类爬虫和内容结构化提取方法,通过自行筛选(可能也存在个人偏见)高质量数据源,利用AI进行资讯简报总结,高效了解市场信息。

资讯类网站爬虫

特性

  • 实现资讯类网站统一内容结构化爬取框架,通过简单配置实现大多数资讯类网站内容爬取

科技行业等数十个资讯网站采集爬虫积累,涵盖源包括(不断增长ing):

资讯简报

分析框架

结果示例

提示词片段

挑战

  • 资讯类站点关键属性统一结构化方法

    • 栏目

    • 翻页

    • 资讯基本要素:title、author、content、publish_time、source等

  • 反爬

    • css in js:动态生成css

      多数海外网站使用该类型框架编写前端。采集系统目前难以实施统一的资讯属性结构化。

    • 登录验证:微信扫码、手机验证等

参考项目

  • GeneralNewsExtract

  • Newspaper3k

CoolCats
CoolCats
理学学士

我的研究兴趣是时空数据分析、知识图谱、自然语言处理与服务端开发