资讯数据采集框架 && 新闻简报Agent Workflow

Jun 27, 2025

动机

市场各家AI搜索引擎后台策略及数据源质量不透明，不确保数据源高质量。
构建Agent时使用外部搜索引擎工具偶尔出现一些超长乱码返回，导致污染工作流整个上下文，示例情况如下：

因此考虑自构建资讯类爬虫和内容结构化提取方法，通过自行筛选（可能也存在个人偏见）高质量数据源，利用AI进行资讯简报总结，高效了解市场信息。

资讯类网站爬虫

特性

实现资讯类网站统一内容结构化爬取框架，通过简单配置实现大多数资讯类网站内容爬取

科技行业等数十个资讯网站采集爬虫积累，涵盖源包括（不断增长ing）：

资讯简报

分析框架

结果示例

提示词片段

挑战

资讯类站点关键属性统一结构化方法
- 栏目
- 翻页
- 资讯基本要素：title、author、content、publish_time、source等
反爬
- css in js：动态生成css
  多数海外网站使用该类型框架编写前端。采集系统目前难以实施统一的资讯属性结构化。
- 登录验证：微信扫码、手机验证等

参考项目

GeneralNewsExtract
Newspaper3k