数据采集 | NullSpace

动机市场各家AI搜索引擎后台策略及数据源质量不透明，不确保数据源高质量。构建Agent时使用外部搜索引擎工具偶尔出现一些超长乱码返回，导致污染工作流整个上下文，示例情况如下：因此考虑自构建资讯类爬虫和内容结构化提取方法，通过自行筛选（可能也存在个人偏见）高质量数据源，利用AI进行资讯简报总结，高效了解市场信息。资讯类网站爬虫特性实现资讯类网站统一内容结构化爬取框架，通过简单配置实现大多数资讯类网站内容爬取科技行业等数十个资讯网站采集爬虫积累，涵盖源包括（不断增长ing）：资讯简报分析框架结果示例提示词片段挑战资讯类站点关键属性统一结构化方法栏目翻页资讯基本要素：title、author、content、publish_time、source等反爬 css in js：动态生成css 多数海外网站使用该类型框架编写前端。采集系统目前难以实施统一的资讯属性结构化。登录验证：微信扫码、手机验证等参考项目 GeneralNewsExtract Newspaper3k