动机 市场各家AI搜索引擎后台策略及数据源质量不透明,不确保数据源高质量。 构建Agent时使用外部搜索引擎工具偶尔出现一些超长乱码返回,导致污染工作流整个上下文,示例情况如下: 因此考虑自构建资讯类爬虫和内容结构化提取方法,通过自行筛选(可能也存在个人偏见)高质量数据源,利用AI进行资讯简报总结,高效了解市场信息。
资讯类网站爬虫 特性 实现资讯类网站统一内容结构化爬取框架,通过简单配置实现大多数资讯类网站内容爬取 科技行业等数十个资讯网站采集爬虫积累,涵盖源包括(不断增长ing):
资讯简报 分析框架 结果示例 提示词片段 挑战 资讯类站点关键属性统一结构化方法
栏目
翻页
资讯基本要素:title、author、content、publish_time、source等
反爬
css in js:动态生成css
多数海外网站使用该类型框架编写前端。采集系统目前难以实施统一的资讯属性结构化。
登录验证:微信扫码、手机验证等
参考项目 GeneralNewsExtract
Newspaper3k