项目 | NullSpace

Jun 27, 2025

动机市场各家AI搜索引擎后台策略及数据源质量不透明，不确保数据源高质量。构建Agent时使用外部搜索引擎工具偶尔出现一些超长乱码返回，导致污染工作流整个上下文，示例情况如下：因此考虑自构建资讯类爬虫和内容结构化提取方法，通过自行筛选（可能也存在个人偏见）高质量数据源，利用AI进行资讯简报总结，高效了解市场信息。资讯类网站爬虫特性实现资讯类网站统一内容结构化爬取框架，通过简单配置实现大多数资讯类网站内容爬取科技行业等数十个资讯网站采集爬虫积累，涵盖源包括（不断增长ing）：资讯简报分析框架结果示例提示词片段挑战资讯类站点关键属性统一结构化方法栏目翻页资讯基本要素：title、author、content、publish_time、source等反爬 css in js：动态生成css 多数海外网站使用该类型框架编写前端。采集系统目前难以实施统一的资讯属性结构化。登录验证：微信扫码、手机验证等参考项目 GeneralNewsExtract Newspaper3k

Jun 14, 2025

让DeepResearch用户轻松评估文章质量的工具——Research Evaluator Agent

对 DeepResearch 用户来说，筛选优质内容、发现研究趋势、快速反馈文档质量，这些场景都需要一个轻量、统一且可复现的自动化评估工具。

Mar 8, 2025

产业图谱构建：产业链相关企业挖掘

梳理产业链构建的一种技术流程

Dec 14, 2024 AIGC, 行业分析

基于LLM的自动化报告生成——舆情分析报告

固定提纲的自动化报告生成

Apr 1, 2024 Python, 数据采集

专利数据定时获取简单实现

爬取内容专利基本信息、摘要、专利说明书等。技术架构爬虫框架：Scrapy URL队列：Redis 数据库：PostgreSQL（patent_detail表、patent_task表）运行方式手动或定时将patent_task表中的关键词构造成专利URL，并加入redis队列中定时启动爬虫（支持分布式），從redis队列中获取待爬取url，自动获取指定关键词最新/相关度最高/专利评级最高的专利信息，写入数据库。数据成果示例北京大学的专利其他反爬处理随机User-Agent（浏览器）随机访问频率对于专利摘要爬取（无需登录）禁用Cookie 代理IP 表结构专利详情表 -- Table: public.patent_detail -- DROP TABLE IF EXISTS public.patent_detail; CREATE TABLE IF NOT EXISTS public.

Mar 5, 2024 数据库

企业信息相关领域知识总结和数据库表设计和数据解析存储代码实现

本项目对企查查中的Excel型企业数据进行批量解析，进行存储到关系数据库中

Jan 15, 2024 自然语言处理

政策文本多标签分类模型训练

本项目基于Ernie3预训练模型训练了一个多标签政策分类模型。期间也尝试过Roberta的各类规模模型，发现基于Roberta的模型容易出现梯度爆炸情况，训练参数稳定性相对较差

Jan 15, 2024 搜索引擎

搜索联想服务后端实现：拓展版

前面的文章已经介绍过基于前缀树的搜索联想服务，但现实中由于用户认知与具体操作中的不确定性，仅仅基于前缀的联想结果不一定能够满足用户的内容需求，甚至用户的搜索词不一定能够很好符合用户实际搜索意图。如何提高搜索结果的召回率，使搜索结果匹配用户真实意图需要解决更多的技术问题。

Jan 13, 2024 知识图谱, 图数据库

行业知识图谱构建及探索性分析项目（第一篇）

本项目根据国标行业分类2017构建行业图谱，通过图数据挖掘技术对行业图谱进行初步挖掘探索。