算法原理概览 与PageRank类似,但任务从网页排序变为对文本中的句子进行排序。
整体算法流程:
文本预处理
定义句子相似性度量
构建句子相似图
迭代更新句子重要性分数
选择最重要的N个句子作为文本摘要
文本预处理 文本断句
过滤噪音句子
句子分词
句子相似度度量 最常用的度量方法:根据两个句子的共现词频衡量相似程度,共现词越多、频率越高句子越相似。
def _rate_sentences_edge(words1, words2): rank = sum(words2.count(w) for w in words1) if rank == 0: return 0.0 assert len(words1) > 0 and len(words2) > 0 norm = math.