1. 三种重排序策略的选择 Pointwise(评分制):为每个段落独立打分(1-10分),输出{id:score}格式
Listwise(排序制):直接输出排序结果,如 "id1>id3>id0"
Pairwise(对比制):两两比较,成本最高(O(K²))
决策:选择Pointwise,因其输出结构化、易优化、支持并行处理。
2. 生产环境面临的四大挑战 延迟高:输出token过多,单次调用耗时久
格式不稳定:LLM可能输出重复ID、缺失ID或格式错误
输入量大:40段×200token≈8000token,上下文窗口压力大
位置偏差:LLM对输入顺序敏感,易高估靠前段落的相关性
3. 优化策略一:减少输出Token(降延迟) 移除空格:空格是昂贵的token,改用紧凑JSON格式,减少28% token
阈值过滤:只输出≥5分的内容,低分省略,再降50%延迟
失败尝试:去掉"id"标记以进一步节省20% token,但导致模型混淆索引与分数,质量下降
效果:输出token减少显著降低端到端延迟。
4. 优化策略二:并行重排序(核心创新) 将K个候选段落分N批并行处理(如40段→4批×10段):
批次分配策略:
问题:连续切分会加剧位置偏差(第一批全是高分段)
解决方案:Round-robin轮询分配
B_j = {p_t | t mod N = j}