Rerank | NullSpace

1. 三种重排序策略的选择 Pointwise（评分制）：为每个段落独立打分（1-10分），输出{id:score}格式 Listwise（排序制）：直接输出排序结果，如 "id1>id3>id0" Pairwise（对比制）：两两比较，成本最高（O(K²)）决策：选择Pointwise，因其输出结构化、易优化、支持并行处理。 2. 生产环境面临的四大挑战延迟高：输出token过多，单次调用耗时久格式不稳定：LLM可能输出重复ID、缺失ID或格式错误输入量大：40段×200token≈8000token，上下文窗口压力大位置偏差：LLM对输入顺序敏感，易高估靠前段落的相关性 3. 优化策略一：减少输出Token（降延迟）移除空格：空格是昂贵的token，改用紧凑JSON格式，减少28% token 阈值过滤：只输出≥5分的内容，低分省略，再降50%延迟失败尝试：去掉"id"标记以进一步节省20% token，但导致模型混淆索引与分数，质量下降效果：输出token减少显著降低端到端延迟。 4. 优化策略二：并行重排序（核心创新）将K个候选段落分N批并行处理（如40段→4批×10段）：批次分配策略：问题：连续切分会加剧位置偏差（第一批全是高分段）解决方案：Round-robin轮询分配 B_j = {p_t | t mod N = j}