PenShot 重排序

相关链接：GitHub | 官网 | 文档（架构设计 · 召回策略 · MCP Server · 一致性策略 · RAG 增强）

引言

在多路召回系统中，我们通常会在第一阶段通过多种策略召回大量候选结果——关键词匹配、向量检索、知识图谱遍历等。这一阶段的目标是“尽可能不漏掉相关结果”，因此召回数量往往远超过最终需要返回的数量。

然而，召回的候选集是“杂乱的”。不同召回源产生的分数不可比，向量相似度不等于真实相关性，排在前面的结果可能并非用户最需要的。这就需要一个“裁判”来对候选集进行统一的、精细化的重新评估和排序——这就是重排序（Reranking）的职责。

如果把多路召回比作“海选”，那么重排序就是“决选”。没有重排序的多路召回，就像没有评委的海选——报名的人很多，但谁能真正脱颖而出，无从判断。

本文将以PenShot剧本分镜智能体中的召回系统为背景，深入讲解重排序的原理、使用场景、实现方法以及实际效果。

为什么需要重排序

多路召回的困境

在一个典型的多路召回系统中，我们会并行执行多种检索策略：

召回源	策略	分数特征
精确匹配	Hash索引	只有0或1，没有梯度
BM25	稀疏检索	基于词频统计，范围不固定
向量检索	稠密检索	余弦相似度，范围0-1
知识图谱	图遍历	路径权重，计算方式独立

问题在于：这些分数来自不同的计算体系，彼此之间不可比。一个BM25得分0.8的文档，真的比一个向量相似度0.7的文档更相关吗？答案是否定的——两种分数的含义完全不同。

flowchart LR
    subgraph Recall["多路召回"]
        A[精确匹配
score: 1.0]
        B[BM25
score: 8.5]
        C[向量检索
score: 0.72]
        D[知识图谱
score: 0.63]
    end
    
    subgraph Problem["困境"]
        P1[分数尺度不同]
        P2[无法直接比较]
        P3[排序结果不可靠]
    end
    
    Recall --> Problem

向量检索的局限

很多人认为向量检索已经足够强大，不需要重排序。但实际上，向量检索存在一个根本性的局限：它衡量的是语义相似度，而非真实相关性。

语义相似度关注的是“两段文本在语义空间中的距离”，而相关性关注的是“这段文本是否真正回答了用户的查询”。这两者并非总是一致。

举例说明：

查询	向量检索返回	问题
“林小雨的情绪变化”	“林小雨蹲在长椅旁擦拭湿漉漉的书”	语义相近，但并未回答情绪变化
“陈阳道歉的片段”	“陈阳急刹车，书掉进水洼”	描述了动作，但道歉的核心信息缺失

向量检索可以找到“长得像”的文本，但难以判断“是否真的回答了对面的问题”。这正是重排序发挥价值的地方。

用户只关心Top-K

无论候选集有多大，最终呈现给用户的通常只有前K个结果（K通常为3、5或10）。因此，召回系统的核心目标不是“让所有相关结果都排在前面”，而是“让最相关的结果排在Top-K内”。

重排序通过对候选集进行精细化重新评估，将最相关的结果提升到前列，将不相关的结果推后甚至剔除。

flowchart LR
    subgraph Before["重排序前"]
        direction TB
        B1[结果A: 相关度 中]
        B2[结果B: 相关度 高]
        B3[结果C: 相关度 低]
        B4[结果D: 相关度 高]
        B5[结果E: 相关度 中]
        B1 --> B2 --> B3 --> B4 --> B5
    end
    
    subgraph After["重排序后"]
        direction TB
        A1[结果B: 相关度 高]
        A2[结果D: 相关度 高]
        A3[结果A: 相关度 中]
        A4[结果E: 相关度 中]
        A5[结果C: 相关度 低]
        A1 --> A2 --> A3 --> A4 --> A5
    end
    
    Before -->|重排序| After

重排序的核心原理

BiEncoder & CrossEncoder

要理解重排序，首先需要理解两种不同的编码架构：BiEncoder和CrossEncoder。

BiEncoder（双编码器）

向量检索采用的是BiEncoder架构：查询和文档分别通过各自的编码器独立编码，然后计算余弦相似度。这种架构的优势是速度快——文档向量可以预先计算并索引，查询时只需编码查询即可。

但代价是：查询和文档之间没有交互，相关性判断仅依赖于两个独立向量的相似度，丢失了细粒度的匹配信号。

CrossEncoder（交叉编码器）

重排序采用的是CrossEncoder架构：查询和文档拼接在一起，通过同一个编码器进行联合编码。在编码过程中，查询和文档的每个token都可以通过注意力机制相互“看到”对方。

这种架构的优势是精度高——模型可以捕捉查询和文档之间的细粒度交互信号，例如“查询中的某个词对应文档中的哪个短语”。但代价是速度慢——每次推理都需要重新编码查询+文档对，无法预先计算。

flowchart TB
    subgraph BiEncoder["BiEncoder 架构"]
        Q1[查询] --> E1[编码器]
        D1[文档] --> E2[编码器]
        E1 --> V1[查询向量]
        E2 --> V2[文档向量]
        V1 --> S[余弦相似度]
        V2 --> S
    end
    
    subgraph CrossEncoder["CrossEncoder 架构"]
        Q2[查询] --> C[拼接]
        D2[文档] --> C
        C --> E3[联合编码器]
        E3 --> Score[相关性分数]
    end

交互式注意力机制

CrossEncoder之所以精度更高，核心在于Transformer的注意力机制。当查询和文档被拼接后输入模型，多头注意力层可以让查询中的每个词关注到文档中的每个词，反之亦然。

这种“双向交互”使得模型能够识别复杂的关系模式，例如：

匹配类型	示例	说明
精确匹配	查询“陈阳”匹配文档中的“陈阳”	最简单的情况
同义匹配	查询“道歉”匹配文档中的“对不起”	需要语义理解
指代匹配	查询“他”匹配文档中的“陈阳”	需要上下文推理
逻辑匹配	查询“导致书掉落”匹配文档中的“急刹车→书落水”	需要因果关系理解

BiEncoder很难捕捉后两种复杂匹配，而CrossEncoder通过注意力机制天然具备这种能力。

计算复杂度与精度权衡

重排序不是免费的。CrossEncoder的计算复杂度远高于BiEncoder：

维度	BiEncoder	CrossEncoder
编码方式	查询编码一次，文档预编码	每对(查询,文档)都需要编码
复杂度	O(N)	O(N×M)，M为文档长度
1000个候选的耗时	~10ms	~500-1000ms
精度	中	高

因此，重排序的标准实践是：

第一阶段（召回）：使用BiEncoder快速召回Top-N个候选（N通常为100-200）

第二阶段（重排序）：使用CrossEncoder对Top-N候选进行精细打分，输出Top-K（K通常为5-10）

这种“粗排+精排”的级联架构，兼顾了效率和精度。

flowchart LR
    subgraph Coarse["粗排阶段 (BiEncoder)"]
        C1[全量索引] --> C2[快速检索]
        C2 --> C3[召回Top-100]
    end
    
    subgraph Fine["精排阶段 (CrossEncoder)"]
        F1[Top-100候选] --> F2[逐对重排序]
        F2 --> F3[输出Top-10]
    end
    
    Coarse --> Fine

重排序的使用场景

什么时候必须使用重排序

在PenShot系统中，以下场景强烈建议使用重排序：

场景一：多路召回融合

当存在多个召回源时（关键词、向量、图谱等），它们的分数不可比。重排序提供了一个统一的打分标准，使得不同来源的结果可以在同一尺度上进行比较和排序。

场景二：用户意图模糊

当用户查询较为模糊时，向量检索可能召回大量“语义相近但意图不符”的结果。重排序可以通过精细的交互判断，筛选出真正符合用户意图的内容。

场景三：需要复杂逻辑判断

例如查询“林小雨情绪从焦虑转为释然的片段”，这需要模型理解“焦虑”和“释然”两种情绪，并判断它们在文本中的时序关系。向量检索难以胜任，而重排序可以。

场景四：结果质量要求高

在生产环境中，用户只关心前几个结果的质量。重排序虽然增加了计算开销，但能够显著提升Top-K结果的准确率，直接改善用户体验。

什么时候可以跳过重排序

重排序并非万能，以下场景可以考虑跳过：

候选集很小（少于20个），直接排序成本不高
对延迟要求极高（<50ms），无法承受重排序开销
查询明确且精确匹配充分，向量检索结果已足够好

PenShot中的集成方式

在PenShot召回系统中，重排序模块被集成在多路召回之后、结果输出之前：

flowchart TB
    subgraph PenShot["PenShot召回流程"]
        Q[用户查询] --> P[查询解析]
        
        subgraph Recall["多路召回"]
            R1[精确匹配]
            R2[BM25]
            R3[向量检索]
            R4[知识图谱]
        end
        
        P --> Recall
        Recall --> M[结果合并去重]
        M --> Rerank[重排序模块]
        Rerank --> Out[输出Top-K结果]
    end

重排序模块的输入是合并去重后的候选集（通常100-200条），输出是重新排序后的Top-K结果（通常5-10条）。

重排序的技术实现

模型选型

目前主流的重排序模型有以下几个选择：

模型	特点	推荐场景
BGE-reranker-base	中英文支持好，开源免费	中文场景首选
Cohere Rerank	API服务，无需部署	快速验证，不考虑成本
Sentence-Transformers CrossEncoder	生态完善，易于集成	通用场景
BAAI/bge-reranker-v2-m3	多语言，性能更强	对精度要求高的场景

在PenShot中，我们选择了BGE-reranker-base作为重排序模型，原因如下：

原生支持中文，无需额外适配

开源免费，可本地部署

模型大小适中（约1.5GB），推理速度可接受

推理优化

CrossEncoder的重排序计算量较大，以下优化策略可以显著提升性能：

批处理：将多个(查询, 文档)对打包成批次，一次性送入模型推理。GPU可以并行处理，大幅降低平均延迟。
缓存机制：相同的(查询, 文档)对不重复计算。在实际系统中，相同的查询可能会反复出现（如分页请求），缓存可以避免重复计算。
候选集剪枝：在进入重排序之前，先用轻量级方法（如向量相似度）过滤掉明显不相关的候选，只对Top-N进行重排序。

# 重排序核心逻辑示例

class Reranker:
    def __init__(self, model_name="BAAI/bge-reranker-base"):
        self.model = CrossEncoder(model_name)
        self.cache = {}
    
    def rerank(self, query: str, candidates: List[Dict], top_k: int = 10) -> List[Dict]:
        # 1. 检查缓存，过滤已计算过的候选
        to_compute = []
        for cand in candidates:
            cache_key = f"{query}_{cand['id']}"
            if cache_key in self.cache:
                cand['rerank_score'] = self.cache[cache_key]
            else:
                to_compute.append(cand)
        
        # 2. 批处理计算未缓存的候选
        if to_compute:
            pairs = [(query, cand['content']) for cand in to_compute]
            scores = self.model.predict(pairs, batch_size=32)
            
            for cand, score in zip(to_compute, scores):
                cand['rerank_score'] = float(score)
                self.cache[f"{query}_{cand['id']}"] = float(score)
        
        # 3. 按重排序分数排序并返回Top-K
        sorted_candidates = sorted(candidates, 
                                   key=lambda x: -x.get('rerank_score', 0))
        return sorted_candidates[:top_k]

质量评估

重排序效果可以从以下几个维度评估：

指标	定义	说明
NDCG@K	归一化折损累积增益	衡量排序质量，考虑结果位置
MRR	平均倒数排名	第一个相关结果的位置
Recall@K	Top-K中相关结果的比例	衡量召回能力
平均延迟	每次重排序的平均耗时	衡量性能

在PenShot的测试中，加入重排序后：

指标	重排序前	重排序后	提升
NDCG@5	0.62	0.78	+25.8%
MRR	0.58	0.74	+27.6%
Recall@10	0.71	0.82	+15.5%
平均延迟	-	+85ms	可接受

重排序的局限与未来

当前局限

重排序并非银弹，它存在以下局限：

计算开销：CrossEncoder的推理成本显著高于BiEncoder，在高并发场景下可能成为瓶颈。
上下文长度限制：大多数CrossEncoder模型的最大输入长度为512个token。对于长文档（如完整的剧本片段），需要截断或滑动窗口处理，可能丢失信息。
领域适应：预训练的重排序模型在通用语料上训练，在特定领域（如剧本分镜）可能效果不佳，需要微调。

未来趋势

端到端排序：未来的检索系统可能会将重排序能力融入检索模型本身，实现真正的端到端排序。
轻量级CrossEncoder：通过模型蒸馏和量化技术，轻量级CrossEncoder正在接近BiEncoder的速度，同时保持较高的精度。
个性化重排序：重排序模型将能够利用用户的历史行为和偏好，实现个性化的结果排序。

总结

重排序是多路召回系统中的关键环节，承担着“临门一脚”的职责。它通过CrossEncoder架构实现查询与文档的细粒度交互，弥补了向量检索在相关性判断上的不足。

在PenShot剧本分镜智能体中，重排序模块被集成在多路召回之后，对候选结果进行统一的精细化评估。实验表明，重排序使NDCG@5提升了25%以上，MRR提升了27%以上，显著改善了最终结果的排序质量。

重排序不是免费的——它带来了额外的计算开销，需要在精度和效率之间做出权衡。但对于追求高质量结果的生产系统，这个代价是值得的。

理解重排序的原理和应用，不仅有助于优化现有的召回系统，也为构建更智能、更精准的检索系统奠定了基础。

PenShot 重排序如何提升召回质量