让搜索更“懂你”:快手自研UniDex与UniSearch实现新一代工业级搜索
首创 Model-based 倒排方案 UniDex,全量替换 Term-based 倒排,大幅降低系统存算资源的同时,将响应速度提升了25%; 创新生成式搜索架构 UniSearch,首次实现编码和生成联训,打造真正的端到端生成式搜索方案,并在直播搜索场景中创造了近两年最大的直播间进间数收益。
论文链接:https://arxiv.org/pdf/2509.24632
业界倒排系统通常由两个核心模块组成:召回(Touch)模块和排序(Rank)模块。Touch 模块基于倒排索引进行 Term 级检索获取候选集,Rank模块计算Query-候选集打分。传统倒排召回包含多路人工Touch方法(同义词扩展、Term省略、实体归一等),以及数十种策略/模型特征等启发式规则的 Rank 方法。UniDex 通过提出 UniTouch 和 UniRank,分别统一了传统倒排的Touch和Rank模块,避免了繁复的人工设计。在保障相关性和长尾需求的情况下,大幅节省链路资源消耗,为搜索体验带来增益。
UniDex完整架构流程图如下:
1.FSQ量化:以 Query 为例,Query 侧拼接多组可学习的 Token,经过 Encoder 编码产出多组稠密向量
和,通过可学习的线性投影矩阵降维后经过 FSQ 分别离线化为 K 值维的 SID (K值经验地设置为2): 通过另一组升维的投影映射得到 重构后的能够更高效地将 SID 训练融入下游任务目标,同时保证表征的连续性与训练过程的稳定性。 3.Token-Matching 机制:构建 Token-Matching 模块驱动模型强化训练/检索一致性。 图 5 UniTouch Token-Matching 示意图 Token-Matching 打分计算如下: 其中是分桶且动态学习的温度系数,表示负例的集合。 2.Matching Loss:引入针对高档位相关正例的 Matching 损失目标,强化模型使 Query 与高相关视频产出相同 SID 的能力。 其中,表示高档位正样本。 3.Quantization Regularization:引入量化正则项,以缓解 TensorRT 推理加速带来的浮点精度(Float)损失,二进制量化正则损失(Binary-Quant RegLoss)定义如下: 在UniDex的新索引检索范式下,引入UniRank重构排序机制,释放语义检索潜力。 1.UniRank框架 UniRank 采用与 UniTouch 相似的双塔架构设计。二者的核心差异在于:UniRank 以提升语义匹配准确度为核心目标,将 Query 与视频的语义信息分别编码为多个 128 维稠密向量(Dense Vector),并执行 Token-level 细粒度交互。 图 6 UniRank模型示意图 2.Token-level Interaction 通过拼接多组可学习 CLS 头,实现 Token-level 延迟交互,进而完成 Query 与视频的细粒度语义交互: 图 7 UniRank Token-level交互示意图 Token-level Interaction 驱动 Query 侧所有语义 Token 向量均参与最终排序得分的决策过程,强化模型的表征能力: (二)学习策略 1.Pointwise Relevance Loss:蒸馏精排模型的相关性得分,提升模型的相关性判别准确度。 2.InfoNCE Loss:同UniTouch的对比损失,学习搜索链路序,提升排序能力。(一)语义编码
图 8 UniDex实时检索流程
论文链接:https://arxiv.org/pdf/2509.06887
与以往依赖多阶段模型的级联系统不同,UniSearch 采用统一架构,在同一框架内完成端到端训练与推理,消除各阶段目标之间的不一致性,降低系统复杂度。
图 10 级联链路(MCA)& 现有生成式系统架构 & 统一生成式搜索 UniSearch 对比 先前的生成式搜推模型(如 OneRec)采用两阶段训练,item离散化表示和item生成任务,这会导致两阶段目标不一致。为此,设计了“真端到端”的训练架构 UniSearch,将 Search Generator 和 Video Encoder 统一到一个训练框架。 Search Generator 采用 “Encoder-Decoder” 架构,输入为搜索词、用户特征序列等。使用 Video Encoder,为每个视频学习潜在 embedding 表示和语义 ID。Encoder 的输入为视频侧特征,输出为Learnable Token对应的语义序列表征。同时Video Encoder有一个用于离散化的 VQ Codebook,用于将连续的Embedding 转化为语义ID。 通过联训 Search Generator 和 Video Encoder,UniSearch 能够缓解 item 生成和 item 表征之间的鸿沟,实现整个生成搜索框架的统一与连贯性。 1.残差对比语义学习 UniSearch 将传统生成式工作中的采用类似于 RQ-Kmeans 的残差聚类过程,建模到了语义学习的过程中:与采用两阶段残差聚类的残差量化方法(如 RQ-Kmeans)相比,该方法实现了端到端的训练,避免了由分步训练带来的目标不一致问题。 公式中 sg(·) 代表梯度截断。 2.渐进式粗到细建模目标 query-video 残差对比学习的建模目标模拟了级联链路由“召回->粗排->精排”的漏斗结构,构建了一种层次化的语义刻画模式。具体来说 学习类召回的分档逻辑, 学习类粗排的分档逻辑,..., 学习更精细化的精排分档逻辑。 3.码本离散化学习 与依赖后聚类方法的工作不同,UniSearch 采用 VQ-VAE 方法,在训练过程中联合更新码本(codebook)。对于每个语义向量,VQ-VAE 编码器在可学习的码本中执行最近邻查找,获得量化后的 及其对应的语义 ,同时让量化向量和原语义向量 相互逼近。码本损失如下: 同时,引入了 SimVQ 策略,即在量化层之后增加一个线性层协同优化,避免了码本坍塌问题。这样,借助 VQ 模块,视频可以以完全端到端的方式被离散化为语义 ID,从而避免了离线聚类所带来的不一致性问题。 图 12 生成式训练 生成约束较为常规,在这里额外采用了一种拒绝采样的训练策略,即根据标签判断出的低质量样本会被过滤掉,并且针对不同质量等级的样本,会相应地对其损失进行加权。 为不同档位的样本的权重。UniSearch 整体的训练目标为上述各个分量的加和,实现了 query-video 语义对齐、视频离散化以及生成的联合优化。 图 13 奖励系统与 SPO 在离线训练结束后,UniSearch 线上模型通过接收当前搜索系统对生成结果的评估以及用户的真实反馈,将学习搜索偏好下的生成模式。据此,整个Reward系统包括 2 部分:(1)线上精排奖励;(2)用户行为反馈奖励。 类似于 GRPO,UniSearch 应用了搜索业务感知的强化学习优化 Search Preference Optimization (SPO) 来进一步提升生成性能。 直播搜索具有明显的时效性特性,在不同时刻,直播间的表征会发生剧变,这就需要对直播码本进行监听与实时更新。 图 14 UniSearch 在直播搜索的实时链路应用 UniSearch 链路主要由 3 部分构成: 1. 生成模型:采用上文所述的“encoder-decoder”架构的模型,实时接受 Query 和上下文输入,产出码本概率分布; 2. 动态 Trie 树构建与搜索:首先构建码本生产服务,以 1 min 的时间窗口来更新直播间表征,实时生产直播间 id 映射到最新码本的数据流;动态 Trie 树模块实时监听数据流,更新当前有效直播间的码本路径;生成模型产出的码本概率分布,在动态 Trie 树上进行beamsearch搜索,保证了生成结果的合法性。 3. Reward System:实时地对生成模型的产出进行奖励,用于指导模型的在线训练。 3.2.1 离线结果 UniSearch 在离线评估中始终优于各项基线方法。在相同模型规模下,UniSearch-6 Layer 在 MRR 指标上超越其他 6 层基线,并在 Recall@300 上达到了接近 12 层基线的性能。这表明统一的训练目标不仅提升了生成结果的相关性,也显著改善了整体生成质量。 3.2.2 在线实验 将 UniSearch 部署至在线直播搜索链路后,多项指标取得了显著收益。其中直播进间次数 +3.31% 为近两年来的最高提升。直播搜索的换Query率 -0.382% 也取得了明显降低,标志了直播搜索质量的有效提升。 图 15 分视角下探分析 对进间次数进行下探,发现新用户贡献了 58.73% 的提升,占总增量一半以上。这表明 UniSearch 返回的结果对新用户吸引力更高,具有明显的拉新潜力。3.1.1 UniTouch建模:真端到端
3.1.2 离线训练:残差渐进式
3.1.3 在线训练:搜索偏好强化学习
3.1.4 推理:动态Trie约束