COLINGMay, 2024

产品问答中高效易于解释的异构数据信息检索

TL;DR通过最小化词汇匹配问题,扩展增强的稀疏词汇表示改善了信息检索,并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制,通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明,我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%(稀疏)和 2.7%(密集)。此外,我们的模型在减少响应时间(延迟)30% 和减少计算负载(FLOPs)约 38% 的同时,提供了更好的可解释性,并且表现与最先进的交叉编码器相当。