- 矿工:多语言语言模型作为语义检索器
文中介绍了 MINERS 这个基准测试集,用于评估多语言语言模型在语义检索任务中的能力,包括双文本挖掘和基于检索增强上下文的分类。通过仅检索语义相似的嵌入向量,我们的结果表明性能竞争力与最先进的方法相当,并且无需进行任何微调。
- 利用代码交替改进语义检索的跨语言表示
本研究提出了一种基于代码切换的备选跨语言 PTM 方法用于语义检索,通过引入代码切换的持续预训练,相对于直接使用 PTM 在语义检索任务上的方法,我们的方法在二十多种语言的三个商业语料库和四个开放数据集上连续超过了之前的 SOTA 方法。
- M4LE: 一个适用于大型语言模型的多能力多范围多任务多领域长上下文评估基准
我们提出了一个针对大型语言模型的多能力、多范围、多任务、多领域的长上下文评估基准(M4LE),并通过在 36 个 NLP 数据集、11 种任务类型和 12 个领域中用多样的 NLP 任务池来支持它。我们的研究揭示了当前的大型语言模型在理解长 - ECCV无监督视频检索的双流知识保持哈希
通过将视频信息分解为重建相关信息和语义相关信息,我们设计了一个双流结构,其中包括一个时间层和一个哈希层。在自监督学习中获得的语义相似性知识的帮助下,哈希层学习捕捉用于语义检索的信息,而时间层学习捕捉用于重建的信息。这样,模型自然地将解耦的语 - ACL网络搜索中基于事件的查询扩展
本文提出了一种新的查询扩展系统 Event-Centric Query Expansion(EQE),通过从大量的潜在事件中挖掘最佳扩展,快速准确地提高搜索质量,该系统已被部署在腾讯 QQ 浏览器搜索中,服务于数亿用户。
- 基于表面的检索降低检索增强语言模型的困惑度
本文通过重新构建语义检索机制以 surface-level 方法代替 BM25 方法,成功降低语言模型 perplexity 并提高性能。
- 最大编码率缩减下的句子表示压缩
本文介绍了一种使用 MCR2 目标学习额外的投影层来研究句子表示模型 Sentence-BERT 的模型蒸馏方法,新模型具有更低的复杂性和句子嵌入大小,可在语义检索基准上实现可比较的结果。
- EMNLP使用生成式目标进行语句表示学习,而非对比式目标
本文提出了一种基于短语重构的生成式自监督学习目标,从而在获得上下文化标记级别表示的同时,有效获取句子级别表示,在句子结构的建模上进行了精细的设计,实验结果表明,该方法在语义检索和重排序任务上超越当前最先进的对比方法。
- ACL通过同态投影蒸馏压缩句子表示以用于语义检索
这篇研究提出了 Homomorphic Projective Distillation(HPD)方法来学习压缩的句子嵌入,通过增加可学习的投影层来模拟大型预训练语言模型并保留句子表示质量。作者通过不同大小的模型对语义文本相似性(STS)和语 - SIGIR面向个性化和语义检索的端到端解决方案:基于嵌入学习的电子商务搜索
本文介绍了一种叫 DPSR 的新方法,用于解决电子商务搜索中的两个关键性问题:如何检索与查询语义相关但不是精确匹配的项目以及如何检索对于同一搜索查询的不同用户更个性化的项目。该方法通过离线和在线实验表明其优越性,能够显著提高用户的搜索体验, - 用于问答系统中语义检索的多任务句子编码模型
本文提出了一个多任务句子编码模型 (MSEM) 用于 Paraphrase Identification(PI)问题。我们使用连接图表示句子之间的关系,并应用多任务学习模型来解决句子匹配和意图分类问题。此外,我们实现了一个通用的语义检索框架 - EMNLP合同发现:数据集和具有竞争基线的少样本语义检索挑战
该论文提出了一个新的共享任务来从法律文本中进行语义检索,并给出了在这个方法框架下提出的多个解决方案的评估。此外,针对文本片段相关性检测准确度的问题,提出了一些策略。最终,该论文展示了在法律领域专门化的语言模型方面的成果,这些模型已经公开。
- EMNLP揭示语义检索对大规模机器阅读的重要性
本文提出管道系统及语义检索中间层制定通用设计指南。在事实检查和开放领域多跳 QA 中,该系统取得了表现。统计分析表明,中间层语义检索提高了上游信息的筛选效率,下游建模的数据质量,实现了学习上下文逻辑结构的机器阅读。