基于复制的孪生LSTM在票务系统中进行不对称文本的相似度学习与检索

Jul, 2018

基于复制的孪生LSTM在票务系统中进行不对称文本的相似度学习与检索

Replicated Siamese LSTM in Ticketing System for Similarity Learning and Retrieval in Asymmetric Texts

Pankaj Gupta, Bernt Andrassy, Hinrich Schütze

TL;DR该研究旨在通过使用文本相似性范式，考虑主题、描述和解决方案之间的显著术语不匹配性，并利用短文本和长文本的主题和分布式语义特征来改进相似性学习和检索，提出了一种新颖的复制Siamese LSTM模型来学习不对称文本对的相似性，相对于无监督和有监督基线，检索任务的准确性得到了22%和7%的提升。

Abstract

The goal of our industrial ticketing system is to retrieve a relevant solution for an input query, by matching with historical tickets stored in knowledge base. A query is comprised of subject and description, while a historical ticket consists of subject, description and solution. To

发现论文，激发创造

弥合差距：有效映射PubMed查询与文档的语义相似度度量

提出了一种基于Word Mover's Distance计算单词间距离的查询-文档相似度测量方法，利用神经词嵌入在检索无直接匹配的情况下发现相关词，并将其与BM25相结合，结果在TREC Genomics数据上平均精度平均提高12％，在来自PubMed搜索日志的真实数据集上，结合学习排序的方法，正确率提高了25％，表明该方法与BM25的结合可以产生更出色的性能。

Aug, 2016

使用Siamese CNN和LSTM预测语义文本相似性

本文介绍了一种结合卷积神经网络和递归神经网络用于度量句子语义相似性的系统，使用卷积网络考虑单词的局部上下文和LSTM考虑句子的全局上下文，能够保留句子相关信息，并在句子相似性计算方面取得了良好的结果，具有和最优秀系统相竞争的优势。

Oct, 2018

不对称领域文本匹配的Wasserstein距离正则化序列表示

本文提出了一种名为WD-Match的新型文本匹配方法，该方法使用Wasserstein距离作为其正则化器来解决不对称领域中特征向量不可区分的问题，并在四个公开基准测试上实验得到了优异的效果。

Oct, 2020

应用迁移学习提升特定领域搜索体验：使用查询和问题的相似度

本研究提出一种针对任何特定领域搜索引擎的框架来计算给定输入查询和一组预定义问题之间的相似度，使用Siamese网络和LSTM模型训练分类器来生成未归一化和归一化的相似度分数，并结合两种词向量和自定义模糊匹配分数等三种其他相似度得分计算的元分类器，在Quora问题对（QQP）数据集以及特定于金融领域的数据集上进行性能测试。

Jan, 2021

基于最优传输对比句子学习的可解释语义文本相似性研究

本文提出一种用于优化句子相似性和解释句子相似性的对比学习框架CLRCMD，该框架使用RCMD方法作为句对的相似度评估方式， RCMD方法提出了一种通过语境化令牌距离加权和来描述句子距离的方法和解释句子相似性的方法。经过广泛的实验证明，本文所提出的方法在STS任务和可解释的STS任务上均优于其他基线模型。

Feb, 2022

基于摘要描述的文本检索

本文提出了新的检索模型，结合了指令模型和基于检索模型，使用大型语言模型的正负对进行训练，以改进当前文本嵌入技术性能。

May, 2023

通过3D暹罗网络改进文本语义相似性建模

我们提出了一种新颖的3D孪生网络模型，用于文本语义相似性建模，通过将语义信息映射到高维空间，保留了更精确的空间和特征领域信息，并为综合下游建模策略提供了必要的结构条件。通过引入多个模块来增强这一3D框架，包括特征提取、注意力和特征融合，在四个文本语义相似性基准上的广泛实验证明了我们3D孪生网络的有效性和效率。

Jul, 2023

基于分布的阈值确定句子相似性

通过使用孪生架构的神经网络，找到相似和不相似句子之间的距离分布，以及区分相似和不相似句子的阈值，并结合距离函数和分布特征进行预测评分，将结果推广到更广泛的领域。

Nov, 2023

使用LLM的相似数据点识别：一种利用摘要和隐藏状态洞察的带人工干预策略

本研究提出了一种简单而有效的方法，利用大语言模型（LLM）在非自由文领域（如表格和图像数据）中识别相似数据点。我们的两步方法涉及数据点摘要和隐藏状态提取。首先，通过使用LLM进行摘要，将数据压缩，降低复杂性并突出句子中的关键信息。随后，将摘要句送入另一个LLM中提取隐藏状态，作为紧凑、特征丰富的表示形式。此方法利用LLM的高级理解和生成能力，提供了一种可扩展且高效的相似性识别策略，适用于各种数据集。我们通过在多个数据集上演示了我们方法在识别相似数据点方面的有效性。此外，我们的方法使非技术领域专家（如欺诈调查员或营销运营人员）能够快速识别适用于特定场景的相似数据点，展示了其在实际应用中的实用性。总体上，我们的结果为在各个领域中利用LLM进行数据分析开辟了新的道路。

Apr, 2024

VRSD: 大型语言模型检索中相似性和多样性的再思考

在大型语言模型（LLM）的语义查询中，矢量检索算法对于同时满足相似性和多样性的条件具有重要意义。本文通过总和矢量与查询矢量之间的关系，引入了一种新的方法来表征相似性和多样性在检索过程中的约束。此外，我们还提出了一种新的组合优化挑战，从一组候选矢量中选择k个矢量，使其总和矢量与查询矢量最大程度地对齐，这是一个NP完全问题，从而奠定了在矢量检索中同时追求相似性和多样性的深远困难，并为进一步的研究奠定了理论基础。此外，我们提出了启发式算法Vectors Retrieval with Similarity and Diversity (VRSD)，它不仅具有明确的优化目标，避免了预设参数的需求，还较MMR在时间复杂度上实现了适度的降低，经验验证进一步证实VRSD在各种数据集上明显优于MMR。

Jul, 2024