- KDDLEA:提升句子相似度对错别字的鲁棒性的词汇注意力偏置
通过引入词汇感知注意力模块(LEA)来解决文本噪音问题,增强交叉编码器在具有短文本描述和有限上下文的复杂场景中应对文本噪音;在商品匹配和文本蕴含等领域中,LEA 通过考虑词汇相似性对打字错误鲁棒性进行改进,在干净数据集和包含噪音数据集上均展 - LACoS-BLOOM:基于对比目标的 8 位 Siamese-BLOOM 低秩适应
本文介绍了一种低秩适配器、基于对比目标的多语言大型语言模型 Siamese-BLOOM 和可扩展适配器 LoRA 以及 8 位 Adam 优化器,用于句子相似性分类。通过在 BLOOM 模型上应用对比目标的 Siamese 架构,解决了多语 - 无监督抽取式摘要中句子相似度估计的改进
研究了两种新策略以提高自动抽取摘要的句子相似度估计,其中对比学习优化了文本级目标,同时使用互相学习增强句子相似度估计与句子重要性排名之间的关系。实验结果显示了策略的有效性。
- 基于子空间的预训练词嵌入空间集合运算
本研究提出了一种利用预训练词向量空间中的子空间进行集合运算的新方法,并在 Text Concept Set Retrieval 和 Semantic Textual Similarity 任务中进行了实验证明了该方法的有效性。
- 使用抽象意义表示法测量细粒度语义等效性
本篇研究提出了一种新方法用于识别句子间的语义等效性,该方法基于抽象意义表示图结构,并展示了这种方法在语义相似度方面的精度更高,认为这有助于减轻人类对机器翻译的后期编辑和对句子相似度的人工评估的负担。
- ACL基于最优传输对比句子学习的可解释语义文本相似性研究
本文提出一种用于优化句子相似性和解释句子相似性的对比学习框架 CLRCMD,该框架使用 RCMD 方法作为句对的相似度评估方式, RCMD 方法提出了一种通过语境化令牌距离加权和来描述句子距离的方法和解释句子相似性的方法。经过广泛的实验证明 - 基于多模型精细非线性融合的语义相似度计算模型
该论文介绍了一种基于多模型非线性融合的新模型,通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度,输入加权向量到全连接神经网络,从而降低特征提取的细粒度,全局把握句子特征。实验结 - ACL基于上下文的句子相似度
本文提出了一种基于上下文概率比较的新框架来解决语句相似度计算中受限于有标签数据大小以及无监督语言建模中训练和测试之间的差距的两大挑战,能在无监督学习中生成高质量语义相似性分数数据集并在不同数据集中显著提高了现有基线的性能。
- 长文档摘要的分而治之方法
该研究提出了一种新颖的分治法神经摘要长文档的方法,结合话语结构和句子相似性将长文档分解为多个摘要子问题。通过该方法可以有效地降低计算复杂度,提高摘要效果。
- ICLR基于场景的最优输运:上下文移动距离与重心,用于建立表示
该论文提出了一种用于构建实体及其组合的无监督表示的框架,每个实体被视为概率分布,重点在于该分布支持与实体共现的上下文,使得我们能够从最优传输的角度考虑表示学习,并利用其工具,例如 Wasserstein 距离和几何重心。
- 通过多个词向量和多级比较实现语义文本相似度的句子建模
该研究提出了一种将多组实现单词嵌入的方法(M-MaxLSTM-CNN),并使用多级比较学习文本相似度和关系。实验结果表明, M-MaxLSTM-CNN 在文本相似度任务中表现优越,且不需要手动设计特征或预先训练单词嵌入具有相同的维度。
- SemEval-2017 任务 1 中的 Neobility: 一种基于注意力机制的句子相似性模型
本文介绍了一种基于注意力机制的循环神经网络模型,该模型在 2017 年 SemEval 跨语言语义文本相似度(STS)任务中取得了竞争性表现(前六名),并描述了我们参加跨语言 STS 任务的情况,该任务涉及英语、西班牙语和阿拉伯语的相似度比 - 使用循环神经网络对句子顺序和连贯性建模
通过端到端的无监督深度学习方法,可以有效地建立并评估理解连贯文本结构的模型,从而实现有用的文本表示方法,有利于句子语义相似性和重复检测等 NLP 任务的完成。
- 使用字符 n-gram 嵌入词语和句子
本文主要介绍了一种名为 Charagram 的嵌入模型,使用字符 n-gram 技术来表示词组和句子,并通过单个非线性变换得到低维嵌入向量。作者进行了词相似度、句子相似度和词性标注三个实验任务验证了 Charagram 嵌入的性能,并证明其 - COLING通过词汇分解和组合学习句子相似度
本文提出了一个基于词汇语义分解和组合、双通道 CNN 模型的方法,不仅考虑输入两个句子的相似部分,同时也利用它们的不相似部分,从而可以更准确地比较句子相似度。实验表明,该模型在答案句子选择任务上取得了最好的表现,并在释义识别任务上取得可比较