来自不同角度的语义匹配
本文主张采用注释实践来认识和代表多模式交流的内在透视性,并通过一系列注释实验介绍了在 Multi30k 和 Flickr 30k Entities 数据集上应用 FrameNet 注释的结果,其发现认为:(一)不同语言中产生的相同图片的标题之间的框架语义相似性对于标题是否为另一标题的翻译敏感,以及(二)图片注释对于语义框架是否在存在标题时进行的 ANNOTATION 是敏感的。
May, 2022
介绍了 vSTS 数据集,该数据集使用多模态信息来测量文本相似性,包含图像及其文本说明,并描述了该数据集的定量和定性信息,同时提出它是用于测量自动多模态文本相似性系统的有效黄金标准,并对结合多模态信息的数据进行了初步实验。
Sep, 2018
通过匹配文本的精细细节,我们提出了一种新的科学文献相似性模型。我们利用多个论文引用的全文来训练我们的模型,提供了一种新形式的文本监督用于跨论文匹配,具有快速单次匹配和稀疏多次匹配两种方法,提高了在四个数据集上的相似性任务表现。
Nov, 2021
研究了句子的语义文本相似度,旨在评估现有模型的性能和限制,并提出一个新的 STS 基准用于对语义表示的研究。
Jul, 2017
本文研究了在语义文本相似度(STS)的基础上添加可解释性层,通过分析句对之间的对齐关系,给出了一种可度量关系的方法。同时,作者提供了一个公共的数据集来评估系统性能,研究表明该方法可用于进行自然语言的解释并提高用户的接受度。
Dec, 2016
本文分析了超过十余种测量两个短文本的语义相似性的方法,并使用一个新的标记为语义相似性的 14,000 句子数据集证明文献中使用的这些度量标准都不能够足够接近人的判断。虽然有一些最近提出的度量标准提供了具有可比性的结果,但 Word Mover Distance 被证明是目前测量改写文本的语义相似性的最合理的解决方案。
Apr, 2020
本文提供了一种新的方法来测量基于实例的机器翻译 (EIBM) 中句子片段与存储的实例集之间的相似性,并使用聚类来提高从数据库中检索最佳匹配示例的效率。在 CELEX 数据库中的大量测试案例上给出了结果。
Aug, 1995
通过语义文本匹配任务范式,本论文提出了一种新的神经抽取式摘要系统构建方法。经过与原有抽取式摘要方法数据集的实验对比,该方法取得了更好的抽取结果,并通过对 CNN / DailyMail 数据集的实验,创造了 44.41 的新高水平。我们相信,这种基于匹配的摘要框架的潜力还未完全被利用。
Apr, 2020
本文提出了一种新的多语言数据集 MTOP,用于任务导向的语义解析,并使用该数据集和其他公开数据集来对最新的多语言预训练模型进行全面的基准测试,得到了 6.3 个 Slot F1 平均提高,并展示了使用预训练模型和自动翻译和对齐,以及远程监督方法结合,以减少槽标签投影中的噪声来实现强大的零 - shot 性能。
Aug, 2020