本文提出了一种使用语言建模的无监督方法来对句子进行摘要,该方法使用了两种语言模型,并使用专业领域的语言模型来保持持续的上下文匹配,同时保持输出的流畅性,实验表明,该方法具有良好的性能。
Jul, 2019
本文提出一种从未标记数据中学习句子表示的简单有效的框架,通过将句子出现的上下文预测问题重新表述为分类问题,并基于句子向量表示来区分上下文句子和对比句子,并在多个下游 NLP 任务中展示了高质量的句子表示的超越性能以及训练时间的数量级加速。
Mar, 2018
本文提出新的统一框架,比较了常见的 IR 度量和神经模型在多个句子对分数任务和数据集上的性能,并尝试通过发布新的数据集来改进比较。我们提出了一种统一的开源软件框架,具有易于插拔的模型和任务,使我们能够尝试使用训练好的句子模型进行多任务复用并在 Ubuntu 对话数据集上提出了新的最优结果。
Mar, 2016
本文研究学习者文章中句子级提示相关性评估的任务,在两个学习者写作数据集上评估使用单词重叠、神经嵌入和神经合成模型的各种系统。我们提出了一种新的句子级相似度计算方法,该方法学习调整针对特定任务的预训练单词嵌入的权重,相较于其他相关基线模型,实现了显著更高的准确性。
Jun, 2016
本文提出一种改进图像 - 字幕生成系统的方法,通过从视觉上下文的角度修订语言生成输出的 beam search,采取视觉语义量化概念,在单词和句子级别上匹配与图像相关的信息来选择最相关的输出作为字幕。该方法可作为后处理方法应用于任何字幕系统中。
Sep, 2022
本文提出了一个基于词汇语义分解和组合、双通道 CNN 模型的方法,不仅考虑输入两个句子的相似部分,同时也利用它们的不相似部分,从而可以更准确地比较句子相似度。实验表明,该模型在答案句子选择任务上取得了最好的表现,并在释义识别任务上取得可比较的结果。
Feb, 2016
提出了一种句子级元嵌入学习方法,利用不同的上下文化语言模型,通过无监督的学习方式学习句子嵌入,以满足不同需要的下游自然语言处理任务,实验证明提出的方法优于以往的方法和有监督的基线。
Apr, 2022
该论文介绍了一种基于多模型非线性融合的新模型,通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度,输入加权向量到全连接神经网络,从而降低特征提取的细粒度,全局把握句子特征。实验结果表明,句子相似度计算方法的匹配率为 84%,模型的 F1 值为 75%。
Feb, 2022
本研究提出一种新的上下文感知的无监督词义消歧方法,通过将上下文信息纳入相似度量计算过程中,有效地管理文本中的词义模糊,从而提高了词义消歧的准确性并超越了现有的多种技术。
May, 2023
探究在科学论文中预测引用价值的句子时,上下文作用的重要性,利用双向 LSTM 模型解决了该问题,并提出了一个新的基准数据集以及文档级别的训练 / 测试分配,通过误差分析揭示了上下文在预测引用价值方面的重要作用。
Apr, 2021