本文提出了一种新的自动化评估指标,用于衡量生成响应的语义多样性,以及一种基于语义分布权重的学习方法,用于提高生成响应的语义多样性和连贯性。
Oct, 2022
这篇论文将对话代理的一致性作为自然语言推理 (NLI) 的任务,并创建了一个名为 Dialogue NLI 的自然语言推理数据集。通过在该数据集上训练模型,提出了一种方法来改善对话模型的一致性,用人类评估和自动指标在一套设计用来衡量对话模型一致性的评估集上进行了评估。
Nov, 2018
该研究从 13 个不同领域的语料库中抽取出超过 50 万个标记好的内容假设对,并将它们重新组织成一个名为 DNC 的大规模多样化自然语言推理数据集,以探究语句表示在不同类型推理问题中的表现。
Apr, 2018
利用自然语言推断技术探讨生成持续一致人格的对话,提出基于强化学习框架使用从响应 - 人格对得到的自然语言推断信号作为奖励来生成至关一致的对话,并通过对话者的关注机制编码器 - 解码器来生成基于人格的响应,使用对抗训练的自然度模块和基于自然语言推断的一致性模块来评估生成的响应的一致性,实验表明该方法优于强大的生成基线,特别是在生成响应的人格一致性方面。
Nov, 2019
本文介绍了交互推断网络(IIN),一种新的神经网络架构,它通过从交互空间层次性地提取语义特征来实现对语句对的高层次理解,并展示了类似大规模 NLI 的语料库上 Densely Interactive Inference Network (DIIN)的最新性能表现,DIIN 相对于最强的发表系统在具有挑战性的 Multi-Genre NLI(MultiNLI)数据集上实现了大于 20%的误差降低。
Sep, 2017
通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果,我们提供了证据表明,最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性,这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12.92% 和 23.71%。
Jan, 2024
科学自然语言推理(NLI)的任务涉及预测从研究文章中提取的两个句子之间的语义关系。本文介绍了多样性科学 NLI 任务,并提出了 MSciNLI,这是一个包含 132,320 个从五个新科学领域中提取的句子配对的数据集。通过精调预训练语言模型和促使大型语言模型建立了 MSciNLI 的强基准。最高的 PLM 和 LLM 基准的宏 F1 分数分别为 77.21% 和 51.77%,说明 MSciNLI 对这两种模型来说都具有挑战性。此外,我们证明了领域转移降低了科学 NLI 模型的性能,从而证明了我们数据集中不同领域的多样性特征。最后,我们在中间任务迁移学习设置中使用了两个科学 NLI 数据集,并展示了它们可以提高科学领域下游任务的性能。我们在 Github 上提供了数据集和代码。
Apr, 2024
本文提出了一种通过建立多样性度量指标及其多样性参数之间关系的系统来评估自然语言生成(NLG)系统多样性的方法,并通过对人类和自动度量,解码参数调整等方面的实验展示了这个框架的实用性。
Apr, 2020
本文提出一个过程,用于研究神经机器翻译 (NMT) 系统生成的句子表示如何编码不同的语义现象,最终发现编码器最适合在语法 - 语义界面上支持推理,而不是需要世界知识的指代消解。
本研究探讨了把自然语言推理(NLI)整合到文本生成管道中的方法,使用预训练的 NLI 模型评估生成的句子是否与提示和前文相符、矛盾或中立。最终结果表明,NLI 策略最大化中立类提高了生成文本的质量,而不是其他两种策略,无论参数值如何,该策略都比普通生成的文本质量更高。
Feb, 2023