基于 ConceptNet 的 DialoGPT 在对话响应生成中的通识理解与推理
本文研究了将常识知识有效地集成到对话模型中的影响,并在基于检索的情境下提出了 Tri-LSTM 模型,将消息和常识联合起来选择适当的响应,实验证明知识增强模型比无知识模型在自动评估中表现更好。
Sep, 2017
本文提出了一种通过利用大规模常识和基于命名实体的知识实现的新型开放域对话生成模型,该模型还利用了与每个话语相关的非结构化主题特定知识,并通过使用共指提高了常识知识。提出的模型利用多跳注意力层保留对话历史和相关知识的最准确和最关键的组成部分,还用到 Commonsense and Named Entity Enhanced Attention Module。实验结果表明我们的模型在两个基准数据集上均显著优于最先进的方法。
May, 2022
本研究针对 commonsense 在对话回应生成中的作用进行了实证研究,提出了一种新的对话数据集,并利用 ConceptNet 这个 commonsense 知识库,找到并整合了现有的真实对话数据集。通过使用这些数据集训练响应生成模型,该研究提出的自动评估方法显示出一定合理的评价效果。
Sep, 2021
该研究提出一种新的框架,通过口头提示和策略驱动的未来鉴别器来融合常识知识并控制对话生成,从而改善预训练语言模型的共情式对话生成性能。实验证明,社会常识知识的融合和生成控制的强制执行有助于提高性能。
Feb, 2023
该研究旨在通过探究响应生成模型对常识推理的理解程度以诱发适当的响应来缩小当前响应生成模型和人类沟通能力之间的差距,探测 RG 模型的常识推理能力并提出了两个探针设置来评估 RG 模型的常识推理功能。结果表明,模型无法捕获常识解释和响应之间的逻辑关系,领域内数据的微调和增加模型规模并不能带来对 CSR 的理解,这一研究有望激励更多的研究使 RG 模型效仿人类推理过程以实现流畅的人工智能交流。
Apr, 2021
本文介绍了通过适配器训练在 BERT 的分布式知识基础上,将 ConceptNet 和其对应的 OMCS 语料库的概念知识注入到语言模型中以提高推理性能的方法。实验结果表明,适配器训练得到的模型在需要 ConceptNet 和 OMCS 所代表的概念知识进行推理的任务中表现显著优于 BERT。
May, 2020
通过使用 GPT 编译了一个新的合成数据集 ConvoSense,在对话语境中进行常识推理,具有更大的上下文新颖性、更多的推理数量和推理所传达的详细信息丰富,使得针对对话的生成式常识模型在产生合理且具有高新颖性推理时优于之前的数据集训练的模型。据我们所知,ConvoSense 是首个以如此大规模提供如此多新颖推理的数据集。
Jan, 2024
本文提出了一种基于大规模预训练模型(如 GPT-2)的任务驱动对话系统纯自然语言生成任务,以简化复杂的词语替换处理,但是直接使用会遇到对话实体不一致性和预训练模型精调时的灾难性遗忘问题,因此我们设计了一种新的 GPT-Adapter-CopyNet 网络,它将轻量级 adapter 和 CopyNet 模块融入 GPT-2,以实现更好的迁移学习和对话实体生成,而且实验结果表明,我们的方法在自动和人类评估方面的性能显著优于基线模型。
Aug, 2021
本文针对故事生成中存在的重复、逻辑冲突和长距离一致性缺乏等问题,提出了一种基于知识增强预训练模型的通用故事生成方法。通过利用外部知识库中的常识知识来生成合理的故事,并采用多任务学习的方法来捕捉合理故事中句子之间的因果关系和时间依赖关系,从而在逻辑和整体一致性方面比其他最先进的模型有更好的表现。
Jan, 2020
本论文调查了最近关于常识推理的谈话人工智能研究,列出了相关的训练数据集,并描述了在谈话人工智能中包含常识的主要方法,讨论了用于评估谈话人工智能中常识的基准,最后对两个最先进的开放对话模型 BlenderBot3 和 LaMDA 的常识能力进行了初步观察,并对自然交互产生了负面影响,进一步激发了关于常识推理在谈话人工智能中的研究。
Feb, 2023