预训练语言模型在常识知识推理和生成中的应用:综述
通过利用 ConceptNet 中的结构化知识,构造逻辑形式并生成常识性逻辑推理的多项选择题进行训练,我们提出了一种简单而有效的方法来教授预训练模型常识性推理,实验结果表明,这种训练可以使预训练模型在需要常识性推理的任务上表现稳定提升,特别是在少样本学习设置下。
Sep, 2019
本研究提出一种通用预训练语言模型的常识知识转移框架,通过从神经常识知识模型中提取框架通用文本中的常识知识并利用两个自监督目标对模型进行改进,使其更好地传递到需要常识推理的下游任务中并取得显著改善。
Jun, 2023
本论文调查了最近关于常识推理的谈话人工智能研究,列出了相关的训练数据集,并描述了在谈话人工智能中包含常识的主要方法,讨论了用于评估谈话人工智能中常识的基准,最后对两个最先进的开放对话模型 BlenderBot3 和 LaMDA 的常识能力进行了初步观察,并对自然交互产生了负面影响,进一步激发了关于常识推理在谈话人工智能中的研究。
Feb, 2023
介绍了如何利用当前的机器学习方法,通过知识迁移、模型集成和引入配对对比目标等方法,改进通用预训练语言模型在常识推理任务中,取得超过 15%的配对准确度和超过 8.7%的标准准确度的绝对增益。
Oct, 2023
本文针对故事生成中存在的重复、逻辑冲突和长距离一致性缺乏等问题,提出了一种基于知识增强预训练模型的通用故事生成方法。通过利用外部知识库中的常识知识来生成合理的故事,并采用多任务学习的方法来捕捉合理故事中句子之间的因果关系和时间依赖关系,从而在逻辑和整体一致性方面比其他最先进的模型有更好的表现。
Jan, 2020
该研究提出了两种方法,通过外部常识知识图谱,隐式或显式地融入到预先训练好的自然语言处理模型中,以提高社交智能,这种方法对社交常识推理任务 SocialIQA 的表现在有限和完整的训练数据制度下都表现出良好的效果。
May, 2021
使用预训练的双向语言模型将关系三元组转换为掩码句子,通过估计点间互信息来排名三元组的有效性,从而开发了一种生成常识知识的方法。该方法在新源中挖掘常识知识时优于显式训练的模型,说明无监督技术比目前的有监督方法更具推广性。
Sep, 2019
本文提出一种使用无监督学习、基于语言模型的神经网络常识推理的简单方法,通过对大量未标记数据的训练,优化单选题的得分,获得了很好的测试成绩,没有使用昂贵的注释知识库或手工特征工程。
Jun, 2018
通过从语言模型中产生知识并将其作为额外输入用于回答问题,我们开发了一种生成知识提示方法,它不需要针对知识集成的任务特定监督,也不需要访问结构化的知识库,并在四个常识推理任务中提高了大规模、最先进模型的性能。这凸显了大规模语言模型作为提高常识推理的外部知识的灵活来源。
Oct, 2021
本文提出了一种利用常识知识图谱,将结构信息和语义信息结合到推理中,提高语言模型在生成任务中处理常识知识的准确性。通过动态多跳推理模块,本文建立了 Generation with Multi-Hop Reasoning Flow (GRF) 模型,实验表明该模型在三个包含常识知识推理的生成任务中的表现优于现有基线模型。
Sep, 2020