本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估,旨在更好地理解这种模型学习常识知识的程度,结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。
Oct, 2021
本研究提出一种通用预训练语言模型的常识知识转移框架,通过从神经常识知识模型中提取框架通用文本中的常识知识并利用两个自监督目标对模型进行改进,使其更好地传递到需要常识推理的下游任务中并取得显著改善。
Jun, 2023
该研究提出了两种方法,通过外部常识知识图谱,隐式或显式地融入到预先训练好的自然语言处理模型中,以提高社交智能,这种方法对社交常识推理任务 SocialIQA 的表现在有限和完整的训练数据制度下都表现出良好的效果。
May, 2021
本论文分析了预训练语言模型在常识知识图谱中的应用能力,重点探讨了预训练语言模型在多个常识知识图谱、未见过的关系和新实体方面的泛化能力及其局限性,结果表明预训练语言模型能够适应多个知识图谱但在泛化到新的关系时表现不佳,而在未出现过的实体上的泛化能力有所提高,未来的工作应该探究如何改进基于预训练语言模型的常识挖掘任务的传递和归纳能力。
Jun, 2021
使用预训练的双向语言模型将关系三元组转换为掩码句子,通过估计点间互信息来排名三元组的有效性,从而开发了一种生成常识知识的方法。该方法在新源中挖掘常识知识时优于显式训练的模型,说明无监督技术比目前的有监督方法更具推广性。
Sep, 2019
通过利用 ConceptNet 中的结构化知识,构造逻辑形式并生成常识性逻辑推理的多项选择题进行训练,我们提出了一种简单而有效的方法来教授预训练模型常识性推理,实验结果表明,这种训练可以使预训练模型在需要常识性推理的任务上表现稳定提升,特别是在少样本学习设置下。
本文针对故事生成中存在的重复、逻辑冲突和长距离一致性缺乏等问题,提出了一种基于知识增强预训练模型的通用故事生成方法。通过利用外部知识库中的常识知识来生成合理的故事,并采用多任务学习的方法来捕捉合理故事中句子之间的因果关系和时间依赖关系,从而在逻辑和整体一致性方面比其他最先进的模型有更好的表现。
Jan, 2020
本篇论文研究如何通过三种不同的适应方法来影响模型的泛化和准确性,其中 fine-tuning 虽然能够更好地学习任务的内容和结构,但容易出现过拟合和泛化能力有限的问题,相比较而言,使用类似 prefix-tuning 的替代适应方法能够更好地适应未见过的答案,并且更加鲁棒。
Sep, 2021
本文调查了预先训练模型在常识推理和生成任务上的表现,探讨了最新研究的优劣势,并提出未来的研究方向。
Jan, 2022
本文通过使用诊断测试,揭示了预训练 MNLM 中包含的常识知识,并发现 MNLM 模型不能准确理解语义关系,还存在对需要常识知识的语义变化的脆弱性。此外,我们发现了某些知识未被训练的根本原因,并通过在受控实验中利用外部常识知识库来丰富文本的方法,提出了克服 MNLM 模型的局限性的可能性。
Sep, 2022