语言模型中高效文本常识融合的免费午餐
使用预训练的双向语言模型将关系三元组转换为掩码句子,通过估计点间互信息来排名三元组的有效性,从而开发了一种生成常识知识的方法。该方法在新源中挖掘常识知识时优于显式训练的模型,说明无监督技术比目前的有监督方法更具推广性。
Sep, 2019
本文提出一个新的评估框架,以测试知识图谱的效用,该框架基于从中可以从中学习隐式知识表征的效果。基于这个新目标,我们提出了一个新的通用常识知识图谱ATOMIC 2020,其中包含预训练语言模型中不易获得的知识,并用其他主要的常识知识资源进行比较。通过人类评估,我们显示出基于ATOMIC 2020训练的知识模型的少数情况下的表现比GPT-3(175亿个参数)使用430倍少的参数。
Oct, 2020
本论文中,我们探讨如何运用常识知识图谱提高条件文本生成模型的综合性能,通过从Conceptnet中提取常识关系,将这些关系注入到Unified Language Model (UniLM)中,并通过输出约束强制实施词汇要求,以提高生成文本的语义正确性和符合人类理解,从而实现了匹配词性和完全概念覆盖的要求。
Dec, 2020
该研究提出了两种方法,通过外部常识知识图谱,隐式或显式地融入到预先训练好的自然语言处理模型中,以提高社交智能,这种方法对社交常识推理任务SocialIQA的表现在有限和完整的训练数据制度下都表现出良好的效果。
May, 2021
本论文分析了预训练语言模型在常识知识图谱中的应用能力,重点探讨了预训练语言模型在多个常识知识图谱、未见过的关系和新实体方面的泛化能力及其局限性,结果表明预训练语言模型能够适应多个知识图谱但在泛化到新的关系时表现不佳,而在未出现过的实体上的泛化能力有所提高,未来的工作应该探究如何改进基于预训练语言模型的常识挖掘任务的传递和归纳能力。
Jun, 2021
研究一个新的框架,基于Symbolic Knowledge Distillation,使用通用语言模型自动化地从ATOMIC资源中筛选高质量因果常识,并创造一种新的常识模型,其大小只有原始模型的1/100,但功能优于其老师模型。
Oct, 2021
本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估,旨在更好地理解这种模型学习常识知识的程度,结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。
Oct, 2021
本文提出了一种名为DANCE的数据增强策略,使用知识图谱线性化技术向现有VL数据集中注入常识知识,从而提高VL模型的常识能力,并首次提出了基于检索的常识诊断基准进行细致实验验证。
Nov, 2022
本研究提出一种通用预训练语言模型的常识知识转移框架,通过从神经常识知识模型中提取框架通用文本中的常识知识并利用两个自监督目标对模型进行改进,使其更好地传递到需要常识推理的下游任务中并取得显著改善。
Jun, 2023