利用预训练语言模型唤醒潜在的语义关系推理能力
通过引入分层解码器网络与中间监督任务,结合目前的 PLMs 构建了一种在语义解析任务中实现更好的性能与内在可解释性的方法。
Oct, 2022
本研究探讨了预训练语言模型在捕捉篇章关系上的能力,并通过探究任务验证了不同架构和层数的 PLMs 的表现,得出了对于不同 NMT 任务在何种情况下使用不同层的 PLMs 是最好的决策。
May, 2023
本文提出了一种语义基础的语言模型方法,将语言模型嵌入到自编码器中,在保持语义解析器冻结的同时通过采样和训练提高了自动生成的文本的流畅度和语义准确性,使用 BLEU 分数和标准解析度量在 English WebNLG 3.0 数据集上进行实验,并通过人工评估验证了自动评估实验的结果。
Nov, 2022
本文利用分类法阐述了如何将外部知识融入预训练语言模型(PLMs)中解决其因缺乏外部知识而导致的推理能力不足问题,以及 KE-PLMs 在 NLU 和 NLG 任务中的应用和未来发展方向。
Nov, 2022
本研究开发了一种基于图表的方法和有效的 top-K 集成技术,通过应用这种方法到多语言的预训练语言模型中,可以在集成和语言无关的方式下诱导出九种语言的句子的非平凡解析,同时发现了普遍的注意力头,这些头与句法信息的感知是一致的,验证了该方法的鲁棒性。
Apr, 2020
本文提出了一种基于 PLM 嵌入的联合潜在空间学习和聚类框架,通过联合建模主题 - 单词和文档 - 主题分布,有效地利用 PLMs 在主题发现方面的强大表示能力和出色语言特征,并在两个基准数据集上生成了比强劲的主题模型更加连贯、多样的主题,并提供更好的基于主题的文档表达形式。
Feb, 2022
本文研究了利用图形自监督训练来提高 PLMs 模型在 AMR 图结构上的结构意识; 它同时介绍了两种图形自编码策略,四个任务以及一个统一的框架来缩小预训练和微调任务之间的差距。实验结果表明了这种方法在 AMR 分析和 AMR-to-text 生成方面的优越性。
Mar, 2022
本文提出了基于语言结构的机器学习任务,并通过三种方案展示了其潜力和可行性,包括通过视觉基现学习语法结构,通过执行感知方法映射句子到语义结构,并通过跨语言词对齐和子结构投影方法改进零样本跨语言依赖分析的性能。
Jun, 2024
中文摘要:本研究介绍了 Fakepedia,一个反事实数据集,用于评估大型语言模型在参数化知识与上下文信息相冲突时的接地能力。我们测试了各种大型语言模型在 Fakepedia 上的表现,并发现 GPT-4-turbo 更偏好参数化知识,而 Mistral-7B 则最稳定地选择了接地答案。此外,我们对大型语言模型进行因果中介分析,结果表明仅凭计算图的检查即可预测 92.8% 准确度的接地情况,尤其是变压器中的少数 MLP 可以预测非接地行为。我们的结果与现有关于事实回忆机制的发现相结合,提供了大型语言模型中接地和事实回忆机制的相互作用的连贯叙述。
Dec, 2023
本文论述了预训练语言模型(PLM)的重要性以及知识增强型预训练语言模型(KE-PLMs)的研究现状,探讨了 KE-PLMs 在各种 NLU 和 NLG 应用中的超越性能以及 KE-PLMs 面临的挑战和未来研究方向。
Oct, 2021