两个基于语篇的语言模型用于语义
该研究介绍了一种将主题模型与语言模型相结合的方法,扩展了语言理解的范围,通过主题进行了文档级上下文的抽取,并提出了一种可解释的主题表征,将主题语义加入到语言模型中。通过建模每个句子中的话题,保留了句子与文档主题关联,提出了一种既有隐藏话题,同时又有可解释话题的神经组合语言模型。该模型在多项任务中展现了显著提升的能力,包括语言建模、词义消岐、文档分类、检索和文本生成。
Jun, 2020
深度是一个编码器 - 解码器模型,通过在预训练过程中引入面向语篇的目标来提高语言模型在语篇层面上的理解能力。通过结合层次化的句子表示和两个目标:句子重排和跨度破坏,深度能够更快地学习语义和语篇级别的表示,从而拓展了 T5 在语篇能力方面的表现。
May, 2024
本研究提出了一种无域限制的神经模型,可用于度量多个方面的连贯性,并能在生成新语句时保持连贯性,该模型包括区分性模型和生成性模型,以及一种新的基于神经潜变量马尔科夫生成模型,可捕获文本中句子之间的隐含连贯性依赖关系,并在多个连贯性评估方面取得了最先进的表现,为处理语篇上下文生成连贯性文本迈出了一步。
Jun, 2016
在理解预训练语言模型对话建模能力方面,我们提出了一种句子入侵检测任务,并在英语方面检查了一系列预训练 LM 的性能。我们通过构建包含英语维基百科和 CNN 新闻文章的 170,000 + 文档的新型入侵句子检测数据集 INSteD,显示预训练 LM 在域内评估中表现出色,但在跨域设置中经验了大幅下降,表明其对跨域推广的能力有限。进一步的,在一个新的语言探测数据集上的结果表明,在跨域设置中有很大的改进空间。
Mar, 2021
本研究探讨了预训练语言模型在捕捉篇章关系上的能力,并通过探究任务验证了不同架构和层数的 PLMs 的表现,得出了对于不同 NMT 任务在何种情况下使用不同层的 PLMs 是最好的决策。
May, 2023
本文介绍了一种神经语言模型,可以通过类似主题模型的架构将文档上下文(而非当前句子)作为简洁的表征加入模型中。实验表明,这种模型在语言模型困惑度和主题相关性方面优于仅基于句子的模型和标准 LDA 主题模型。同时,该模型还具有生成单个主题关联句子的功能,为主题的解释提供了另一种方式。
Apr, 2017
利用归纳推理现象,通过研究语言模型(LMs)中的语义归纳综合,分析人工归纳文献中观察到的现象,并研究涉及隐含推理和新出现功能识别等任务的归纳行为,并分析并联系到学习到的概念表示空间。
Nov, 2021
本文提出了一种语义基础的语言模型方法,将语言模型嵌入到自编码器中,在保持语义解析器冻结的同时通过采样和训练提高了自动生成的文本的流畅度和语义准确性,使用 BLEU 分数和标准解析度量在 English WebNLG 3.0 数据集上进行实验,并通过人工评估验证了自动评估实验的结果。
Nov, 2022
文本文件通常按多个层次结构化:单个单词由语法相关联,但更大的文本单元由话语结构相关联。本研究提出并实证评估了一组多级递归神经网络语言模型,称为文档上下文语言模型(DCLM),它们在句子内外都融入上下文信息。与基于单词级的递归神经网络语言模型相比,DCLM 模型预测概率略有提高,文档连贯性评估显著提高。
Nov, 2015