宽泛上下文语言建模作为阅读理解

Oct, 2016

宽泛上下文语言建模作为阅读理解

Broad Context Language Modeling as Reading Comprehension

Zewei Chu, Hai Wang, Kevin Gimpel, David McAllester

TL;DR该研究探讨了基于神经网络的阅读理解模型在语料库预测任务上的应用，并分析了其在不同情景下的表现情况。

Abstract

Progress in text understanding has been driven by large datasets that test particular capabilities, like recent datasets for reading comprehensio

text understanding large datasets lambada dataset reading comprehension neural networks

发现论文，激发创造

LAMBADA 数据集：需要广泛语篇背景下的词语预测

介绍了 LAMBADA 数据集用于通过单词预测任务评估计算模型的文本理解能力，该数据集要求模型具备更广泛语义的理解能力，该数据集包含了很多语言现象，现有的语言模型在该数据集上的准确率均未能达到 1%。

Jun, 2016

数据不足？深度学习来救援！

通过现有的自然语言处理技术和文本生成能力，我们提出了一种新的数据增强方法，即基于语言模型的数据增强 (LAMBADA)，它可以在有限标注数据的情况下用强大的预训练神经网络模型合成新的有标注数据，进而提高文本分类任务性能。

Nov, 2019

主题驱动神经语言模型

本文介绍了一种神经语言模型，可以通过类似主题模型的架构将文档上下文（而非当前句子）作为简洁的表征加入模型中。实验表明，这种模型在语言模型困惑度和主题相关性方面优于仅基于句子的模型和标准 LDA 主题模型。同时，该模型还具有生成单个主题关联句子的功能，为主题的解释提供了另一种方式。

Apr, 2017

大型语言模型是否能理解上下文？

理解上下文是理解人类语言的关键，本论文介绍了一个上下文理解基准，通过适应现有数据集来评估生成模型的能力，并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。

Feb, 2024

机器阅读理解：上下文语言模型的作用与发展

本篇综述论文全面比较了机器阅读理解的研究，主要介绍了它的起源、发展历程、对 NLP 社区的影响、定义、数据集、技术方法、研究亮点，并提出了新的分类和分类法，认为机器阅读理解将浅层文本匹配转化为认知推理的领域，同时也深化了从语言处理到语言理解的进展。

May, 2020

注意力求和读者网络的文本理解

该研究提出了一种使用注意力机制直接从文本中选取答案的模型，特别适用于以文本中某个单词为答案的问题，并在多个数据集上取得了新的最优成绩。

Mar, 2016

实体跟踪改善填空式阅读理解

本文探索基于简单神经方法的阅读理解模型在长期语境处理和记忆显著信息方面的能力，提出了两个扩展方案：增加实体特征和使用多任务跟踪目标进行训练，并在 LAMBADA 数据集上取得了优于当前最先进方法的效果，特别是在难度较高的实体示例中。

Oct, 2018

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

上下文限制使神经语言模型更接近人类

本文研究了语言模型在认知建模和工程研究中的应用，提出了现代神经 LM 的局限性，其中与人类阅读过程相比，存在上下文访问能力的差异。限制 LM 上下文访问可以提高其模拟人类阅读行为的能力，同时将句法偏好纳入 LM 的上下文访问中也可以增强其认知合理性。

May, 2022

通过阅读理解调整大型语言模型

我们研究了如何在特定领域的语料库上继续进行预训练，发现在原始语料库上进行训练赋予了模型领域知识，但严重损害了其对问题回答的提示能力。借鉴人类通过阅读理解进行学习的灵感，我们提出了一种简单的方法，将原始语料库转化为阅读理解文本。每个原始文本都会丰富其内容相关的一系列任务。我们的方法可以高度扩展，适用于任何预训练语料库，并在生物医学、金融和法律三个不同领域的各种任务中持续提升性能。值得注意的是，我们的 7B 语言模型在性能上与规模更大的专门领域模型（如 BloombergGPT-50B）相媲美。此外，我们证明领域特定的阅读理解文本甚至可以提高模型在通用基准上的性能，展示了在更多领域开发通用模型的潜力。我们的模型、代码和数据将可在此 https URL 中获取。

Sep, 2023