文档连贯性建模评估

ACLMar, 2021

Evaluating Document Coherence Modelling

Aili Shen, Meladel Mistica, Bahar Salehi, Hang Li, Timothy Baldwin...

TL;DR在理解预训练语言模型对话建模能力方面，我们提出了一种句子入侵检测任务，并在英语方面检查了一系列预训练 LM 的性能。我们通过构建包含英语维基百科和 CNN 新闻文章的 170,000 + 文档的新型入侵句子检测数据集 INSteD，显示预训练 LM 在域内评估中表现出色，但在跨域设置中经验了大幅下降，表明其对跨域推广的能力有限。进一步的，在一个新的语言探测数据集上的结果表明，在跨域设置中有很大的改进空间。

Abstract

While pretrained language models ("LM") have driven impressive gains over morpho-syntactic and semantic tasks, their ability to model discourse and pragmatic phenomena is less clear. As a step towards a better understanding of their →

pretrained language models discourse modelling intruder sentence detection lm performance cross-domain generalisation capacity

发现论文，激发创造

预训练语言模型的话语探测

本文使用七种预训练语言模型，运用七种篇章探测任务，将研究重点从句子级别上升到文档级别上，最终发现 BART 是捕获篇章信息能力最好的模型，但只有其编码器部分表现最佳，BERT 作为基准模型也出奇地表现良好，并且不同层次的模型对篇章信息的刻画效果，以及模型之间的差距巨大。

Apr, 2021

两个基于语篇的语言模型用于语义

本文提出了两个模型，即语义链模型和话语信息模型，并探究了四种实现方式。通过在语义自然语言处理任务中进行实验验证，证明我们的语义语言模型（SemLM）可以提高共指消解和话语分析等性能。

Jun, 2016

预训练如何改善基于语篇的翻译？

本研究探讨了预训练语言模型在捕捉篇章关系上的能力，并通过探究任务验证了不同架构和层数的 PLMs 的表现，得出了对于不同 NMT 任务在何种情况下使用不同层的 PLMs 是最好的决策。

May, 2023

DEPTH：分层预训练的议程教育

深度是一个编码器 - 解码器模型，通过在预训练过程中引入面向语篇的目标来提高语言模型在语篇层面上的理解能力。通过结合层次化的句子表示和两个目标：句子重排和跨度破坏，深度能够更快地学习语义和语篇级别的表示，从而拓展了 T5 在语篇能力方面的表现。

May, 2024

增强生成语言模型中的句子嵌入的简单技术

本研究挑战了从预训练语言模型（PLMs）中获得句子嵌入所必须的显式单字限制的普遍观点，并通过实验证明了这种方法对于判别模型或生成型 PLMs 的精调并非必需。在此基础上，我们提出了两种创新的提示工程技术，可以进一步增强 PLMs 原始嵌入的表达能力：假装的思路链和知识增强，并详细研究了导致其成功的潜在因素。

Apr, 2024

透过话语连接词观察预训练语言模型的实用能力

本论文旨在针对基于预训练语言模型（LMs）的语用能力，重点关注与话语连接词有关的语用能力。我们通过自然发生的数据和来源于心理语言学的控制输入结合的方式来制定填空测试方式，重点测试模型使用语用线索预测话语连接词的能力、理解与连接词相关的含义，以及模型对连接词时间动态的人类偏好程度。我们发现，虽然模型在自然发生数据的情境下可以合理地预测连接词，但当我们控制语境以孤立高级语用线索时，模型的灵敏度较低，而模型也没有显示出显著的人类时间偏好。总体而言，研究结果表明，在现阶段，主流的预训练模型不能够达到具备实质性的语用能力。

Sep, 2021

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

通过句子编辑探究语言模型可解释性

本文旨在将一个句子编辑数据集复用成为解释性测试场，系统研究预训练语言模型的可解释性及在该场景下的解释效果，发现注意力权重相关性较高，并且比基于梯度的显著性提取方法更有效。

Nov, 2020

超越已知：研究 LLMs 在域外意图检测中的性能

对大规模语言模型在超出预定义领域内意图检测任务中的能力进行了综合评估，揭示了它们的优势和劣势，发现 LLMs 表现出强大的零样本和少样本能力，但与使用完整资源进行微调的模型相比仍存在劣势。通过进一步的分析实验，讨论总结了 LLMs 面临的挑战，并提出了对未来工作的指导，包括注入领域知识、加强从领域内到超领域的知识转移和理解长指令。

Feb, 2024

对话理解的结构预训练

本文提出了结构化预训练对话阅读器 SPIDER，通过两个训练目标相结合以捕获对话独有的特征，即复原语音顺序和句子骨干规则化，实现了从对话文本中有效地捕获任务相关知识，并在广泛使用的对话基准测试中取得了显著的实验结果。

May, 2021