增强主题连贯性的基于预训练 Transformer 的神经文本分割模型

Oct, 2021

增强主题连贯性的基于预训练 Transformer 的神经文本分割模型

Transformer over Pre-trained Transformer for Neural Text Segmentation with Enhanced Topic Coherence

Kelvin Lo, Yuan Jin, Weicong Tan, Ming Liu, Lan Du...

TL;DR本文提出了一种名为 Transformer$^2$ 的基于 transformer 的 transformer 框架，用于进行神经文本分割，并在实验中证明了其在语义一致性方面的优越性。

Abstract

This paper proposes a transformer over transformer framework, called Transformer$^2$, to perform neural text segmentation. It consists of two components: bottom-level sentence encoders using →

transformer over transformer neural text segmentation pre-trained transformers multi-task loss semantic coherence

发现论文，激发创造

双层 Transformer 和辅助一致性建模，提升文本分段

提出了一种新的监督式文本分段模型，它基于简单而明确的连贯性建模，并包括两个层次相连的 Transformer 网络的神经架构，它是一种多任务学习模型，并且通过将句子级分段目标与区分正确顺序的连贯性目标耦合来实现。该模型称为具有连贯性感知的文本分割（CATS），在一系列基准数据集上实现了最先进的分割性能，通过与跨语言词嵌入相结合，我们还展示了它在零 - shot 语言转移方面的有效性：它可以成功地分割训练中未见过的语言中的文本。

Jan, 2020

基于段落的 Transformer 预训练模型用于多句推理

本文介绍了一种新的预训练目标，用于在多个输入句子之间建模段落级别的语义，并证明了该预训练技术在多候选推理任务的联合建模和交叉编码器场景下优于传统技术。

May, 2022

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

Segatron: 面向分段的 Transformer 模型用于语言建模和理解

提出一种基于段落、句子和标记结合的位置编码的 Segment-aware Transformer 模型，并在 Transformer-XL 模型和 BERT 模型上进行预训练和测试，在语言建模和自然语言处理任务中取得了更好的表现。

Apr, 2020

P-Transformer：面向更好的文档到文档神经机器翻译

本文提出了一个使用位置感知 Transformer 的 Doc2Doc NMT 模型，通过整合绝对位置信息和相对位置信息，显著改善了传统 Transformer 在数据集小且层数较高时不能训练成功的问题，并在多个语言对的文档级翻译实验中取得了新的最高性能。

Dec, 2022

WMT19 中的英捷系统：文档级 Transformer

本文介绍在 WMT19 共享任务中，我们采用 Transformer 模型和 document-level 训练方式，用于英捷克翻译，以提高翻译文件的充分性和连贯性。

Jul, 2019

上下文感知 Transformer 预训练与答案句子选择

该研究提出了三个预训练目标，旨在模拟上下文 Answer Sentence Selection 的下游微调任务，并应用于 RoBERTa 和 ELECTRA 等模型，达到一定的准确率提升。

May, 2023

句子编码器预训练的交叉思维

这篇论文提出了 Cross-Thought 方法用以预训练序列编码器，通过大规模的短序列训练 Transformer-based 序列编码器来自动选择对预测掩码词最有用的信息，用于大规模自然语言处理任务，如问答，文本推断等，实验结果表明，所提出的方法比传统基于连续句子信号的最新编码器以及传统掩码语言模型基线更加优秀，并打破了 HotpotQA (full-wiki setting) 的最新记录，取得了新的最高水平的中间信息检索表现。

Oct, 2020

基于预训练的自然语言生成用于文本摘要

本文提出了一种基于预训练的编码器 - 解码器框架，使用 BERT 编码输入序列来生成输出序列，采用 Transformer-based 解码器生成草稿输出序列，并将其与原始输入序列结合使用，使用 BERT 生成的草稿表示来预测遮罩位置的优化单词，进而在文本摘要任务上实现了最新的技术水平。

Feb, 2019

基于 Transformer 的大语料库语义相似度分析的认知研究

本文利用传统技术和转换器技术对美国专利短语进行语义相似性分析和建模，并对 Decoding Enhanced BERT（DeBERTa）的四种不同变体进行实验，在此基础上通过 K 次交叉验证提高性能，实验结果表明我们的方法比传统技术更具有优越性，平均 Pearson 相关系数为 0.79。

Jul, 2022