通过同步实现长序列高效编码
本研究设计并研究了一种新的分层注意力 Transformer 架构(HAT),在几个序列到序列任务中优于标准 Transformer,包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线,并通过可视化分层编解码器注意力来研究了分层层次的理解,最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。
Apr, 2021
通过将每个长序列输入分割成一批块,并在编码步骤中对块间信息进行对齐,我们提出了一个简单的框架,使通用的预训练 Transformer 能够处理更长的序列,同时计算和内存成本与输入序列长度线性增长。通过在每个编码 Transformer 模块中对块中的起始和结束标记嵌入进行对齐,我们能够提取块间语义信息。为了学习一个有效的隐藏状态选择策略,我们设计了一个受强化学习启发的双重更新方案,将 Transformer 的解码器视为环境,并将下游性能指标作为奖励来评估隐藏状态选择动作。我们在真实世界的长文本摘要和阅读理解任务上的实证结果表明,与之前的长序列处理基准相比,我们取得了有效的改进。
Aug, 2023
本文提出了一种基于文档精华提取的文本摘要方法,并通过引入语言因素和改进神经网络如 LSTMs 和 Neural Semantic Encoders,利用自我强化学习模型进一步提高了文本摘要的质量,实现并超越了文本摘要领域的最佳性能,其中基于分层 NSE 模型的 ROUGE 值提升近 4 个百分点。
Oct, 2019
该论文提出了一种基于 Transformer 的模型 SEAL,用于长篇抽象文本摘要,模型具有可解释性,同时可以使用原始文档和摘要提供弱监督学习信号。该模型在现有长篇摘要任务上取得了最佳结果,并在新的数据集 / 任务 Search2Wiki 上优于强基线模型。
Jun, 2020
本文探讨了 Transformers 在长序列建模中的应用,并提出了一种处理百万级依赖关系的机器学习系统,其中的分布式多头注意力机制可提高 40 倍的计算效率。
Feb, 2023
本文研究了使用预训练 Transformer 模型进行长输入摘要所面临的挑战,并通过实验提出了一种新的模型 PEGASUS-X,在不需要并行训练和添加很多参数的情况下,能够高效地处理长度超过常规预训练模型最大输入长度的输入,并在长输入摘要任务中达到了比较强的性能表现。
Aug, 2022
本文介绍了一种新模型 LongT5,该模型将长输入变换(ETC)的注意力机制和摘要预训练(PEGASUS)的预训练策略整合到可扩展的 T5 架构中,取得了更好的自然语言摘要和问答系统结果。
Dec, 2021
本研究开发并发布了使用分段编码器,并将其与 Longformer 模型和部分预训练的 HAT 进行比较的完全预训练 HAT 模型,在多个长文档下游分类任务中,我们的最佳 HAT 模型在使用 10-20% GPU 内存的情况下比同等大小的 Longformer 模型更快地处理文档并实现更好的性能。在消融研究中,发现 HAT 在整个模型中进行跨段上下文信息处理比其他配置的早期或晚期跨段上下文处理性能更好。
Oct, 2022
该研究通过改进基于 Transformer 的异步分段双向解码策略,以提高翻译效率和准确性。实验结果表明,在处理长句子方面,与传统的单向翻译方法相比,我们的方法表现出更高的效率和改善的翻译质量。此外,研究还分析了句子长度对解码结果的影响,并探讨了模型在不同场景中的性能。这项研究的发现不仅为 NMT 领域提供了一种有效的编码策略,而且为未来的研究开辟了新的途径和方向。
Feb, 2024
这篇论文提出了 Cross-Thought 方法用以预训练序列编码器,通过大规模的短序列训练 Transformer-based 序列编码器来自动选择对预测掩码词最有用的信息,用于大规模自然语言处理任务,如问答,文本推断等,实验结果表明,所提出的方法比传统基于连续句子信号的最新编码器以及传统掩码语言模型基线更加优秀,并打破了 HotpotQA (full-wiki setting) 的最新记录,取得了新的最高水平的中间信息检索表现。
Oct, 2020