Seq2seq 模型中的 Token 级拟合问题

May, 2023

Token-level Fitting Issues of Seq2seq Models

Guangsheng Bao, Zhiyang Teng, Yue Zhang

TL;DR研究表明，在自然语言处理方面，序列到序列 (seq2seq) 模型的早停训练会导致 token 级别出现过度拟合和欠拟合的问题，并通过实验和分析找出了对 token 级别拟合的三个主要影响因素。

Abstract

Sequence-to-sequence (seq2seq) models have been widely used for natural language processing, computer vision, and other deep learning tasks. We find that seq2seq models trained with early-stopping suffer from issues at the token level. In particular, while some tokens in the vocabulary demonstrate →

sequence-to-sequence models token-level fitting overfitting underfitting natural language processing

发现论文，激发创造

分词不足：分词的诅咒

大型语言模型存在分词问题，导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响，并展示模型参数缩放与子词规范化对解决这些问题的作用。

Jun, 2024

适用于 RNN 语言模型的令牌级别和序列级别损失平滑

该研究提出了一种基于奖励的极大似然估计方法，旨在克服循环神经网络语言模型的固有弊端，并在任务完成后通过两种平滑方法（token-level loss smoothing 和 sequence-level loss smoothing）显著提高了图像生成和机器翻译的效果。

May, 2018

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

Seq2Seq-Attention 模型中语言泛化和失败之间的微妙平衡

研究表明 Seq2Seq 模型在一些特殊结构外的数据上表现可能不理想，而本文探讨了在一个简单的、明确定义的结构转换任务中，该模型实现泛化的能力如何取决于其随机种子的选择且其泛化结构的能力高度敏感。

May, 2018

序列到序列学习作为 Beam-Search 优化

该研究介绍了一种基于全局序列评分学习的 Sequence-to-Sequence (seq2seq) 模型和波束搜索训练方案，通过避免局部训练的传统偏差问题，统一训练损失和测试时间使用，并保留 seq2seq 的有效训练方法。在单词排序、解析和机器翻译三个不同的序列到序列任务中，该系统优于基于注意力的 seq2seq 系统高度优化的系统和其他基准线。

Jun, 2016

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

序列到序列模型对结构泛化的困难

通过实验证明，Seq2Seq 模型在英语句法分析、语义分析和文本之间的转换任务中，普遍存在推广的普适性较低的问题，但是在建立了语言知识的神经符号模型中，这些限制往往可以克服。

Oct, 2022

语义标签平滑用于序列到序列问题

本文提出了一种针对 seq2seq 问题的标签平滑技术，能够克服大量输出的难题，通过充分的 n-gram 重叠和语义相似性，取得了明显的效果提升，并且在不同的数据集上超越了现有技术的最佳水平。

Oct, 2020

多语言语言建模中的分词影响：评估跨语言词汇分配和重叠

本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度，并发现跨语言单词表的重叠实际上可能对某些下游任务（如 POS、依赖树标记）产生负面影响，而在命名实体识别和句子级任务（如跨语言检索、NLI）中分享词汇表是有益的。此外，本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此，我们为未来的模型开发人员提供了详细的指导，以选择最适合他们特定应用程序的符号化器。

May, 2023

用于尼泊尔语序列语言模型的标记化效果对微调性能的预测能力调查

使用 6 种不同的分词方案预先训练了相对较小的尼泊尔语言模型，并发现相比于字节级 BPE 算法，SentencePiece 等算法在尼泊尔的微调性能上表现更好。此外，我们还预先训练和微调了基于顺序转换器的语言模型。

Apr, 2024