Seq2seq 模型中的 Token 级拟合问题
大型语言模型存在分词问题,导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响,并展示模型参数缩放与子词规范化对解决这些问题的作用。
Jun, 2024
该研究提出了一种基于奖励的极大似然估计方法,旨在克服循环神经网络语言模型的固有弊端,并在任务完成后通过两种平滑方法(token-level loss smoothing 和 sequence-level loss smoothing)显著提高了图像生成和机器翻译的效果。
May, 2018
这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
Oct, 2023
研究表明 Seq2Seq 模型在一些特殊结构外的数据上表现可能不理想,而本文探讨了在一个简单的、明确定义的结构转换任务中,该模型实现泛化的能力如何取决于其随机种子的选择且其泛化结构的能力高度敏感。
May, 2018
该研究介绍了一种基于全局序列评分学习的 Sequence-to-Sequence (seq2seq) 模型和波束搜索训练方案,通过避免局部训练的传统偏差问题,统一训练损失和测试时间使用,并保留 seq2seq 的有效训练方法。在单词排序、解析和机器翻译三个不同的序列到序列任务中,该系统优于基于注意力的 seq2seq 系统高度优化的系统和其他基准线。
Jun, 2016
该研究分析了一个基于注意力机制的序列到序列语音识别系统,提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案,并在没有语言模型的情况下,其词错误率为 10.6%,与 trigram 语言模型一起达到了 6.7%的词错误率。
Dec, 2016
通过实验证明,Seq2Seq 模型在英语句法分析、语义分析和文本之间的转换任务中,普遍存在推广的普适性较低的问题,但是在建立了语言知识的神经符号模型中,这些限制往往可以克服。
Oct, 2022
本文提出了一种针对 seq2seq 问题的标签平滑技术,能够克服大量输出的难题,通过充分的 n-gram 重叠和语义相似性,取得了明显的效果提升,并且在不同的数据集上超越了现有技术的最佳水平。
Oct, 2020
本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度,并发现跨语言单词表的重叠实际上可能对某些下游任务(如 POS、依赖树标记)产生负面影响,而在命名实体识别和句子级任务(如跨语言检索、NLI)中分享词汇表是有益的。此外,本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此,我们为未来的模型开发人员提供了详细的指导,以选择最适合他们特定应用程序的符号化器。
May, 2023
使用 6 种不同的分词方案预先训练了相对较小的尼泊尔语言模型,并发现相比于字节级 BPE 算法,SentencePiece 等算法在尼泊尔的微调性能上表现更好。此外,我们还预先训练和微调了基于顺序转换器的语言模型。
Apr, 2024