语言模型中生成顺序的重要性
本文通过实证研究生成顺序来探讨机器翻译的效果,发现对于英德翻译任务,以字母和最短优先等方式生成的效果相当于标准 Transformer 生成的效果,提出了不必严格遵循从左到右的翻译方式。而对于英中翻译任务,由于语言对齐度低,生成的效果则对生成顺序更加敏感。
Oct, 2019
在本文中,我们通过添加一种顺序重构的视角并选择不同范围的数据集,重新审视了关于词序的假设,包括 “词序与词汇语义冗余” 和 “模型不依赖词序”。实证结果支持 ChatGPT 在推断中依赖于词序,但不能支持或否定词序与词汇语义之间的冗余关系。
Mar, 2024
研究人员提出了一种基于训练有素的神经网络的文本生成模型,以便从结构化数据中(例如表格)生成自然文本,该模型能够捕捉不同字段之间的关系,以生成更流畅的文本。
Sep, 2017
此研究发现,BERT 等自然语言处理模型在进行自然语言理解任务时,即使输入词的顺序被随机打乱,其对下游任务的影响几乎不会改变,因为这些模型主要利用表面特征(如情感分析中的关键词情感或自然语言推断中序列对输入的逐词相似性)进行正确的决策。研究结果表明,许多自然语言处理任务不能真正挑战机器对句子含义的理解能力。
Dec, 2020
通过强化学习训练预训练的无向翻译模型的生成顺序,从而实现了比从左到右或学习自 Mansimov 等人 (2019) 学习的顺序得到的输出 BLEU 分数更高的翻译结果。
Dec, 2021
本文探讨了语言处理中的单词顺序问题,并提出了基于语言学、心理语言学、计算语言学和自然语言处理的理论模型。进一步,为了优化处理单词最小化相关性,提出一种新的单词顺序,重点关注远距离依赖的人类和计算语言处理困难。最后探讨这些单词顺序对于人类语言和计算模型的影响。
Aug, 2021
研究发现,经过随即排列的句子进行预训练和 / 或微调的语言模型表现出与 GLUE 上竞争力的表现,这给单词顺序信息的重要性带来了质疑。尽管有一些研究表明位置嵌入对于模型在混乱的文本上表现良好似乎很让人费解,但我们对这些语言模型进行了单词顺序信息的探究并研究了从混淆的文本中学习的位置嵌入编码的内容,表明这些模型保留了与原始的自然顺序有关的信息。我们表明,这在某种程度上是由于先前的研究中所实现的混淆的微妙之处 —— 而不是在子单词分段之后而是在之前。但令人惊讶的是,我们发现即使是在子单词分段之后洗牌的文本上训练出的语言模型也保留了单词顺序信息的某些方面,因为句子长度和单字概率之间存在统计依赖关系。最后,我们证明除了 GLUE,各种语言理解任务确实需要单词顺序信息,这往往不能通过微调来学习。
Mar, 2022
这篇论文提出了一种技术,可以确保生成式语言模型在给定的子序列集合上不受顺序相关性的影响,从而消除顺序相关性。结果表明,该方法对预期的准确性影响较小,而且可以应用于任何基于 Transformer 的大语料库模型,对文本生成没有影响,进一步讨论了通过修改输入表示可以获得其他强大的 LLM 性能保证的可能性。
Jun, 2024