下一标记预测的隐性偏见
我们建议通过训练语言模型来预测多个未来标记,以提高样本利用效率,并对其下游能力进行改进,特别是在多词预测作为辅助训练任务时,在代码和自然语言生成模型方面获得了显著的改善。
Apr, 2024
该研究提出一种基于可微序列级训练目标的方法,使用概率 n-gram 匹配来避免强化学习框架,该方法在训练中执行贪心搜索并使用预测的单词作为上下文,以缓解曝光偏差问题,实验结果表明,该方法在 NIST 中英文翻译任务中显着优于基于强化学习的算法,并在强基线系统上平均实现了 1.5 个 BLEU 点的改进。
Sep, 2018
该研究提出了一种基于广义 EM 方法的 RNNNTP 方法,通过将其分为关系生成器和预测器,训练出同时具有高效性和可解释性的模型,实现了知识图谱的链接预测任务,并在性能上表现出与传统方法和当前强竞争方法相当的结果。
Mar, 2022
本文提出了一种解决人工智能中自然语言和知识库的推理问题的方法,即利用神经定理证明器和共享嵌入空间来实现,该方法被证明的可扩展性更加高效,并取得了较好的预测结果和可解释性。
Dec, 2019
大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力,使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明,即使是简单的模型,如线性的下一个标记预测器在 Chain-of-Thought(CoT)数据上训练,也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度,它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数,并分析了长度复杂度与其他复杂度概念之间的相互关系。最后,我们通过实验证明,简单的下一个标记预测器,如线性网络和浅层多层感知器(MLP),在文本生成和算术任务中显示出非平凡的性能。我们的结果表明,语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案,而不一定取决于特定的架构选择。
Sep, 2023
本文探讨了 BERT 预训练在 NSP 任务上的影响以及其他 14 种可能的辅助预训练任务,并研究了将多个任务包含到预训练中的不同方法。实验证明,使用多种任务的多任务预训练框架比单个辅助任务更好地提高了结果表现,并在 GLUE 基准测试中打败了 BERT Base。
Oct, 2020
本文从神经机器翻译、层次关联传递、Transformers 等角度入手,采用一种变体的 LRP 方法,研究表明更多的训练数据使得 NMT 模型更多的依赖于源信息并且具有更明确的令牌贡献。
Oct, 2020
本文提出了一种快速而简单的基于噪声对比估计算法的 NPLM 训练方法,用此方法训练了几个神经语言模型并在 Microsoft Research 句子完成挑战数据集上取得了最先进的结果,有效地降低了训练时间。
Jun, 2012
大型语言模型的研究着重于提升预训练数据的规模和质量,而目前对于其真正理解代码逻辑的任务效果仍然存在疑问。本文提出了一种新的任务,即 “逻辑等效代码选择”,证明了当前的大型语言模型在这一任务中表现不佳,并提出了预训练任务 “下一个标记预测 +” 来改善其性能,实验证明该方法对于逻辑等效代码的选择和代码补全任务有显著的改进。
Apr, 2024