马尔可夫约束作为大型语言模型代理
利用大型语言模型的丰富语言知识和强大的推理能力,我们提出了一种新的生成式翻译范式 ——“GenTranslate”,可以从 N 个候选译文中生成更高质量的翻译结果,并且在各种语音和机器翻译基准测试中明显优于现有模型。
Feb, 2024
通过将文本生成问题形式化为未来约束生成问题,以最小化不良行为并确保指令的忠实执行,本文介绍了利用 LLM 的未来约束满足估计来指导文本生成过程的方法,并通过对关键词受限生成、有害性降低和问答中的事实正确性等三个不同的文本生成任务进行了广泛的实验,证明了该方法的有效性。
Dec, 2023
我们介绍了一个贝叶斯学习模型来理解大型语言模型的行为。我们探讨了大语言模型的优化指标,基于对下一个标记的预测,并开发了一个基于此原则的新颖模型。我们构建了一个理想的生成文本模型,通过具有先验信息的多项式过渡概率矩阵表示,并研究了大语言模型如何逼近该矩阵。我们讨论了嵌入和多项式分布之间的映射的连续性,并提出了狄利克雷逼近定理来近似任何先验。此外,我们展示了大型语言模型的文本生成如何符合贝叶斯学习原理,并深入探讨了其在上下文学习中的影响,特别是解释了为什么在更大的模型中,提示被视为要更新的样本。我们的研究结果表明,大型语言模型的行为与贝叶斯学习一致,为它们的功能和潜在应用提供了新的见解。
Feb, 2024
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023
通过利用协程方式的内容生成约束和预先协商的上下文无关文法(CFG),我们提出了一种引导大型语言模型(LLMs)生成符合特定约定的结构化内容的方法,从而增强生成目标数据结构、类型或指令的稳定性和一致性,降低应用开发复杂性。与基准测试相比,我们的方法提高了准确性 1.09 到 11.6 倍,LLMs 仅需约 16.5% 的样本即可有效生成 JSON。这提高了 LLM 生成内容在计算机程序中的可用性。
Apr, 2024
本研究提出了一种新的改进 Transformer 模型的方法,使用了文本序列中的离散潜在表示构造 n-gram,并应用于语言建模和文本分类中,经实验证明性能优于传统的 Transformer 模型和 Primer,该模型已在 Jax 中开源以便复现。
Jul, 2022
介绍了 ClusterLLM,一种新颖的文本聚类框架,它利用指导调整的大型语言模型(例如 ChatGPT)的反馈。通过与传统的无监督方法相比较,ClusterLLM 具有两个有趣的优势:(1)即使其嵌入不可访问,它也具有 LLM 的紧急能力;(2)通过文本指令和 / 或少量注释数据,他可以理解用户在聚类方面的偏好。
May, 2023
通过引入适应性框架 Ctrl-G,该研究提出了一种可实现对大型语言模型的可控生成的方法,并将其应用于交互文本编辑和有限状态自动机表示的逻辑约束,结果显示 Ctrl-G 在人类评估中相比于 GPT4 以及 GPT3.5 取得了 30% 以上的满意率提升,并在标准基准测试中超越了中型语言模型。此外,该研究还进行了 Grade School Math 基准测试作为概念验证,展示了 Ctrl-G 在辅助大型语言模型推理方面的潜力。
Jun, 2024
我们提出了一种大间隔准则来训练神经语言模型,该模型的训练与最小化困惑度不同,通过增加语句的 “好” 和 “坏” 的间隔以进行特定任务的再评分,实验证明我们的方法在语音识别上可以减少 1.1 WER,在机器翻译中可以增加 1.0 BLEU。
Aug, 2018