通过语言模型算术控制文本生成

Nov, 2023

Controlled Text Generation via Language Model Arithmetic

Jasper Dekoninck, Marc Fischer, Luca Beurer-Kellner, Martin Vechev

TL;DR使用模型算术，我们可以对大型语言模型进行组合和偏置，同时使得生成的文本具有更精确的控制，并且在毒性减少任务上表现优于现有技术。

Abstract

As large language models (LLMs) are deployed more widely, customization with respect to vocabulary, style and character becomes more important. In this work we introduce model arithmetic, a novel inference framew

large language models model arithmetic biasing llms controlled text generation toxicity reduction

发现论文，激发创造

ArthModel: 提升大型语言模型的算术技能

通过训练语言模型生成与算数问题相关的后缀表达式，并将其与小型预训练模型结合，将令牌嵌入转化为真实稠密数字，通过深度学习平台的本地函数获得正确答案。最后，通过提示注入将小型模型的结果输出添加到语言模型中，从而增强了语言模型的算数能力。

Nov, 2023

语言模型的数值计算能力：从记忆到计算

该研究调查了语言模型在计算预测和问题解决能力方面的应用，以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本，该研究成功地训练了一个轻量级语言模型，并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设，即语言模型在适当的内部表示映射后，计算发生在数值空间中，其工作类似于一个编码 - 回归 - 解码机器。

Aug, 2023

使用合成数据探索大型语言模型的数学外推

通过对高质量合成数据的微调，本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现，并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明，这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1，而且还在域外数据集上展现出一定的泛化能力，对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集，在这两个更难的任务上，经过微调的模型展示出令人鼓舞的表现，零样本一次通过率 @1 分别为 0.33 和 0.35。

Jun, 2024

安全算法：通过控制参数和激活函数在测试时间对齐语言模型的安全性

安全算术是一种训练 - free 的框架，可提高大型语言模型在不同场景下的安全性，通过避免有害内容和促进安全响应来确保模型的安全性，实验证明安全算术在确保生成安全内容方面优于现有方法。

Jun, 2024

语言模型实现简单的 Word2Vec 风格的向量算术

本文研究了语言模型在上下文学习中的机制和解决问题的策略，发现虽然它们规模巨大和复杂，但其实有时候它们会利用简单向量算术的机制编码抽象关系，并且利用前馈网络的简单线性更新算法来完成各种任务，在一定程度上具有可解释性。

May, 2023

OccamLLM：一步快速准确的语言模型算术

提出了一种框架，通过在单个自回归步骤中实现精确算术运算，来提供更快、更安全和更可解释的大型语言模型系统，实现了 100% 准确率的单一算术运算和挑战性算术的多步推理问题。

Jun, 2024

大型语言模型在算术任务中的表现如何？

本研究提出一个数学计算数据集 MATH 401，用于测试最新的大型语言模型（包括 GPT-4，ChatGPT 等）在解决数学单词问题时的算术能力，并提供了能力的详细分析。

Mar, 2023

线性受控语言生成与执行保证

使用控制性语言生成策略，通过对概念语义的线性表示在潜空间中实现文本生成的量化处理，以确保性能保证，并通过在闭合形式中计算的小型无梯度干预实现动态轨迹偏离不希望的含义区域，从而避免不良内容并保持文本质量。

May, 2024

MathPrompter：利用大型语言模型进行数学推理

提出了一种名为 MathPrompter 的技术，它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数，并以不同的方式解决相同的数学问题，从而提高模型在算术问题上的性能并提高置信水平。

Mar, 2023

无训练即获益：用于无需训练的语言适配器增强的语言算术

在多语言预训练语言模型中，模块化深度学习是解决多语言性的技术，而语言算术是一种训练后的后处理方法，能够显著提升在零样本和低资源应用中的多语言性能。

Apr, 2024