大小不一定胜：语言模型无法识别 Python 中的标识符交换

ACLMay, 2023

大小不一定胜：语言模型无法识别 Python 中的标识符交换

The Larger They Are, the Harder They Fail: Language Models do not Recognize Identifier Swaps in Python

Antonio Valerio Miceli-Barone, Fazl Barez, Ioannis Konstas, Shay B. Cohen

TL;DR本文表明大型语言模型在代码生成任务中表现出色，但在变量重命名等语言语义方面不及人类程序员，且存在反比例缩放现象。作者发现，尽管这些模型具有惊人的典型案例表现，它们仍然缺乏对所操作内容的深刻抽象理解，从而不适用于与其训练数据有明显偏差的任务，仅靠扩大规模是不够的。

Abstract

large language models (LLMs) have successfully been applied to code generation tasks, raising the question of how well these models understand programming. Typical programming languages have invariances and equiv

large language models programming languages python inverse scaling model size

发现论文，激发创造

反比缩放：大不一定好

通过运行一个公共比赛，我们在 11 个数据集上提供了逆比例缩放的实证证据，并确定了导致逆比例缩放的四个潜在原因。尽管大型语言模型在整体损失方面具有可预测的规律，但我们的结果表明，模型规模增加本身对某些任务可能不会产生进展，因此对于训练语言模型的数据和目标需要更加谨慎的思考。

Jun, 2023

大规模语言模型在提示注入攻击下的机器翻译伸缩行为

研究了大型语言模型在机器翻译任务上的指令注入攻击，发现在某些条件下，更大的模型可能更容易受到成功攻击的影响，这是多语言环境下非平凡的语言模型缩放行为研究的首次工作。

Mar, 2024

语言与大型语言模型之间的去向问题

人工智能，自然语言处理，大型语言模型和科学模型在语言方面的应用和发展的研究。

Oct, 2023

CodeGen2：训练大型语言模型处理编程和自然语言的经验教训

本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率，并在 1B LLMs 上开展了一系列实验，提炼出四个教训并发布了 CodeGen2 模型和训练框架。

May, 2023

大型语言模型八大要点

该论文调查了大型语言模型的八个潜在问题，包括其预测能力的增强，不可预测的行为的出现，对外部世界的学习和使用表示，行为引导技术的不可靠性，内部工作方式的解释困难性，性能上界不是人类任务表现，不一定表达其创建者或网络文本编码的价值观，与 LLMs 的简短交往经常是误导性的。

Apr, 2023

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

符号和语言无关的大型语言模型

通过将成功的自底向上策略应用于符号化环境中，我们提出使用具有符号性、语言不可知性和本体论基础的大型语言模型，以在规模上逆向工程语言，从而解决大型语言模型中的难题。

Aug, 2023

自回归之火：通过它们所训练解决的问题来理解大型语言模型

大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张，为了全面理解这些系统，我们需要考虑它们在训练中解决的问题：互联网文本的下一个词预测。通过认识到这个任务所带来的压力，我们可以对大语言模型采用的策略进行预测，从而推断它们的成功或失败。这种方法，我们称之为目的论方法，使我们能够确定三个因素，我们假设这些因素会影响大语言模型的准确性：执行任务的概率、目标输出的概率和提供的输入的概率。我们预测，当这些概率较高时，大语言模型的准确性会更高，而当概率较低时，即使在确定性环境下，概率也不应该起作用。为了验证我们的预测，我们对两个大语言模型（GPT-3.5 和 GPT-4）进行了十一项任务的评估，我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下，实验揭示了令人惊讶的失效模式。例如，当输出是高概率单词序列时，GPT-4 解码简单密码的准确率为 51%，但当输出是低概率时，准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说，我们得出结论，我们不应该把大语言模型评估为人类，而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。

Sep, 2023

尺寸越大越好吗？通过预算重新分配改进的 LLM 代码生成

在相同预算下，研究发现使用较小的语言模型可以获得持续改进，但在无法进行单元测试的情况下，从较小模型中选择候选者的排名方法的性能不如较大模型的单一输出。

Mar, 2024

大型语言模型代码生成的鲁棒性和可靠性研究

最近，大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而，对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI，用于评估 LLMs 生成的代码的可靠性和鲁棒性，并发现甚至对于 GPT-4 而言，62% 的生成代码存在 API 误用，这可能导致意想不到的后果。

Aug, 2023