CatCode: 基于代码和文本混合的 LLMs 综合评估框架

Mar, 2024

CatCode: 基于代码和文本混合的 LLMs 综合评估框架

CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of Code and Text

Zhenru Lin, Yiqun Yao, Yang Yuan

TL;DR使用范畴论作为框架，提出了一个名为 CatCode 的自动评估框架，可以全面评估大语言模型在编码能力方面的表现。

Abstract

large language models (LLMs) such as ChatGPT are increasingly proficient in understanding and generating a mixture of code and text. Evaluation based on such $\textit{mixture}$ can lead to a more comprehensive understanding of the models' abilities in solving coding problems. However,

large language models evaluation methods category theory code debugging automatic evaluation framework

发现论文，激发创造

CAT-LM: 训练基于对齐的代码和测试的语言模型

CAT-LM 是一个使用 27 亿参数在 Python 和 Java 项目语料库上进行训练的新颖的预训练信号，通过考虑代码和测试文件之间的映射来生成与开发人员相似的测试代码，并且在生成测试完成时比更大的语言模型和最近的测试特定模型表现更好。

Oct, 2023

增强集成上下文信息的代码生成库

CatCoder 是一种新颖的代码生成框架，扩展了库级代码生成的能力，通过整合相关代码和类型上下文，利用静态分析器提取类型依赖并将其与检索到的代码合并，创建综合提示；实验证明 CatCoder 在各种 LLMs 中表现良好，提供了一致的性能改进。

Jun, 2024

关于代码生成的大型语言模型调查

基于大规模语言模型的代码生成领域的综述，介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用，对学术与实践之间的差距进行了分析，提出了关键挑战和机遇，并提供了一个资源网站以记录和传播该领域的最新进展。

Jun, 2024

L2CEval: 评估大型语言模型的语言到代码生成能力

最近，大型语言模型（LLMs），特别是那些在代码上进行预训练的模型，展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而，这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务（包括语义解析、数学推理和 Python 编程）中的语言到代码生成能力，分析了可能影响它们性能的因素，如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能，我们还衡量了模型的置信度校准情况，并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时，我们还发布了评估框架和所有模型输出，希望为今后在该领域的进一步研究奠定基础。

Sep, 2023

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

使用 ChatGPT 3.5 进行代码生成的十种编程语言的比较研究

研究 ChatGPT 3.5 模型在编写代码方面的能力，评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度，并发现了模型的主要意外行为和限制，旨在寻找发展的潜在领域，并检查自动生成代码对编程语言和技术行业发展的影响。

Aug, 2023

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

代码语言模型综述

系统综述了代码处理与语言模型的最新进展，包括 50 + 种模型，30 + 项评估任务和 500 多个相关研究。分析了通用语言模型（如 GPT 系列）和专门针对代码进行预训练的模型之间的关系和区别，并强调了代码建模从统计模型和 RNN 到预训练 Transformer 和 LLM 的历史转变。讨论了代码特定的特征及其在训练代码语言模型中的应用，并确定了该领域的主要挑战和潜在未来方向。

Nov, 2023

LLM 在一些解释性任务中实现与人类表现相匹配的问题链条推理的可扩展性定性编码

定性编码，或内容分析，从文本中提取含义，以识别文本语料库中的定量模式。最近，大型语言模型（LLM）在解释能力方面的进展为自动编码过程（对文本应用类别标签）提供了可能性，从而使人类研究人员能够集中精力进行更有创意的研究，而将这些解释性任务委托给人工智能。我们的案例研究是关于一项人文研究的一组密集段落长的社会历史代码。我们表明 GPT-4 能够提供与人类相当的解释，而 GPT-3.5 则不能。与我们基于人工导出的黄金标准相比，GPT-4 对于 9 个代码中的 3 个代码提供了出色的编码一致性（Cohen's Kappa >= 0.79），对于 8 个代码提供了显著的一致性（Kappa >= 0.6）。相比之下，GPT-3.5 在所有代码中表现不佳（mean (Kappa) = 0.34; max (Kappa) = 0.55）。重要的是，我们发现当要求 LLM 给出理由来解释其编码决策时（思路连贯推理），编码准确性显著提高。我们提出了这些以及其他发现以及一套适应 LLM 的传统编码手册的最佳实践。我们的结果表明，对于某些编码手册，最先进的 LLM 已经熟练掌握了大规模内容分析技术。此外，他们也表明，下一代模型很可能使人工智能编码成为大多数编码手册的可行选择。

Jan, 2024

MATEval：用于推进开放式文本评估的多智能体讨论框架

通过 MATEval 框架使用生成型大型语言模型进行多智能体文本评估，针对评估开放性文本中的不确定性和不稳定性问题进行改进，并取得了与人类评估最高的相关性，大幅提高了工业场景中的文本评估和模型迭代效率。

Mar, 2024