关于代码生成的大型语言模型调查
大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力,并有潜力对我们的社会产生重大影响。然而,这些能力所需的资源相当可观,强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果,从模型中心、数据中心和框架中心的角度,将文献进行了分类整理。我们还创建了一个 GitHub 存储库,在这个存储库中收集了本调研中涉及的论文,并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源,帮助他们系统地了解高效大型语言模型的研究进展,并激励他们为这个重要而激动人心的领域做出贡献。
Dec, 2023
使用各种大型语言模型自动生成代码片段的自然语言摘要,研究结果表明,代码语言模型优于其通用模型,而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。
Oct, 2023
对大型语言模型(LLMs)进行了综述,包括三个流行的 LLM 系列(GPT,LLaMA,PaLM)的特点、贡献和局限性,同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标,最后讨论了未来的挑战和研究方向。
Feb, 2024
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用 LLM 进行 NLG 评估的全面概述,包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的 NLG 评估技术。
Jan, 2024
论文研究了大型语言模型(LLMs)在学术软件工程项目中的实用性,包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明,LLMs 在软件开发的早期阶段,特别是在生成基础代码结构和语法、错误调试方面,可以发挥重要作用。这些发现为我们提供了一个有效利用 LLMs 提高软件工程学生的生产力的框架,并强调了将教育重点转向为学生成功进行人工智能协作的必要性。
Jan, 2024
本文通过对 5000 多篇学术文献的综合分析,提供了关于 LLM 研究的路线图,包括核心算法开发、自然语言处理任务、LLM 在医学、工程、社会科学和人文学科中的应用等方面的研究趋势以及研究范式和合作模式的变化,为研究人员、从业者和决策者了解 LLM 研究的当前状态、影响和潜力提供了有价值的见解。
Apr, 2023
这篇研究论文总结了大型语言模型(LLMs)不同子类的最新发展,包括基于任务的金融 LLMs、多语言 LLMs、生物医学和临床 LLMs,以及视觉语言 LLMs 和代码语言模型。它还强调了聊天机器人和虚拟助手开发领域中的未解决问题,如增强自然语言处理、提升聊天机器人智能性以及解决道德和法律困境,旨在为对基于 LLMs 的聊天机器人和虚拟智能助手技术感兴趣的读者、开发者、学者和用户提供有用的信息和未来方向。
Jul, 2023
通过系统文献综述,我们深入研究了大型语言模型(LLMs)与软件工程(SE)的交叉领域,并特别关注 LLMs 在 SE 中的应用、影响和潜在局限。通过收集和分析 2017 年至 2023 年的 229 篇研究论文,我们回答了四个关键研究问题(RQs),比较分析了不同用于 SE 任务的 LLMs 的特点和用途,并详细描述了在此领域中数据收集、预处理和应用的方法,揭示了稳健、经过良好策划的数据集对于成功实施 LLM 的关键作用。同时,我们还调查了优化和评估 LLMs 在 SE 中性能的策略,以及与提示优化相关的常见技术。通过解决上述研究问题,我们勾勒出当前最先进的研究状况,找出现有研究的不足之处,并标注未来研究的有前景的领域。
Aug, 2023
利用对最近的大型语言模型进行了代码测试的详尽分析,本研究展示了这些模型的一系列有趣性质,并展示了如何改进大型语言模型的程序测试能力,通过利用生成的测试用例来提高合成程序的质量,相较于 GPT-3.5-turbo 和最新的最先进技术,我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。
Oct, 2023
本文概论了基于大型语言模型的推荐系统,提出了两种主要类型(分别为判别型 LLM 推荐 DLLM4Rec 和生成型 LLM 推荐 GLLM4Rec),分别从方法、技术和性能等方面对现有的 LLM 推荐系统进行了系统的分类和评估,并指出了主要挑战和有价值的发现。
May, 2023