LLMs 是否能配置软件工具
使用大型语言模型(LLMs)在超参数优化(HPO)期间进行决策,在有限搜索预算的情况下,通过实证评估发现,LLMs 在标准基准测试上可以表现与传统 HPO 方法(如随机搜索和贝叶斯优化)相当甚至更好。此外,我们提出将定义模型的代码作为超参数进行处理,LLMs 输出该超参数,超越了现有 HPO 方法的能力。我们的研究结果表明,LLMs 是提高传统超参数优化中效率的一种有前景的工具。
Dec, 2023
论文研究了大型语言模型(LLMs)在学术软件工程项目中的实用性,包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明,LLMs 在软件开发的早期阶段,特别是在生成基础代码结构和语法、错误调试方面,可以发挥重要作用。这些发现为我们提供了一个有效利用 LLMs 提高软件工程学生的生产力的框架,并强调了将教育重点转向为学生成功进行人工智能协作的必要性。
Jan, 2024
使用大型语言模型进行配置验证的可行性和有效性的初步研究,发展了集成不同语言模型的通用验证框架 Ciri,并评估了其在六个成熟、广泛部署的开源系统的配置数据上的验证效果。
Oct, 2023
通过文献综述和第一手实验,本文研究了大型语言模型(LLMs)的潜力。尽管 LLMs 具有成本效益和高效性等优点,但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解,强调了成功和限制。此外,本文还讨论了缓解挑战的策略,如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作,并积极促进其负责任的应用,以此回应关于 LLMs 在研究中负责任应用的持续对话。
Apr, 2024
通过引入强化学习的方法,将代码 LMM 的输出与性能对齐,提高生成代码的期望加速比,并在一组基准任务中展示了 0.9 至 1.6 倍的串行代码速度提升和 1.9 至 4.5 倍的 OpenMP 代码速度提升。
Apr, 2024
该研究综述了针对大型语言模型(LLMs)的挑战以及提高系统效率的最新进展和研究方向,包括算法级加速技术、LLM 硬件与软件协同设计策略、LLMs 加速器编译方法以及利用 LLMs 辅助电路设计的方法。通过这些工作,旨在为 LLMs 在各种应用中实现更高效、可扩展的部署铺平道路。
Jun, 2024
评估 LLM 在各种任务和数据大小上的优化能力,并引入了三个不同的指标来全面评估任务性能。通过应用这些指标,我们观察到 LLM 在处理小规模样本时表现出很强的优化能力,但其性能受到数据大小和值等因素的显著影响,强调了对 LLM 的优化任务领域进行进一步研究的重要性。
Oct, 2023
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023
大型语言模型具有解决语言相关任务的天赋,但由于它们静止于参数中的知识的局限性,存在无法应对信息变化和任务技能过时的问题。工具使用能帮助 LLM 通过接口获得外部系统的支持,但使用工具的 LLM 仍需适应不稳定的环境,并且需要学会使用预定义的工具。为验证这一观点,我们开发了一个合成基准并聚合了现有的自然语言处理任务,形成一个更加真实的测试场景。我们证明模型规模扩大并非解决方案,而不论是否使用工具,持续学习技术都能使工具型 LLM 更快适应并遗忘更少,凸显了它们作为持续学习者的潜力。
Apr, 2024
该研究报告关注大型语言模型在科学研究中的应用,调查了使用 LLM 工具的若干实际案例,特别是与软件工程相关的用例,结果显示了大型语言模型工具的潜力和问题。
Nov, 2023