使用大型语言模型进行成对编程,用于抽样和估计Copulas
本文针对商用大型语言模型 ChatGPT 在数学问题(Math Word Problems,MWP)中的性能表现进行了研究,并首次发现,ChatGPT 的性能表现会因要求展示解题过程而出现明显差异,而 MWPs 中未知数和操作数量等多个因素会影响模型的失败率,其中特别注意到加减法操作次数与失败率呈线性关系,同时我们也发布了一个 ChatGPT 对 MWP 回答的数据集,用于支持更多的研究。
Feb, 2023
本文对ChatGPT和GPT-4进行了综合调查,分析了其在各领域的潜在应用,发现ChatGPT/GPT-4主要应用于自然语言处理,并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。
Apr, 2023
本文是第一篇关于利用大规模预训练语言模型(LLMs)进行科学模拟的研究,聚焦于四个建模和模拟任务,分别评估LLMs的预期优势和局限性,并为模型构建者提供实用指南,包括解释概念模型结构、总结模拟输出、通过文本传达模拟可视化洞见以及解释模拟错误并提供解决方案。
Jun, 2023
本文对ChatGPT的编码能力进行全面评估,重点考察了其在Python编程语言和数据结构与算法等基础计算机科学问题上的表现,包括解决问题的能力、代码质量和运行时错误性质,探究了其对训练数据的直接记忆现象,并在各个子主题和难度不等的问题上与人类表现进行对比研究。
Jul, 2023
我们评估了ChatGPT(2023年2月版本),即一个大规模语言模型,在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套23个概率练习,这些练习被用来测试马德里市Rey Juan Carlos大学(URJC)的学生。我们对ChatGPT生成的回答进行了定性评估,并根据与学生相同的标准评分。我们的结果表明,ChatGPT在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而,ChatGPT在执行基本的数值运算方面遇到了困难。我们的实验表明,要求ChatGPT以R脚本形式提供解决方案是克服这些限制的有效方法。总之,我们的结果表明,ChatGPT在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而,该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力,以及其在解决概率练习中的表现,显示了它们作为学习助理的潜力。
Oct, 2023
科学工作流系统越来越受欢迎,可以表达和执行对大数据集的复杂数据分析流水线,因为它们提供了自动化并行化在大型计算集群上的可重复性、可靠性和可扩展性。然而,由于涉及许多黑盒工具和必要的底层基础架构,实现工作流变得困难。同时,用户支持工具很少,可用示例数量远低于传统编程语言。为了应对这些挑战,我们研究了大型语言模型(LLMs),特别是ChatGPT,在科学工作流处理过程中对用户的支持效率。我们在两个科学领域进行了三项用户研究,评估了ChatGPT在理解、适应和扩展工作流方面的效果。我们的结果表明,LLMs可以有效地解释工作流,但在交换组件或目的工作流扩展方面表现较差。我们对这些具有挑战性的情景中的局限性进行了界定,并提出了未来的研究方向。
Nov, 2023
利用大型语言模型(LLMs)管理结构化数据并增强数据科学流程的兴趣日益增长。尽管具有潜在的好处,但其整合引发了对可靠性和决策方法的重要问题,强调了模型选择过程中包括数据性质、问题类型、性能指标、计算资源、可解释性与准确性、对数据的假设以及伦理考虑等多种因素的重要性。我们的目标是阐明和表达GPT-4模型选择推荐背后的因素和假设。我们采用变异性模型描述这些因素,并使用玩具数据集评估模型和已确定的启发式方法的实施。通过将这些结果与其他平台的启发式方法进行对比,我们的目的是确定GPT-4方法的有效性和独特性。本研究致力于推进我们对人工智能决策过程的理解,特别是在数据科学中的模型选择领域。我们的努力旨在创建更加透明和可理解的人工智能系统,为数据科学实践贡献更负责任和高效的方法。
Nov, 2023
通过结合大型语言模型和优化技术,我们提出了一个名为Decision Optimization CoPilot(DOCP)的人工智能工具,它旨在帮助决策者使用自然语言理解业务问题,并随后构建并解决相应的优化模型,从而显著简化了实际业务问题的优化模型的创建,从而实现更普遍的、改善决策的目标。
Feb, 2024
在自然语言处理领域,通过将语言描述转化为数学优化问题的数学表达式是一个具有挑战性的任务,本研究比较了GPT-3.5、GPT-4和Llama-2-7b等重要的大型语言模型在零射和单射设置下的性能,结果表明GPT-4在单射场景中表现出卓越的性能,研究还介绍了一种名为'LM4OPT'的渐进微调框架用于Llama-2-7b,该框架利用了噪声嵌入和特殊数据集,研究的实证调查揭示了GPT-4在处理自然语言的问题描述时超越了以前的研究成果,在NL4Opt数据集上实现了0.63的F1分数,而不依赖任何额外的命名实体信息,这些发现不仅为当前大型语言模型在新领域所能达到的能力提供了基准,也为未来通过自然语言输入解决数学优化问题的领域奠定了基础。
Mar, 2024
通过评估ChatGPT 3.5和4版本在生成各种编程语言代码方面的能力,验证了这些AI模型用于生成科学程序的效力。通过要求ChatGPT生成三个不同的代码:简单的数值积分、共轭梯度求解器和并行一维模板热方程求解器来达到我们的目标。我们的分析重点是代码的编译、运行时性能和准确性。虽然ChatGPT的两个版本都成功创建了可以编译和运行的代码(在某种程度上需要帮助),但AI在使用某些语言时会更容易(可能是由于使用的训练数据集的规模)。甚至对于我们选择的这个简单示例来说,平行代码也很难由AI正确生成。
May, 2024