探索使用大型语言模型进行调度的潜力
自主规划和调度是人工智能中增长最快的领域之一,本研究通过对 126 篇论文进行全面检视,调查了 LLMs 在地址规划问题的各个方面时的独特应用,并提出了八个类别:语言翻译、计划生成、模型构建、多智能体规划、交互规划、启发式优化、工具集成以及脑启发式规划,强调 LLMs 与传统符号规划器的结合展示出潜力,揭示出一种有前景的神经符号化方法。
Jan, 2024
这是第一项研究应用大语言模型(LLMs)进行自动规划任务模型空间编辑的工作。我们探索了 AI 规划文献中研究的两种不同类型的模型空间问题,以及 LLM 对这些任务的影响。我们通过实验证明了 LLM 的性能与组合搜索(CS)的对比情况,以及 LLM 作为独立模型空间推理器以及作为与 CS 方法结合的统计信号的双阶段过程的一部分时的性能。我们的实验结果表明,LLM 在未来进一步探索规划任务中的模型空间推理的前景很有希望。
Nov, 2023
我们提出了一种新颖的平台,用于评估大型语言模型(LLMs)自主撰写和评论跨科学、人文、教育和法律等各个学科的调研论文的能力。这个框架中,人工智能系统通过模拟同行评审机制进行操作,类似于传统学术期刊,人类组织者担任编辑监督职责。在这个框架内,我们为 2023 年 AutoML 会议组织了一次竞赛。参赛者的任务是根据指定提示撰写独立的文章,并对其进行评估。评估标准包括清晰度、参考文献适当性、责任性和内容的实质价值。本文介绍了竞赛的设计,包括实施基线提交和评估方法。
Oct, 2023
传统的优化与调度方案往往只考虑固定的系统要求,而未来的系统将采用用户驱动的方法和个性化服务,致力于实现高质量体验和灵活性。本文首次提出了一种新颖的资源调度架构,通过构建三个大语言模型代理来将任意用户的语音请求转化为资源分配向量。通过针对电动汽车充电的典型语音请求进行测试,结果表明所提出的架构的高效性。
Jun, 2024
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
本研究通过评估和比较各种闭源和开源大型语言模型,探讨如何有效构建用于实际应用的会议摘要系统。研究结果表明,大多数闭源模型在性能方面更好,但即使在零 - shot 情况下,较小的开源模型如 LLaMA-2(7B 和 13B)仍可达到与大型闭源模型相当的性能。综合考虑闭源模型的隐私问题和使用经过微调的闭源模型的高成本,能够取得竞争性性能的开源模型更适合工业应用。在性能、成本和隐私问题之间取得平衡,LLaMA-2-7B 模型在工业应用中更具前景。总之,本文提供了使用大型语言模型进行实际业务会议摘要的实用见解,突显性能和成本之间的权衡。
Oct, 2023
借助大型语言模型(LLMs)等新的自然语言处理技术,自动评估课堂讨论质量变得越来越可行。本文研究了两种 LLMs 的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种 LLMs 的计算效率和预测一致性。结果表明,前述三个因素确实影响了被测试 LLMs 的性能,并且预测一致性与性能之间存在关系。我们建议采用以 LLMs 为基础的评估方法,在预测性能、计算效率和一致性方面取得良好平衡。
Jun, 2024
该论文介绍了一种利用大型语言模型技术支持智能代理语义词典中新条目的自动学习的系统。这种学习方法通过现有的非玩具词典和自然语言生成器引导启动,将意义的表达按基本本体建立转换为自然语言句子。此学习方法已应用于学习多词表达式,其含义与智能代理语义词典中的及物动词等效。实验展示了一种融合基于知识的方法、资源、传统数据分析和大型语言模型的混合学习架构的优势。
Dec, 2023