AAAI 2022 秋季研讨会:关于机器能力自主评估的经验教训
大型语言模型(LLMs)正在改变人工智能,使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力,有望在从客户服务到医疗保健等各个领域引发革命。然而,它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索,以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展,预计它们将成为我们数字生活中不可或缺的一部分,协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。
Apr, 2024
我们提出了一种新颖的平台,用于评估大型语言模型(LLMs)自主撰写和评论跨科学、人文、教育和法律等各个学科的调研论文的能力。这个框架中,人工智能系统通过模拟同行评审机制进行操作,类似于传统学术期刊,人类组织者担任编辑监督职责。在这个框架内,我们为 2023 年 AutoML 会议组织了一次竞赛。参赛者的任务是根据指定提示撰写独立的文章,并对其进行评估。评估标准包括清晰度、参考文献适当性、责任性和内容的实质价值。本文介绍了竞赛的设计,包括实施基线提交和评估方法。
Oct, 2023
通过对基于大语言模型的自主代理的综合调查,本文提出了一个统一框架来概括以往研究,并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时,我们还讨论了该领域的挑战和未来方向。
Aug, 2023
DARPA 的 L2M 项目旨在开发能够进行终身学习并能提升的人工智能系统,文献中提出了一个形式化构建和表征代理的性能的方法,以应对该项目中多样化机器人的任务结构和持续时间。
Jan, 2022
大语言模型(LLMs)在追求超人类表现时,传统上一直依赖于人类注释的数据集和预定义的训练目标 - 这是一种既费时又固有有限的过程。本文提出了一种变革性的方法:自主学习 LLMs,这是一种无监督学习范式,使模型摆脱了人类监督的限制。我们的方法使 LLMs 能够通过与文本的直接交互来自我教育,类似于人类阅读和理解文学。我们的实证结果表明,自主学习在综合实验中表现优于预训练、监督微调以及检索增强方法。这些发现突显了自主学习不仅可以提高 LLMs 训练的效率和效果,还可以为更先进、自主的人工智能系统的发展铺平道路。
Jun, 2024
该论文介绍了在复杂的长期实际情境下,人工智能技术对于自主机器人实现长期自主的重要性,综述了各个子领域中研究的技术及其在长期机器人自主方面的应用,讨论了当前集成各项技术的进展、未来挑战和机遇。
Jul, 2018
自动驾驶技术是改变交通运输和城市流动性的催化剂,从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用,并评估了当前技术进展、主要挑战和未来方向。
Nov, 2023
自动驾驶的进化取得了显著的进展,并成为了一个实际存在的现实。为了确保自动驾驶系统符合用户意图,准确辨别和解释用户指令尤其是在复杂或紧急情况下是至关重要的。为了实现这一目标,我们提出利用大型语言模型(LLMs)的推理能力,从车载用户的指令中推断系统需求。通过一系列实验,包括不同的 LLM 模型和提示设计,我们探索了通过自然语言文本指令从少量样本进行多元二值分类的精确度。我们确认 LLM 可以理解和推理提示,但强调其有效性取决于 LLM 模型的质量和适当的连续提示的设计。代码和模型可在以下链接找到:https://github.com/KTH-RPL/DriveCmd_LLM。
Nov, 2023
通过利用大型语言模型(LLMs)的语言和推理能力,本研究提出了一个新的框架来增强自动驾驶车辆决策过程。通过在不同场景中进行试验和实时个性化示范,我们展示了利用 LLMs 能够改善驾驶决策、提供个性化驾驶体验并增强自动驾驶的安全和效果。
Oct, 2023