StreamBench:基于连续改进的语言代理基准测试
大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力,显示出商业 LLMs 和开源竞争对手之间的性能差距。
Aug, 2023
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
利用大型语言模型自我对弈进行对话游戏的研究,旨在探索其普适性、评估模型的性能,并研究提示语言对模型表现的影响。该研究为构建应用交互系统的模型选择提供了基础,或最终建立模型和模拟评估器的闭环开发环境。
May, 2024
本文探索了一种方法,即在特定的游戏场景中测试大型语言模型的表现,以此来深入了解它们是否能像环境理解代理一样进行操作,涵盖了五个交互设置,并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则,并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。
May, 2023
在动态环境中,在线、单通、类增的情况下,我们利用基于贝叶斯的框架和在线内存回访的有效方法来解决这个挑战性的 lifelong learning 问题,并在实验证明了我们的方法超越了此前的研究成果。
Jan, 2023
本研究提出了第一个专门用于评估在各种视频文本任务中持续学习模型的基准数据集 ViLCo-Bench,并引入了一种新颖的内存高效框架,该框架结合了自监督学习,模拟长期和短期记忆效应,在面对长视频片段的内存复杂性、开放式查询的自然语言复杂性以及文本 - 视频不匹配等挑战时表现出色。
Jun, 2024
在人工智能领域,大型语言模型在多个应用中展示出显著的能力。然而,这些模型在资源较少的语言(如瑞典语)中的表现尚未深入研究。本研究引入了一种综合的人类基准,通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试,结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型(如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin)等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具,以改善我们对瑞典语语言模型性能的理解,并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。
May, 2024
LLF-Bench 是一个用于评估 AI 代理从自然语言反馈和指导中进行交互学习能力的新基准,包括用户推荐、写诗、导航和机器人控制等任务,拥有随机化技术和统一的 OpenAI Gym 接口,可用于开发和测试 LLF 代理。
Dec, 2023
本文介绍 TStreamLLM,这是一种革命性的框架,将事务流处理 (TSP) 与 LLM 管理集成在一起,以实现可观的可伸缩性和低延迟。通过实践案例展示其潜力,如实时病人监测和智能交通管理。同时提出了 TSP 和 LLM 管理之间的协同作用,这可能会在 AI 和数据库研究方面促成突破性的发展。
Jul, 2023
大型语言模型在人工智能领域取得了显著进展,然而它们的综合评估仍具挑战性。本研究引入了 CogBench 评估工具,包含七项认知心理学实验中衍生出的十项行为度量指标,并运用这一工具对 35 个大型语言模型进行了分析。研究结果突出了模型规模和人类反馈的强化学习在性能提升和与人类行为的一致性方面的关键作用。此外,本研究还探讨了提示工程技术的影响,发现链式思路提示能够改善概率推理,而退一步思考提示则促进了基于模型的行为。
Feb, 2024