StreamBench：基于连续改进的语言代理基准测试

Jun, 2024

StreamBench：基于连续改进的语言代理基准测试

StreamBench: Towards Benchmarking Continuous Improvement of Language Agents

Cheng-Kuang Wu, Zhi Rui Tam, Chieh-Yen Lin, Yun-Nung Chen, Hung-yi Lee

TL;DR大语言模型代理，连续改进，StreamBench，在线学习环境，自适应人工智能系统。

Abstract

Recent works have shown that large language model (LLM) agents are able to improve themselves from experience, which is an important ability for continuous enhancement post-deployment. However, existing benchmarks primarily evaluate their innate capabilities and do not assess their ability to improve over time. To address this gap, we introduce →

large language model agents continuous improvement streambench online learning environment adaptive ai systems

发现论文，激发创造

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

clembench-2024: 作为多动作代理的挑战性、动态、互补、多语言基准测试和底层灵活框架

利用大型语言模型自我对弈进行对话游戏的研究，旨在探索其普适性、评估模型的性能，并研究提示语言对模型表现的影响。该研究为构建应用交互系统的模型选择提供了基础，或最终建立模型和模拟评估器的闭环开发环境。

May, 2024

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

流式终身学习及任意时间推理

在动态环境中，在线、单通、类增的情况下，我们利用基于贝叶斯的框架和在线内存回访的有效方法来解决这个挑战性的 lifelong learning 问题，并在实验证明了我们的方法超越了此前的研究成果。

Jan, 2023

ViLCo-Bench: 视频语言连续学习基准测试

本研究提出了第一个专门用于评估在各种视频文本任务中持续学习模型的基准数据集 ViLCo-Bench，并引入了一种新颖的内存高效框架，该框架结合了自监督学习，模拟长期和短期记忆效应，在面对长视频片段的内存复杂性、开放式查询的自然语言复杂性以及文本 - 视频不匹配等挑战时表现出色。

Jun, 2024

通过人工反馈评估大型语言模型：建立瑞典基准

在人工智能领域，大型语言模型在多个应用中展示出显著的能力。然而，这些模型在资源较少的语言（如瑞典语）中的表现尚未深入研究。本研究引入了一种综合的人类基准，通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试，结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型（如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin）等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具，以改善我们对瑞典语语言模型性能的理解，并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。

May, 2024

LLF-Bench：交互学习语言反馈的基准测试

LLF-Bench 是一个用于评估 AI 代理从自然语言反馈和指导中进行交互学习能力的新基准，包括用户推荐、写诗、导航和机器人控制等任务，拥有随机化技术和统一的 OpenAI Gym 接口，可用于开发和测试 LLF 代理。

Dec, 2023

利用可扩展的事务性流处理技术来管理大规模语言模型 [视觉]

本文介绍 TStreamLLM，这是一种革命性的框架，将事务流处理 (TSP) 与 LLM 管理集成在一起，以实现可观的可伸缩性和低延迟。通过实践案例展示其潜力，如实时病人监测和智能交通管理。同时提出了 TSP 和 LLM 管理之间的协同作用，这可能会在 AI 和数据库研究方面促成突破性的发展。

Jul, 2023

CogBench：一个大型语言模型进入心理学实验室

大型语言模型在人工智能领域取得了显著进展，然而它们的综合评估仍具挑战性。本研究引入了 CogBench 评估工具，包含七项认知心理学实验中衍生出的十项行为度量指标，并运用这一工具对 35 个大型语言模型进行了分析。研究结果突出了模型规模和人类反馈的强化学习在性能提升和与人类行为的一致性方面的关键作用。此外，本研究还探讨了提示工程技术的影响，发现链式思路提示能够改善概率推理，而退一步思考提示则促进了基于模型的行为。

Feb, 2024