超越提示：大型语言模型的动态对话基准测试

Sep, 2024

超越提示：大型语言模型的动态对话基准测试

Beyond Prompts: Dynamic Conversational Benchmarking of Large Language Models

David Castillo-Bolado, Joseph Davidson, Finlay Gray, Marek Rosa

TL;DR本研究提出了一种动态基准测试系统，用于评估对话智能体的性能，重点关注长期记忆、持续学习和信息整合能力。研究发现，尽管大型语言模型在单任务交互中表现良好，但在多个任务交替进行时却面临挑战，这揭示了当前基准测试未能捕捉到的自然互动中的更多挑战。

Abstract

We introduce a Dynamic Benchmarking system for Conversational Agents that evaluates their performance through a single, simulated, and lengthy user$\leftrightarrow$agent interaction. The interaction is a conversa

发现论文，激发创造

针对积极对话的大型语言模型的提示和评估：澄清、目标导向和非协作

本篇论文中，我们提出了一种称之为Proactive Chain-of-Thought推导方案，它能够增强LLMs的目标规划能力，以解决其在主动对话方面的不足，具体涉及三个方面：澄清、目标引导和非协作对话。我们还探讨了相应的实证结果，以促进未来在基于LLM的主动对话系统方面的研究。

May, 2023

用户-GPT 互动的任务导向调查：偏移和被忽视的内容

对大规模语言模型与用户需求之间的差距进行了全面的分析，发现当前NLP研究与真实世界应用的需求存在显著差异，用户经常要求的任务与学术研究中常见的任务存在较大偏差，如设计和规划任务等，为更好地满足用户需求提供了启示。

Oct, 2023

评估LLM代理商的非常长期对话记忆

通过使用基于LLM的代理体系结构和将对话与人物和时间事件图进行关联，我们介绍了一个机器-人类管道来生成高质量的非常长期的对话，并通过人类注释者对其进行检验和编辑，以确保其长程一致性和对事件图的关联。通过这个管道，我们收集了一个包含300个回合和平均9K个记号的非常长期对话的数据集。基于该数据集，我们提出了一个全面的评估基准来衡量模型中的长期记忆，在问题回答、事件摘要和多模态对话生成任务方面。我们的实验结果表明，LLM在理解冗长对话和理解对话中的长程时间和因果动态方面存在挑战。使用长上下文LLM或RAG等策略可以提供改进，但这些模型仍然远远落后于人类的性能。

Feb, 2024

基于大型语言模型的智能体的记忆共享

在人工智能领域，大型语言模型（LLM）代理通过自然语言提示来执行任务，消除了显式重新训练或精调的需要，尤其是在诸如常识问题和是/否查询等固定答案任务中。然而，将上下文学习应用于开放性挑战，例如诗歌创作，由于提供的示例的全面性和代理的理解问题内容的能力存在显著限制，导致输出与预期结果经常不一致。为了解决这一差距，我们的研究引入了用于LLM多代理的记忆共享（MS）框架，该框架利用实时内存存储和检索系统增强上下文学习过程。该系统中的每个“记忆”都捕捉了LLM代理提出的查询以及相应的实时响应，将来自各种相似代理的这些记忆聚合到所有代理共享的记忆池中。该框架不仅帮助代理识别特定任务的最相关示例，而且通过其他代理应用未来的记忆评估其潜在效用。对涉及代理特定功能的三个不同领域进行的实证验证表明，MS框架显著提高了代理在开放性问题上的性能。此外，我们还讨论了在MS中哪种类型的记忆池和检索策略可以更好地帮助代理，并提供了MS的未来发展方向。代码和数据可在此https URL获取。

Apr, 2024

面向具有上下文和时间敏感的长期记忆的对话系统

近年来对长期记忆对话代理的兴趣越来越浓，这导致了使用检索增强生成（RAG）的语言模型的快速发展。本论文主张，在从长对话数据中进行有效的检索面临两个独特的问题：1）基于时间/事件的查询，要求模型根据时间或对话事件的顺序（例如，星期二的第三次对话）检索先前对话的信息；2）需要周围对话上下文才能理解的模糊查询。为了更好地开发能够应对这些挑战的RAG代理，我们生成了一个包含模糊查询和基于时间的问题的新数据集，该数据集是基于最新的长形模拟对话数据集的。我们证明了标准的RAG方法在处理这些问题时效果不佳。然后，我们开发了一种新的检索模型，结合了链式搜索方法、标准向量数据库检索和提示方法以消除查询的歧义，并证明了这种方法在解决这些任务上显著改善了现有方法的效果。我们相信，这个新数据集和更先进的RAG代理可以成为有效的记忆增强对话代理的关键基准和垫脚石，可用于各种人工智能应用。

May, 2024

智能代理链：大型语言模型在长文本任务上的协作

通过多个代理的协作，链式代理（CoA）框架能够处理长上下文任务，凭借信息聚合和上下文推理，有效提升任务质量。

Jun, 2024

τ-bench：一种真实世界领域中工具-代理人-用户交互的基准

现有的基准测试无法测试语言代理与人类用户的交互或遵循特定领域规则的能力，我们提出了$ au$-bench，这是一个基准测试，模拟了语言模型模拟的用户与具备特定领域API工具和策略指南的语言代理之间的动态对话。我们采用了高效且忠实的评估过程，将对话结束时的数据库状态与带注释的目标状态进行比较。我们还提出了一种新的度量指标（pass^k），用于评估代理行为在多次试验中的可靠性。我们的实验证明，即使是最先进的函数调用代理（如gpt-4o）在<50%的任务上也能成功，并且不够一致（在零售领域，pass^8<25%）。我们的研究结果指出了需要提出方法来改善代理的行为一致性和可靠性。

Jun, 2024

通过模型特征评估对话游戏自对话性能所需参数数量

大型语言模型的好坏取决于其在相关基准测试上的表现，其性能由模型特征（如参数数量、训练方法等）以及训练参数（如微调数据质量等）决定。此外，性能在一定大小范围内表现出广泛变化，受采样参数和推理过程中适度的权重量化影响不确定性较大。

Jun, 2024

少说话，更好互动：评估多模态大型语言模型中的上下文对话适应性

本研究探讨了多模态大型语言模型（MLLMs）在对话中是否能提高沟通效率，填补了这一领域的研究空白。通过引入自动化框架ICCA，发现尽管这些模型可以理解对方使用的高效语言，但自身在对话中并不自发提升语言效率，这一能力仅能通过强提示在部分模型中引发。研究结果表明，当前的训练机制并未促进此类语言互动特性。

Aug, 2024

ClarQ-LLM：一个用于评估模型在任务导向对话中请求和澄清信息的基准

本研究针对任务导向对话中缺乏澄清问题的评估标准进行了探讨，提出了ClarQ-LLM评估框架。该框架包含了多种任务类型和对话场景，显著提升了对话代理在信息收集任务中的表现评估，研究结果显示，现有代理在此新基准下的成功率仍有待提高，对未来研究具有重要影响。

Sep, 2024