May, 2025

clem:todd: 一种系统化基准测试基于LLM的任务导向对话系统实现的框架

TL;DR本研究针对现有对话系统研究中缺乏系统性评估的问题,提出了一种灵活的框架 clem todd,用于在一致的条件下系统化评估对话系统。研究发现,该框架能够详细比较不同用户模拟器与对话系统的组合,提供关于架构、规模和提示策略对对话性能影响的可操作见解,为构建高效的会话人工智能系统提供实用指导。