Sep, 2024

自动化测试生成以评估工具增强大型语言模型作为对话人工智能代理

TL;DR本研究解决了评估工具增强大型语言模型(LLMs)作为对话人工智能代理的挑战,特别是在现有数据集仅关注单一交互的情况下。论文提出了一种基于用户定义程序的多样化测试生成框架,并引入了ALMITA数据集用于评估客户支持中的AI代理。研究发现,虽然工具增强LLMs在单次交互中表现良好,但在完整对话中常常遇到困难。