Jul, 2024

我需要帮助!评估大语言模型请求用户支持的能力:以文本到SQL生成为案例研究

TL;DR本研究解决了大语言模型主动寻求用户支持的能力问题,特别是在文本到SQL生成的背景下。我们提出了评估性能提升与用户负担之间权衡的指标,并发现许多大语言模型在没有外部反馈的情况下,难以判断何时需要额外支持。研究结果强调了外部信号的重要性,并为未来的支持寻求策略改进提供了思路。