Jun, 2024

AMBROSIA: 将模棱两可的问题解析为数据库查询的基准测试

TL;DR我们引入了一个名为 AMBROSIA 的新基准,旨在帮助发展能够识别和解释含有歧义请求的文本至 SQL 解析器。我们的数据集包含展示三种不同类型(范围、附属、模糊)歧义及其解释和相应 SQL 查询的问题。通过从头开始生成数据库的控制生成方法,即使在提供数据库上下文的情况下,仍能保持歧义。我们在 AMBROSIA 上对各种 LLMs 进行基准测试,发现即使是最先进的模型也难以识别和解释问题中的歧义。