Apr, 2024

起飞准备好了吗?构成和条件推理可能是(预订航班)语言代理的致命弱点

TL;DR我们选择研究组合推理和条件推理这两个人类认知的基石,并引入了 GroundCocoa—— 一个将这些推理技能与航班预订这个现实世界问题联系起来的,具有词汇多样性的基准测试,结果表明,即使在先进的提示技术下,最好的模型 GPT-4 Turbo 的准确率也没有超过 67%。