Jun, 2024

IntentionQA:一项评估电子商务语言模型购买意向理解能力的基准测试

TL;DR在这篇论文中,我们提出了 IntentionQA,一个双重任务多项选择问题回答基准,用于评估语言模型对电子商务中购买意图的理解能力。通过以购买的产品为基础推测意图,并利用它们预测额外的购买,LMs 被赋予了推断意图的任务。IntentionQA 包含了 4,360 个经过精心筛选的问题,涵盖了三个难度级别,使用自动化流程在大型电子商务平台上保证了可扩展性。人工评估结果表明我们的基准具有高质量和低误报率。我们的代码和数据公开在该网址。