关键词consolidation capabilities
搜索结果 - 2
- SEMQA: 半抽取式多源问答
最近提出的长篇问答(QA)系统,在大型语言模型(LLMs)的支持下,展示了令人期待的能力。然而,为其生成的抽象回答归因和验证可能困难,并且自动评估其准确性仍然是一个持续的挑战。在这项工作中,我们介绍了一个新的 QA 任务,通过半抽取方式总结 - ACL重新思考以句子并列为测试基础的文本整合
本文提出将句子联合生成任务作为一种有效的明确定义的测试基准,以评估文本合并能力,消除了主观内容选择的影响。针对该任务,我们提出了一套细化的注释方法和众包工具,创建了迄今最大的联合数据集,并提供了多种合并方面的丰富分析。最后,我们对最先进的语