- CaLMQA: 跨 23 种语言探索跨文化特定长篇问答
通过介绍 CaLMQA,一个涵盖 23 种语言的 2.6K 多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。
- FinTextQA:长文本金融问答数据集
该研究介绍了 FinTextQA,这是一个用于金融领域长篇问答的创新数据集,并开发了一个基于 RAG 的 LFQA 系统,通过多角度评估方法得出了在噪声环境下不同配置的 LFQA 系统的性能表现和模型对噪声的容忍度。
- ACL检索增强的长文生成中的基础性:一项实证研究
我们对基于检索增强的大型语言模型在长篇问题回答中的接地性进行了实证研究。研究发现,尽管生成的句子中包含正确的答案,但在 3 个数据集和 4 个模型系列中,存在大量一致性未接地的句子。此外,我们还研究了模型大小、解码策略和指导调优等因素对接地 - 长文本问答:一种迭代计划 - 检索 - 生成的方法
提出了一种具有迭代规划、检索和生成过程的长篇问答(Long-form question answering,LFQA)模型,该模型通过迭代过程直到生成给定问题的完整答案,解决了既有模型在处理复杂问题和知识聚合方面的限制,并在各种文本和实际指 - SEMQA: 半抽取式多源问答
最近提出的长篇问答(QA)系统,在大型语言模型(LLMs)的支持下,展示了令人期待的能力。然而,为其生成的抽象回答归因和验证可能困难,并且自动评估其准确性仍然是一个持续的挑战。在这项工作中,我们介绍了一个新的 QA 任务,通过半抽取方式总结 - EMNLPPreWoMe: 借用前提作为长篇问答的工作记忆
本文介绍了 PreWoMe 方法,它可以处理各种类型的信息查询问题,包括引导性问题,并通过利用预设条件作为工作记忆来生成反馈和行动,从而在处理具有不确定输入特征的真实场景中展现了有效性。
- 理解长文问答的检索增强
通过使用相同的证据文档比较使用不同检索增强模型生成的答案,分析了检索增强对不同语言模型的影响,以及检索文档集的质量对相同语言模型生成的答案的影响。研究了生成答案的各种属性(如流利度、长度、差异等),重点是将生成的长篇答案与上下文证据文档进行 - 探索 LLMs 对长文问题回答的可行性
从长文摘要生成问题的方法对于 LLMs 的性能造成挑战,表明 LLMs(如 ChatGPT)与开源 LLMs(Alpaca、Llama)之间存在性能差距。
- ACL简洁回答复杂问题:长篇答案摘要
本文基于长篇问答系统,提出了提取 - 解除背景法来生成简洁回答,通过用户研究发现,超过 90%的 ELI5 领域的长篇答案可以通过至少一种系统充分概括,但是复杂和隐含的答案仍然有挑战。作者们提供了一个包含 1K 长篇回答和用户研究注释的提取 - ACL对长篇问答评估的关键评估
对长篇答案进行有针对性的评估研究,强调评估多维度因素,发现自动文本生成的评价指标不能预测人类喜好,建议未来的评估中,应该注重准确性、完整性和客观性等多个方面。
- ACLWebCPM:面向中文长篇问答的交互式 Web 搜索
介绍了 WebCPM,首个基于交互式 Web 搜索的中文长篇问答(LFQA)数据集,共收集 5,500 个高质量的问答对,开发了基于预训练语言模型微调的 LFQA 流水线,生成的答案在数据集和 DuReader 上能达到不亚于人类书写的水平 - 利用检索方法对长格式问答中的例证进行建模
本研究探讨了如何在长篇问答中使用实例来解释和澄清概念,并提出了一个将举例作为文章的检索问题,并使用大量人工撰写的文章示例对其进行评估的自动评估方法,该方法与人工评估具有良好的一致性。
- ACL阅读前先生成!使用机器阅读实现忠实的长篇问答
我们提出了一种新的端到端框架,用于解决长篇问答的生成问题,重点是如何生成更加真实准确的答案。通过增加细粒度的相关信息来强化生成模型,实验结果表明我们的方法比强基线模型在自动和人工评估指标上表现更好,并且能够生成流畅,相关且更加真实准确的答案 - ACL基于查询的文本摘要生成文档幻灯片
本文提出了一个名为 SciDuet 的新数据集,其中包括最近年份 NLP 和 ML 会议上的文献和其对应的幻灯片,同时介绍了一个名为 D2S 的新系统,该系统采用两步法来处理文档到幻灯片的任务,评估表明长型问答在 ROUGE 自动度量和人工 - ACL长格式问答进展的障碍
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
- 利用本地知识图谱构建方法将 Seq2Seq 模型扩展到多文档输入
本文提出一种构建基于本地图形结构化知识库的方法,该方法可以压缩网络搜索信息,并减少冗余,用于 open-domain NLP 任务中,通过将图形线性化为结构化输入序列,可以实现比使用检索的文本部分更好的性能,适用于长文本输入的生成任务,例如 - 长文本问答
这篇论文介绍了第一个大规模的长篇问答语料库,其中包括了 270,000 个 Reddit 论坛上的线索,使用多任务目标的诠释性模型表现最佳,但仍存在改进的余地。