CHQ-Summ: 消费者健康问题摘要数据集
本研究提供了一个包含消费者健康问题答案的问答驱动摘要集 MEDIQA Answer Summarization dataset,可用于评估抽取式或抽象式算法生成的单个或多个文档,展示了基线和最新深度学习总结模型的结果,并推动医学问题回答中的机器学习研究。
May, 2020
本文研究针对真实世界的消费者健康问题的抽象总结任务,开发了一个抽象问题总结模型,利用医疗实体的语义识别,借此提高了问题聚焦的涵盖范围和生成信息摘要的能力。同时,我们还将问题类型信息融入到解码器的输入中,实现了问题类型驱动的摘要生成,并在 MeQSum 基准语料库上进行了评估,该框架超过了最先进方法 10.2 ROUGE-L 分,并进行手动评估以评估所生成的摘要的正确性。
Jun, 2021
本文介绍了 Discharge Summary Clinical Questions(DiSCQ)这一新的数据集,由 100 多个 MIMIC-III 出院摘要中的医学专家生成了 2000 多个问题。我们进行了基于触发词检测的质量评估,发现在 62% 的情况下,基线模型能够高质量地生成问题,并用无监督的答案检索对其进行配对。这项研究的目的是为了进一步研究现实临床问答和问句生成。
Jun, 2022
我们的研究关注于健康答案的基于方面的总结,以解决信息不全的问题。我们提出了一个多阶段的注释指南和一个独特的数据集,包括基于方面的人工编写的健康答案总结。我们利用该数据集构建了一个自动化的多方面答案总结流程,使用了几种最先进的模型进行特定任务的微调。该流程利用问题相似性检索相关的回答句子,然后将其分类为适当的方面类型。接下来,我们使用几种最新的抽象总结模型生成基于方面的总结。最后,我们进行了全面的人工分析,发现我们的总结在捕捉相关内容和各种解决方案方面排名靠前。
May, 2024
该研究使用机器学习和数据归纳技术,为 Community Question Answering (CQA) fora 提出了一种新的答案总结方法,以产生最能反映回答视角范围的摘要,这种方法使用了由专业语言学家策划的数据集进行训练,并实现了语句选取、分组、摘要和纠正等多个子任务,使用了强化学习技术及数据增强方法提高其性能。
Nov, 2021
该研究提出了一种新的社区问答(CQA)总结任务,旨在从 CQA 对中创建简洁的摘要,并通过一系列数据注释和方法比较建立了一个强大的基线方法 DedupLED,进一步确认了 CQA 总结任务中的两个关键挑战,即句子类型转换和去重移除。
Nov, 2022
本文介绍了第一个庞大的 CQA 自动摘要数据集 CQASUMM,利用其进行了一项新任务 —— 社区问答摘要。现有的多文档自动摘要技术不能很好地应用于社区问答,因为社区问答具有更高的变异性、与事实相悖的意见和更少的重叠,因此引入了 OpinioSumm—— 一种新的多文档自动摘要方法,其在该数据集上的表现优于最佳基准 4.6%的 ROUGE-1 得分。
Nov, 2018
通过请高质量合同工人阅读原始文档并写出原始摘要,建立了 SQuALITY 数据集,该数据集的第一篇文章概述了主要内容,其余四篇回答了具体问题,实验证明现有自动摘要评估指标不是优秀的质量指标。
May, 2022
该论文提出了一种基于实体驱动对比学习(ECL)的医学问题总结框架,以更准确地理解消费者意图和检索合适的答案,同时解决了数据泄露问题和正确捕捉语义意图的挑战。
Apr, 2023
本篇文章提出了 HowSumm 这一全新的数据集,可用于针对查询的多文档摘要 (qMDS) 任务,其目标是从一组来源生成可操作的指令。通过从 wikiHow 网站文章和它们引用的来源中提取数据创建了该数据集,并讨论了与其他摘要语料库的不同之处,实验结果表明,提取式和抽象式摘要模型在该数据集上的性能仍有提升空间。
Oct, 2021