CHQ-Summ: 消费者健康问题摘要数据集

Jun, 2022

CHQ-Summ: 消费者健康问题摘要数据集

CHQ-Summ: A Dataset for Consumer Healthcare Question Summarization

Shweta Yadav, Deepak Gupta, Dina Demner-Fushman

TL;DR为了解决消费者在网络上描述医疗需求时使用过度描述性和周边信息，从而导致自然语言理解困难的挑战，我们介绍了一个新的数据集 CHQ-Summ，其包含 1507 个专业领域的消费者健康问题及相应摘要。同时，我们在多个最先进的摘要模型上对该数据集进行了基准测试，展示了其有效性。

Abstract

The quest for seeking health information has swamped the web with consumers' health-related questions. Generally, consumers use overly descriptive and peripheral information to express their medical condition or other healthcare needs, contributing to the challenges of →

health information natural language understanding consumer questions summary dataset

发现论文，激发创造

消费者健康问题答案的问题驱动摘要

本研究提供了一个包含消费者健康问题答案的问答驱动摘要集 MEDIQA Answer Summarization dataset，可用于评估抽取式或抽象式算法生成的单个或多个文档，展示了基线和最新深度学习总结模型的结果，并推动医学问题回答中的机器学习研究。

May, 2020

面向消费者健康问题摘要的问题感知变压器模型

本文研究针对真实世界的消费者健康问题的抽象总结任务，开发了一个抽象问题总结模型，利用医疗实体的语义识别，借此提高了问题聚焦的涵盖范围和生成信息摘要的能力。同时，我们还将问题类型信息融入到解码器的输入中，实现了问题类型驱动的摘要生成，并在 MeQSum 基准语料库上进行了评估，该框架超过了最先进方法 10.2 ROUGE-L 分，并进行手动评估以评估所生成的摘要的正确性。

Jun, 2021

学习如何像医生一样提问

本文介绍了 Discharge Summary Clinical Questions（DiSCQ）这一新的数据集，由 100 多个 MIMIC-III 出院摘要中的医学专家生成了 2000 多个问题。我们进行了基于触发词检测的质量评估，发现在 62% 的情况下，基线模型能够高质量地生成问题，并用无监督的答案检索对其进行配对。这项研究的目的是为了进一步研究现实临床问答和问句生成。

Jun, 2022

面向方面的消费者健康答案摘要

我们的研究关注于健康答案的基于方面的总结，以解决信息不全的问题。我们提出了一个多阶段的注释指南和一个独特的数据集，包括基于方面的人工编写的健康答案总结。我们利用该数据集构建了一个自动化的多方面答案总结流程，使用了几种最先进的模型进行特定任务的微调。该流程利用问题相似性检索相关的回答句子，然后将其分类为适当的方面类型。接下来，我们使用几种最新的抽象总结模型生成基于方面的总结。最后，我们进行了全面的人工分析，发现我们的总结在捕捉相关内容和各种解决方案方面排名靠前。

May, 2024

AnswerSumm：一份手动策展的数据集与回答摘要生成管道

该研究使用机器学习和数据归纳技术，为 Community Question Answering (CQA) fora 提出了一种新的答案总结方法，以产生最能反映回答视角范围的摘要，这种方法使用了由专业语言学家策划的数据集进行训练，并实现了语句选取、分组、摘要和纠正等多个子任务，使用了强化学习技术及数据增强方法提高其性能。

Nov, 2021

社区问答对总结

该研究提出了一种新的社区问答（CQA）总结任务，旨在从 CQA 对中创建简洁的摘要，并通过一系列数据注释和方法比较建立了一个强大的基线方法 DedupLED，进一步确认了 CQA 总结任务中的两个关键挑战，即句子类型转换和去重移除。

Nov, 2022

CQASUMM: 建立社区问答摘要语料库的参考文献

本文介绍了第一个庞大的 CQA 自动摘要数据集 CQASUMM，利用其进行了一项新任务 —— 社区问答摘要。现有的多文档自动摘要技术不能很好地应用于社区问答，因为社区问答具有更高的变异性、与事实相悖的意见和更少的重叠，因此引入了 OpinioSumm—— 一种新的多文档自动摘要方法，其在该数据集上的表现优于最佳基准 4.6％的 ROUGE-1 得分。

Nov, 2018

SQuALITY: 用较困难的方式构建长文摘要数据集

通过请高质量合同工人阅读原始文档并写出原始摘要，建立了 SQuALITY 数据集，该数据集的第一篇文章概述了主要内容，其余四篇回答了具体问题，实验证明现有自动摘要评估指标不是优秀的质量指标。

May, 2022

基于实体驱动对比学习的医学问题总结

该论文提出了一种基于实体驱动对比学习（ECL）的医学问题总结框架，以更准确地理解消费者意图和检索合适的答案，同时解决了数据泄露问题和正确捕捉语义意图的挑战。

Apr, 2023

HowSumm：基于 WikiHow 文章的多文档自动摘要数据集

本篇文章提出了 HowSumm 这一全新的数据集，可用于针对查询的多文档摘要 (qMDS) 任务，其目标是从一组来源生成可操作的指令。通过从 wikiHow 网站文章和它们引用的来源中提取数据创建了该数据集，并讨论了与其他摘要语料库的不同之处，实验结果表明，提取式和抽象式摘要模型在该数据集上的性能仍有提升空间。

Oct, 2021