本研究基于最先进的深度学习模型(SSN-4 模型),探讨了不同的模型组件对表现和复杂性之间的平衡,同时调整单词嵌入来提高性能,并提出了一个解决第一个模型中混淆的对的第二个模型。结果表明,SSN-4 模型似乎不适用于 RCT 数据集之外。
Jan, 2022
该论文针对 RCTs,提出使用序列到序列模型,使机器学习辅助临床决策,并通过对比,验证使用针对医学领域的 GPT-2 模型,对整个过程的效果较佳,同时指出该方面的研究仍有待进一步的扩展。
Oct, 2019
该研究提出了一种基于文献摘要的新方法来预测临床试验干预措施的有效性。通过抽取摘要中表达干预措施有效性的句子,生成一个简洁的摘要,用于训练 BERT 分类器以预测干预措施的有效性。实验结果证明了该方法的有效性。
Apr, 2022
本研究针对医学干预方案的评估,提供了一个达到自动评估医学文献、整合多个研究结果的新数据集:MS^2。并基于 BART 模型,通过自由文本和结构化形式,提出了用于评估自动生成摘要质量的新指标。
Apr, 2021
为了让公众可靠理解庞大的医学文献,本研究提出了通过深度学习算法自动适应平民语言版本的解决方案,同时为了保证适应的准确性,首先需要建立一个金标准数据集,而为了解决目前现有的数据集相互不对齐及小试验集的问题,本研究建立了第一个均已手动适配的数据集,并使用最新的深度学习方法进行了基准测试。
Oct, 2022
本文研究了不同数据集对居民群众标记的研究方面分类任务的模型性能的影响,探讨了使用大型自动筛选的 PubMed 200K RCT 数据集的潜在好处,并评估了大型语言模型,如 LLaMA,GPT-3,ChatGPT 和 GPT-4 的有效性。研究结果表明,使用 PubMed 200K RCT 数据集不会提高 CODA-19 任务的性能。同时,尽管 GPT-4 表现良好,但它没有超越在 CODA-19 数据集上优化的 SciBERT 模型,强调了专门针对目标任务的专用数据集的重要性。
Jun, 2023
本文介绍了生物医学机制总结任务,并利用少量手工标注的机制句子,训练了机制句子分类器以过滤大量的生物医学摘要并创建了一个包含 22k 实例的总结数据集。此外,我们还引入了 611k 实例的结论句子生成作为预训练任务,并基准测试了大型生物领域语言模型的性能。我们发现,虽然预训练任务有助于提高性能,但最佳模型仅在 32%的情况下产生可接受的机制输出,这表明该任务在生物医学语言理解和总结方面面临巨大挑战。
May, 2022
PubMedQA 是一个从 PubMed 文摘中收集的生物医学问答(QA)数据集,共有 1k 位专家注释,61.2k 未标记和 211.3k 人工生成的 QA 实例,其中每个实例包括一个问题、相应的摘要、一个长答案和一个总结性答案。采用 BioBERT 的多阶段微调方法,结合长答案单词统计做为额外监督,实现了 68.1% 的准确率,比人类单一表现的 78.0% 的准确率还有改进的空间。
Sep, 2019
医学摘要中的连续句子分类任务(SSC)使用多级深度学习模型,包括 LSTM-based 网络和分层结构,来提取句子嵌入,进而实现更好的分类性能。
Jan, 2024
本文介绍了一种新的任务和语料库,通过全文文章描述随机对照试验 (RCT) 的方式,推断与给定干预、比较和预期结果相关的报告发现,结果表明这项任务的困难性主要归因于长篇的技术性输入文本。
Apr, 2019