自然语言推理在生物医学问答中的可迁移性
本文介绍了一种基于迁移学习技术,将神经网络模型应用在生物医学领域的事实型问答系统上的方法,通过加入生物医学文本嵌入和一种新的回答列表问题的机制来改进该系统,避免了使用昂贵的特定领域本体论、解析器或实体标注器。结果表明,该系统在事实型问题上达到了最新水平,在列表问题上取得了竞争性的结果。
Jun, 2017
本文探讨如何利用自然语言推理来验证问答系统提供的答案是否正确,并通过使用大型预训练模型和最新的数据集来构建 QA 实例的前提 - 假设配对,进而将 QA 和 NLI 数据集结合以训练 NLI 模型,以此提高 QA 模型的准确性和置信度。
Apr, 2021
介绍了 MedNLI 数据集的自然语言推理任务 (NLI),并提出了两种解决深度神经网络模型在特定领域泛化能力差的方法:利用开放域数据集进行迁移学习和结合外部数据和词汇来源的领域知识。实验结果表明,两种方法均可提高模型性能。
Aug, 2018
本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现,通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能,并发现 RoBERTa 和 BART 表现最佳。
Oct, 2021
本文描述了我们在 2017 年 BioASQ 挑战赛中的参与,并重点关注生物医学问题回答技术。我们使用了一种抽取式 QA 模型,使用生物医学词向量来扩展 FastQA,并将其应用于提取输入文本片段的子字符串输出。我们将模型在大规模开放域 QA 数据集 SQuAD 上进行预训练,然后在 BioASQ 训练集上进行微调参数。通过我们的方法,我们在事实问题上实现了最先进的结果,并在列表问题上实现了有竞争力的结果。
Jun, 2017
本文介绍了我们参加 MEDIQA-2019 比赛的系统,我们使用多源迁移学习方法,将 MT-DNN 和 SciBERT 中的知识应用于医疗领域的自然语言理解任务中。我们采用多任务学习技术,在通用和医疗领域上进行 NLI、RQE 和 QA 任务的微调,证明了所提出的方法在医疗领域的自然语言理解任务中有效,并在 QA 任务上获得了第一名。
Jun, 2019
本研究提出了一种基于句子转换模型的新方法,从庞大数量的大型问答数据集中自动派生自然语言推理(NLI)数据集,并展示了其将多种问答数据集成功应用于自然语言推理数据集的能力,从而新派生出包含 50 万个以上 NLI 示例的免费数据集 (QA-NLI),展示了它呈现的推理现象的宽泛性。
Sep, 2018
本文研究了自然环境下的是 / 否问题。我们建立了一个名为 BoolQ 的阅读理解数据集,并展示了它们出人意料地具有挑战性。我们还探讨了一系列迁移学习的基线效果,并发现从蕴涵数据进行转移的效果比从释义或抽取式 QA 数据进行转移的效果更好,即使从 BERT 等大规模预训练的语言模型开始转移,蕴涵仍然非常有益。我们的最佳方法是在 MultiNLI 上训练 BERT,然后在我们的训练集上重新训练它。它的准确率为 80.4%,而人类注释人员的准确率为 90%(多数基准为 62%),为未来的工作留下了巨大的差距。
May, 2019
生物医学摘要需要大规模数据集以训练文本生成。通过我们的研究,我们发现,虽然迁移学习是解决这一挑战的一个可行选择,但在一个 BioASQ 摘要任务中,域内预训练并不总是带来优势。我们确定了一种适合的模型架构,并使用它展示了一个通用领域预训练,并在 BioASQ 摘要任务的背景下进行任务特定的微调的好处,从而实现了一种新的三步微调方法,只需使用一千个域内示例即可。我们的结果表明,在某些特定领域的生物医学文本生成任务中,没有进行领域特定预训练的大规模语言模型可能具有明显优势。
Jul, 2023