构建抽取型问答系统，支持针对睡眠领域的人工智能健康辅导模型

May, 2023

构建抽取型问答系统，支持针对睡眠领域的人工智能健康辅导模型

Building Extractive Question Answering System to Support Human-AI Health Coaching Model for Sleep Domain

Iva Bojic, Qi Chwen Ong, Shafiq Joty, Josip Car

TL;DR本文介绍一个结合基于领域特定的抽取式问答系统的人工智能健康辅导模型，利用 SleepQA 数据集进行 fine-tune，并在人工和自动评估中验证了效果。在进行人工评估时，该模型表现出了出色的效果。同时，该模型还在一项随机试验中进行了测试。

Abstract

non-communicable diseases (NCDs) are a leading cause of global deaths, necessitating a focus on primary prevention and lifestyle behavior change.

发现论文，激发创造

复杂医疗问答中可解释的多步推理与知识提取

本文提出了一种名为MurKe的基于多步推理和知识提取的健康问答辅助系统，以应对复杂的健康医学问题。实验结果表明，该系统在HeadQA数据集上能够优于几个强基线。

Aug, 2020

SPBERTQA：一种基于句子Transformer的医学文本两阶段问答系统

本文旨在创建一个提供医疗健康知识问答的越南医疗保健系统，并使用基于SBERT的多负面排名损失方法和BM25改进的两阶段QA系统来评估其性能优于传统方法的表现

Jun, 2022

运用大型语言模型实现专业级医疗问答

Med-PaLM 2 combines improvements in Large Language Models, medical domain fine-tuning, and novel ensemble refinement approaches to achieve a state-of-the-art performance approaching or exceeding physician-level performance in medical question answering.

May, 2023

住院医学考试中正确答案的解释性论证提取

为了协助医学专家在日常活动中开发所需技术成为目前人工智能研究领域的热门话题。因此，最近提出了许多大型语言模型（LLMs）和自动基准，旨在利用自然语言作为人工智能与人类交互的工具，促进循证医学中的信息提取。本文提出了一个新的数据集，通过与以往研究不同的方式：（i）不仅包括正确答案的解释性论证，还包括解释错误答案不正确的论证；（ii）解释是由医生撰写的，以回答西班牙住院医师考试的问题。我们还利用这个新的基准来设置一项新的提取任务，即识别医生撰写的正确答案的解释。我们的设置的另一个好处是，我们可以利用提取问答范式来自动评估LLMs的性能，而不需要昂贵的人工评估。对西班牙语的语言模型进行了全面的实验，结果显示有时多语言模型的性能优于单语模型，甚至超过了已经针对医学领域进行调整的模型。此外，单语模型的结果不一致，表现竞争力的模型实际上更小、更低级。无论怎样，所获得的结果表明我们的新数据集和方法可以有效帮助医学专业人员识别与医学问题相关的循证解释。

Dec, 2023

XAIQA：用于提取式问答的基于解释器的数据增强

使用医疗记录自然可用的数据，XAIQA通过分类模型解释器生成大规模的合成问答对，提升了GPT-4作为抽取式问答模型的性能。

Dec, 2023

开发生物和医学 ChatGPT：生物医学问答的完整概述

通过自然语言处理和多模态范式，ChatGPT 探索了医学诊断、治疗建议和其他医疗支持的问题回答的战略蓝图，在医学领域数据的逐渐整合下，这些技术加快了医学领域问题回答的进展，通过连接人类自然语言与医学领域知识或专家手动注释的空白，处理了医学环境下大规模、多样化、不平衡或无标签数据分析的场景，强调了在不同任务和数据集中的应用，并概述了当前的挑战和未来医学领域研究的机遇和创新。

Jan, 2024

K-QA：实际医疗问答基准

通过构建 K-QA 数据集，使用自然语言处理模型评估，在临床环境中确保大型语言模型提供的回答的准确性至关重要。

Jan, 2024

在沟通性医疗辅导中对大型语言模型进行基准测试：一种新的系统和数据集

通过聊天对话系统，结合自然语言处理技术，开发出了一个医学交流技能辅导平台，有效帮助医学学习者提高沟通能力，并对比了使用不同的语言模型的效果。

Feb, 2024

在有限资源环境下提升健康辅导对话的研究

通过构建一个对话系统，与患者进行交谈，帮助他们制定和实现特定目标，并且可以用同理心处理他们的情绪，我们提出了一种模块化的健康辅导对话系统，结合了简化的NLU和NLG框架以及机制条件下的同理心回应生成。我们的系统通过自动和人工评估显示出更具同理心、流畅和连贯的回应，优于NLU任务的最新技术，并且需要更少的注释。我们将我们的方法视为构建自动化和更易于访问的健康辅导系统的关键一步。

Apr, 2024

利用大型语言模型进行自动化医学问答评估

本研究针对医学问答系统中人类评估时间长、成本高的问题，探讨了大型语言模型（LLMs）在自动化评估响应中的潜力。研究表明，LLMs能够可靠地复制人类评估的结果，尽管仍需进一步研究以应对更复杂的问题。

Sep, 2024