OLAPH: 改进生物医学长篇问答中的事实性

May, 2024

OLAPH: 改进生物医学长篇问答中的事实性

OLAPH: Improving Factuality in Biomedical Long-form Question Answering

Minbyul Jeong, Hyeon Hwang, Chanwoong Yoon, Taewhoo Lee, Jaewoo Kang

TL;DR在医学领域中，通过使用 MedLFQA 数据集，我们引入了一个简单而新颖的框架 OLAPH，通过自动评估提高真实性，有效训练大型语言模型以生成长篇答案，达到与医学专家答案相当的水平。

Abstract

In the medical domain, numerous scenarios necessitate the long-form generation ability of large language models (LLMs). Specifically, when addressing patients' questions, it is essential that the model's response conveys factual claims, highlighting the need for an automated method to

long-form generation large language models medlfqa olaph framework factuality

发现论文，激发创造

大型语言模型中的长篇事实准确性

大型语言模型经常在对开放式主题的事实查询提示进行回答时产生内容错误。为了评估模型在开放领域中的长篇事实可靠性，我们首先使用 GPT-4 生成了一个包含 38000 个问题的长篇事实测试集，然后提出利用 LLM 代理作为长篇事实性的自动化评估器的方法（称为 SAFE），通过将长篇回复分解为一组单个事实，并使用多步推理过程（发送搜索查询到 Google 搜索并确定搜索结果是否支持事实）来评估每个事实的准确性。此外，我们提出将 F1 分数扩展为评估长篇事实性的聚合度量标准，通过将回复中的支持事实的百分比（准确率）与相对于用户首选回复长度的超参数表示的提供事实的百分比（召回率）进行平衡。实证上，我们证明 LLM 代理在超出人类标注者的 16k 个个别事实集上实现了超人类的评级性能 - SAFE 在这些事实中与众包人类标注者的意见达成 72% 的一致，在 100 个不一致案例的随机子集中，SAFE 赢得了 76% 的情况。与此同时，SAFE 比人类标注者便宜多达 20 倍。我们还对长篇事实测试集上的十三个语言模型进行了基准测试，涵盖四个模型系列（Gemini，GPT，Claude 和 PaLM-2），发现较大的语言模型通常可以实现更好的长篇事实性。LongFact，SAFE 和所有实验代码均可在此 https URL 中获取。

Mar, 2024

运用大型语言模型实现专业级医疗问答

Med-PaLM 2 combines improvements in Large Language Models, medical domain fine-tuning, and novel ensemble refinement approaches to achieve a state-of-the-art performance approaching or exceeding physician-level performance in medical question answering.

May, 2023

长格式问答进展的障碍

该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战，在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性，且训练集和验证集存在显著重复。给出了缓解这些问题的建议。

Mar, 2021

对长篇问答评估的关键评估

对长篇答案进行有针对性的评估研究，强调评估多维度因素，发现自动文本生成的评价指标不能预测人类喜好，建议未来的评估中，应该注重准确性、完整性和客观性等多个方面。

May, 2023

生成式长篇问答：相关性、忠实度和简洁性

本论文研究了长篇问答系统的相关性、可靠性和简洁性，旨在改进问题相关性、答案可靠性和简洁性等方面的答案质量。

Nov, 2022

CaLMQA: 跨 23 种语言探索跨文化特定长篇问答

通过介绍 CaLMQA，一个涵盖 23 种语言的 2.6K 多样化问题集，我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降，这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。

Jun, 2024

K-QA：实际医疗问答基准

通过构建 K-QA 数据集，使用自然语言处理模型评估，在临床环境中确保大型语言模型提供的回答的准确性至关重要。

Jan, 2024

探索 LLMs 对长文问题回答的可行性

从长文摘要生成问题的方法对于 LLMs 的性能造成挑战，表明 LLMs（如 ChatGPT）与开源 LLMs（Alpaca、Llama）之间存在性能差距。

Sep, 2023

阅读前先生成！使用机器阅读实现忠实的长篇问答

我们提出了一种新的端到端框架，用于解决长篇问答的生成问题，重点是如何生成更加真实准确的答案。通过增加细粒度的相关信息来强化生成模型，实验结果表明我们的方法比强基线模型在自动和人工评估指标上表现更好，并且能够生成流畅，相关且更加真实准确的答案。

Mar, 2022

利用大型语言模型模拟人类认知过程进行专业级医学问题回答

通过模拟人类认知过程，BooksMed 使用大型语言模型（LLM）构建的框架，利用 GRADE 框架来提供基于证据的可靠答复，同时引入 ExpertMedQA 来评估 LLM 的性能，从而成为在临床决策中提供可靠和基于证据的答案的有用工具。

Oct, 2023