临床摘要中事实对齐的合成模仿编辑反馈

Oct, 2023

临床摘要中事实对齐的合成模仿编辑反馈

Synthetic Imitation Edit Feedback for Factual Alignment in Clinical Summarization

Prakamya Mishra, Zonghai Yao, Shuwei Chen, Beining Wang, Rohan Mittal...

TL;DR使用 ChatGPT 生成高质量反馈数据，从而改善临床笔记概括任务中的事实一致性，并展示了 GPT 编辑在人类对齐中的潜在用途，特别是从事实角度。

Abstract

large language models (LLMs) like the GPT and LLaMA families have demonstrated exceptional capabilities in capturing and condensing critical contextual information and achieving state-of-the-art performance in the summarization task. However, community concerns about these models'

large language models hallucination issues clinical note summarization human feedback factuality perspective

发现论文，激发创造

SYNFAC-EDIT：临床摘要的事实对齐的合成模仿编辑反馈

本研究利用 GPT-3.5 和 GPT-4 生成高质量的反馈，以提高临床笔记摘要的事实一致性，主要关注医学专业人员优化人工智能系统输出的实际场景，通过两种不同的对齐算法（DPO 和 SALT）基于 GPT 的编辑反馈，致力于减少幻觉并与医学事实紧密对齐，突显了 GPT 编辑在提高临床信息准确性方面的巨大潜力。

Feb, 2024

基于数据的方法生成忠实和高质量的患者总结（利用大型语言模型）

使用大型语言模型生成基于医生笔记的患者摘要，研究训练数据对生成摘要的准确性和质量的影响，使用对幻觉的严格标注协议，评估基于 Llama 2 和 GPT-4 的生成摘要的幻觉现象及相关信息。

Feb, 2024

FACT-GPT: 通过与 LLMs 进行索引匹配的事实检查增强

我们提出了 FACT-GPT 这个系统，利用大型语言模型 (LLMs) 自动化事实核查中的索引匹配阶段。FACT-GPT 经训练后，可以识别与先前被揭穿的声明相符、相悖或无关的社交媒体内容。我们的评估结果表明，我们专门训练的 LLMs 在识别相关声明方面的准确性与更大型的模型相当，与人类判断非常接近。这项研究提供了一种高效的声明匹配自动化解决方案，展示了 LLMs 在支持事实核查员方面的潜力，并为该领域的进一步研究提供了宝贵的资源。

Feb, 2024

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023

TofuEval: 评估 LLL 在主题焦点对话摘要的虚幻现象

单个文档新闻摘要在保真度方面取得了显著进展，但我们提出一种新的评估基准，研究在以话题为焦点的对话摘要领域中存在的事实一致性问题和虚构错误类型。

Feb, 2024

自我对齐以提高事实准确性：通过自我评估减少 LLMs 中的幻觉

探索使用自我评估和自我知识调整的自对齐方法，以增强大语言模型的事实准确性。

Feb, 2024

大型语言模型的自动索赔匹配：在打击虚假信息中赋予事实检查员权力

通过使用 FACT-GPT 框架，我们介绍了一种自动化事实核查的方法，该方法利用大型语言模型 (LLMs) 的主张匹配阶段来识别新的社交媒体内容，无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明，我们的精细调节的 LLMs 在主张匹配任务中与更大型的预训练 LLMs 的性能相媲美，与人工标注结果密切一致。

Oct, 2023

FLAME: 大型语言模型的事实感知对齐

通过对 pre-trained large language models 进行 factual-aware SFT 和 factual-aware RL 的直接优化，使其在保持指令遵循能力的同时，输出更多真实的回应。

May, 2024

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性，并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析，以及对多种提示方法进行研究，最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023

低语言模型 (Synthetic Data Generation of LLMs) 是否有助于临床文本挖掘？

本研究旨在探究将 ChatGPT 应用于临床文本挖掘中，针对生物命名实体识别和关系抽取，我们提出了一种基于生成大量合成数据进行本地模型微调的训练范式。结果表明，这种方法显著提高了下游任务的性能，同时缓解了数据隐私问题。

Mar, 2023