临床摘要中事实对齐的合成模仿编辑反馈
本研究利用 GPT-3.5 和 GPT-4 生成高质量的反馈,以提高临床笔记摘要的事实一致性,主要关注医学专业人员优化人工智能系统输出的实际场景,通过两种不同的对齐算法(DPO 和 SALT)基于 GPT 的编辑反馈,致力于减少幻觉并与医学事实紧密对齐,突显了 GPT 编辑在提高临床信息准确性方面的巨大潜力。
Feb, 2024
使用大型语言模型生成基于医生笔记的患者摘要,研究训练数据对生成摘要的准确性和质量的影响,使用对幻觉的严格标注协议,评估基于 Llama 2 和 GPT-4 的生成摘要的幻觉现象及相关信息。
Feb, 2024
我们提出了 FACT-GPT 这个系统,利用大型语言模型 (LLMs) 自动化事实核查中的索引匹配阶段。FACT-GPT 经训练后,可以识别与先前被揭穿的声明相符、相悖或无关的社交媒体内容。我们的评估结果表明,我们专门训练的 LLMs 在识别相关声明方面的准确性与更大型的模型相当,与人类判断非常接近。这项研究提供了一种高效的声明匹配自动化解决方案,展示了 LLMs 在支持事实核查员方面的潜力,并为该领域的进一步研究提供了宝贵的资源。
Feb, 2024
自然语言处理和大型语言模型在近期取得了显著进展,然而,大型语言模型常常会出现 “幻觉”,导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题,显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性,以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器,与人类判断具有强相关性,至少在维基百科领域。令人惊讶的是,在我们的研究中,最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器,甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。
Oct, 2023
单个文档新闻摘要在保真度方面取得了显著进展,但我们提出一种新的评估基准,研究在以话题为焦点的对话摘要领域中存在的事实一致性问题和虚构错误类型。
Feb, 2024
通过使用 FACT-GPT 框架,我们介绍了一种自动化事实核查的方法,该方法利用大型语言模型 (LLMs) 的主张匹配阶段来识别新的社交媒体内容,无论是支持还是反驳之前被事实核查人员驳斥的主张。研究结果表明,我们的精细调节的 LLMs 在主张匹配任务中与更大型的预训练 LLMs 的性能相媲美,与人工标注结果密切一致。
Oct, 2023
通过对 pre-trained large language models 进行 factual-aware SFT 和 factual-aware RL 的直接优化,使其在保持指令遵循能力的同时,输出更多真实的回应。
May, 2024
本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性,并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析,以及对多种提示方法进行研究,最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。
May, 2023
本研究旨在探究将 ChatGPT 应用于临床文本挖掘中,针对生物命名实体识别和关系抽取,我们提出了一种基于生成大量合成数据进行本地模型微调的训练范式。结果表明,这种方法显著提高了下游任务的性能,同时缓解了数据隐私问题。
Mar, 2023