自我验证提高少样本临床信息提取
提出了一种名为自验证的方法,该方法使用推理链的结论作为条件建立新的样本,并要求大型语言模型重新预测原始条件,从而降低了多任务精度误差。经过大量实验验证,此方法可以使大型语言模型避免出现不正确的推理链干扰,并实现具有竞争力的推理性能,可用于算术和逻辑推理数据集的有限次学习。
Dec, 2022
几乎不存在自我评估的大型语言模型能够成功地在迭代模式下验证或自我批评其候选解决方案的推理问题中。该研究评估了一种利用大型语言模型进行计划生成和验证的计划系统,发现自我批评似乎削弱了计划生成的性能,并且系统的可靠性受到 LLM 验证器产生的显著错误结果的影响,二进制或详细反馈对计划生成几乎没有影响。总体而言,这些结果对于 LLMs 在计划任务的自我批评迭代框架中的有效性产生了质疑。
Oct, 2023
自动事实核查(使用机器学习来验证主张)已经变得至关重要,因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型(LLMs),如 GPT-4,越来越受人们的信任,可以验证信息并撰写学术论文、诉讼文件和新闻文章,强调了它们在分辨真假和能够验证其输出的重要性。在这里,我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是,在我们的框架中,代理人解释他们的推理并引用检索到的相关来源。我们的结果显示,在配备上下文信息的情况下,LLMs 表现出更强大的能力。GPT-4 优于 GPT-3,但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景,但仍需要谨慎使用,因为准确性不一致。我们的调研呼吁进一步研究,以更深入地了解代理人何时成功以及何时失败。
Oct, 2023
通过在三个领域(24 点游戏,图着色,STRIPS 规划)对 GPT-4 的表现进行实证研究,我们观察到自我评估导致性能显著下降,而外部验证则带来显著性能提升;然而,评估内容对系统性能并不重要,事实上,简单地使用一个可信的验证器重新提问可以保持大部分优势。
Feb, 2024
本文研究了如何使用大型语言模型在缺乏公共医疗语料库和注释的情况下,零和少样本学习从临床文本中提取信息,包括跨度识别、令牌级序列分类和关系提取。通过引入新的 CAS 数据集并进行手动再注释,GPT-3 系统在这些任务上明显优于现有的零和少样本基线。
May, 2022
在小型语言模型上进行自我纠正训练以提高推理能力,通过使用正确解决方案引导模型对不正确的回答进行批判,并使用生成的批评经过筛选后进行自我纠正理由的监督微调,实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升,与 GPT-4 基于验证器的强配对时取得了显著的性能提升,但使用弱自验证器来确定何时进行更正存在一定的限制。
Apr, 2024
使用 ChatGPT 生成高质量反馈数据,从而改善临床笔记概括任务中的事实一致性,并展示了 GPT 编辑在人类对齐中的潜在用途,特别是从事实角度。
Oct, 2023
使用 InstructGPT 帮助医生根据患者的医疗概况确定临床试验的资格,通过组合一次性、选择推论和思考链技术,将 LLM 应用于 10 个合成患者概况,并有医生参与辅助判断,可实现 1.0 的召回率和 0.71 的精确率。
Apr, 2023
通过使用独立验证器处理语言模型的输出和知识,本研究提出了一种验证方法,以解决语言模型在生成文本时可能存在的错误。结果表明,该验证器可以有效地识别检索和生成错误,使语言模型能够提供更准确的结果。
Oct, 2023