LLM 有针对性的低效率问题主要影响弱势用户
该研究评估了大型语言模型对获取事实信息的使用,特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向,并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异,尽管 GPT-4 的进展改善了性能,但并未完全消除这些性别差异,特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。
Mar, 2024
当面临领域特定问题时,大语言模型(LLMs)可能会遇到问题,如知识遗忘、知识重复、知识幻觉以及知识毒性,这些问题突显了 LLMs 的训练数据和算法设计的困扰。为了解决这些问题,建议对训练数据进行多样化,微调模型,提高透明度和可解释性,并引入伦理和公平性培训。未来的技术趋势可能会倾向于迭代方法学、多模态学习、模型个性化定制以及实时学习和反馈机制。最重要的是,未来的 LLMs 应确保在为人类服务时优先考虑公平、透明和伦理,确保它们持有高的道义和道德标准。
Oct, 2023
通过与搜索引擎进行对比实验证明,大型语言模型虽然能提高事实核查的效率,但在解释错误的情况下容易让用户过分依赖,因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。
Oct, 2023
大语言模型(LLMs),尤其是适用于聊天的指导模型,已成为我们日常生活中的一部分,通过在一个地方提供简单的答案,使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而,很多情况下,LLM 的回答是错误的,这限制了它们在实际场景中的适用性。因此,对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中,我们以批判性的角度分析现有的工作,旨在确定主要的挑战及其关联的原因,指出改进 LLM 的潜在解决方案,分析开放式文本生成的自动事实准确性评估的障碍,并展望未来研究的方向。
Feb, 2024
自然语言处理和大型语言模型在近期取得了显著进展,然而,大型语言模型常常会出现 “幻觉”,导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题,显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性,以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器,与人类判断具有强相关性,至少在维基百科领域。令人惊讶的是,在我们的研究中,最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器,甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。
Oct, 2023
提出了一种新的提示策略,其中包括要求大语言模型解释其推理过程,但结果表明,LLM 的误差与人类的误差存在系统性差异,这使得制作对抗性示例变得相对容易,表示人类表现并不一定意味着人类理解或推理能力。
Dec, 2022
该研究通过分析数据集,探讨了大型语言模型在回答非英语母语使用者的问题时是否会产生性能偏差,结果发现与母语使用者相比,非英语母语使用者在与语言模型的互动中会获得更低质量甚至事实错误的回答。
Jun, 2024
通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析,我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差,而大小模型并不一定比通用模型更具偏见,经过设计决策的提示方式对社会偏差也有影响,研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。
Apr, 2024
对于使用大型语言模型(LLM)模仿学生误解以进行个性化教育,本研究探讨了其退化副作用。我们发现,随着 LLM 被训练得更准确地模仿学生误解,模型的事实真实性和推理能力会受到妥协。为了解决这些副作用,我们引入了一种 “幻觉标记” 技术,并发现在多个基准数据集上效果显著提升,但仍需要进一步研究保持 LLM 在个性化教育和事实准确性之间的平衡。
Apr, 2024
大型语言模型产生信息速度快,但信息质量不可信,由于预训练中的不可靠和有偏见的标记化导致信息质量下降,进而导致虚构和伪造信息。本文引入了一种新的数学信息质量评估方法,并分析了信息质量挑战和语言模型的可伸缩性规律。
Jan, 2024