FFT：面向事实性、公平性、毒性的 LLM 无害评估和分析

Nov, 2023

FFT：面向事实性、公平性、毒性的 LLM 无害评估和分析

FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity

Shiyao Cui, Zhenyu Zhang, Yilong Chen, Wenyuan Zhang, Tianyun Liu...

TL;DR通过提出一个新的基准测试 FFT，以测试大型语言模型的无害性，本文对代表性的九个大型语言模型进行了实证评估，研究发现这些语言模型的无害性仍然不理想，为未来研究提供了有启发性的结果。

Abstract

The widespread of generative artificial intelligence has heightened concerns about the potential harms posed by ai-generated texts, primarily stemming from factoid, unfair, and toxic content. Previous researchers

generative artificial intelligence ai-generated texts large language models benchmark harmlessness evaluation

发现论文，激发创造

大型语言模型时代中的事实性挑战

探索大型语言模型（LLMs）的风险、潜在威胁和可行解决方案，以在生成 AI 时代中揭示准确性的各个方面。

Oct, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

FELM: 大型语言模型真实性评估基准

评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域，目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题，我们介绍了一个名为 felm 的大型语言模型真实性评估基准，该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释，我们可以帮助定位具体的事实错误。然而，我们的实验证实，当前的语言模型在忠实地检测事实错误方面还远远不够满意。

Oct, 2023

2024 年大型语言模型的事实性

大语言模型（LLMs），尤其是适用于聊天的指导模型，已成为我们日常生活中的一部分，通过在一个地方提供简单的答案，使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而，很多情况下，LLM 的回答是错误的，这限制了它们在实际场景中的适用性。因此，对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中，我们以批判性的角度分析现有的工作，旨在确定主要的挑战及其关联的原因，指出改进 LLM 的潜在解决方案，分析开放式文本生成的自动事实准确性评估的障碍，并展望未来研究的方向。

Feb, 2024

揭开塞壬之歌：迈向可靠的事实冲突幻觉检测

通过 FactCHD 基准测试，评估 Large Language Models 中事实性的判断，在检测虚假信息方面取得了有效成果，且当前方法在准确检测事实错误方面存在不足。

Oct, 2023

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

大型语言模型中毒性的实际评估

该研究介绍了新的 “全面优化毒性”（TET）数据集，由手工设计的提示构成，旨在抵消这些模型的保护层，通过广泛的评估，证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用，凸显了正常提示下可能隐藏的 LLMs 中的毒性，从而揭示了它们行为中更微妙的问题。

May, 2024

LLM 生成的错误信息能被检测出吗？

大语言模型（LLM）的出现具有革命性的影响。然而，像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息，对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题：LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性？通过我们的实证研究，我们发现相比于具有相同语义的人类编写的误导信息，LLM 生成的误导信息对于人类和检测器来说更难以检测，这表明它可能具有更具欺骗性的风格，并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。

Sep, 2023

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023

揭示 LLM 生成数据的本质

本研究探讨了大型语言模型（LLMs）在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配，但本文揭示了显著的潜在差异，尤其是在复杂任务中，LLMs 常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的 LLM 生成数据，并强调了在数据创建和使用 LLMs 时遵循道德实践的必要性。它凸显了解决 LLM 生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。

Jan, 2024