多元而分裂：LLM 可能夸大与错误信息的危害相关的性别差异

Jan, 2024

多元而分裂：LLM 可能夸大与错误信息的危害相关的性别差异

Diverse, but Divisive: LLMs Can Exaggerate Gender Differences in Opinion Related to Harms of Misinformation

Terrence Neumann, Sooyong Lee, Maria De-Arteaga, Sina Fazelpour, Matthew Lease

TL;DR使用大型语言模型（LLM）在事实检查过程中能够反映不同群体的观点，但增大了性别差异的程度，为解决社会中的误导性信息和在线交流提供了重要启示。

Abstract

The pervasive spread of misinformation and disinformation poses a significant threat to society. Professional fact-checkers play a key role in addressing this threat, but the vast scale of the problem forces them

misinformation fact-checkers large language model gender differences online communication

发现论文，激发创造

评估 LLMs 在著名人士中的性别差异

该研究评估了大型语言模型对获取事实信息的使用，特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向，并重点调查了性别差异在模型回答中的存在。研究结果显示 GPT-3.5 生成的回答存在明显性别差异，尽管 GPT-4 的进展改善了性能，但并未完全消除这些性别差异，特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。

Mar, 2024

LLM 生成的错误信息能被检测出吗？

大语言模型（LLM）的出现具有革命性的影响。然而，像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息，对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题：LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性？通过我们的实证研究，我们发现相比于具有相同语义的人类编写的误导信息，LLM 生成的误导信息对于人类和检测器来说更难以检测，这表明它可能具有更具欺骗性的风格，并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。

Sep, 2023

支持现实世界事实核查的多模态大型语言模型

对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估，发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能，具备解释不合理方面和潜在动机的能力，同时已有的开源模型存在强烈的偏见，并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示，据我们所知，这是第一次对多模态大型语言模型进行真实世界事实检查的评估。

Mar, 2024

揭示法学硕士职业领域中的性别偏见：分析与解决社会学意义

该研究探讨了大型语言模型中的性别偏见问题，特别关注 GPT-2 和 GPT-3.5 等多个语言模型之间的比较，通过对生成的文本进行全面的文献综述和定量分析，发现了性别化词汇关联、语言使用和偏见叙述的问题，并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少 AI 模型性别偏见中的作用。

Jul, 2023

自动生成的大型语言模型在自动事实检查中的应用：综述

通过调查生成型大型语言模型在事实核查领域的利用情况，本综述旨在提高对大型语言模型在事实核查中的运用的理解并促进进一步的发展。

Jul, 2024

LLMs 中性别偏见的揭示与减轻

大语言模型可以生成具有偏见的回答。然而，先前的直接探测技术包含性别提及或预定义的性别刻板印象，这些很难全面收集。因此，我们提出了一种基于条件生成的间接探测框架，旨在诱使大语言模型揭示其性别偏见，即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明，所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见，即使输入中没有性别刻板印象。此外，模型大小的增加或模型对齐会放大大多数情况下的偏见。此外，我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是，即使没有显式的性别或刻板印象，这些方法也被证明是有效的。

Feb, 2024

全球撒谎者：LLMs 随时间和地域的真实性

研究评估 GPT 模型的事实准确性、稳定性和偏见，发现较新版本的 GPT 模型并不总是具有更好的性能，存在地域偏见及信息不对称问题，强调了在模型训练和评估中的文化多样性和地理包容性的重要性，以实现全球科技公平和公正分配人工智能的好处。

Jan, 2024

利用大型语言模型揭示和缓解心理健康分析中的偏见

大型语言模型的进展展示了在各个应用领域的强大能力，包括心理健康分析。然而，现有的研究着重于预测性能，对公平性这一关键问题的探讨不足，给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集，使用十种不同的提示方法，系统地评估了七个社会因素的偏见。结果表明，GPT-4 在性能和公平性方面实现了最佳的平衡，尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外，我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见，凸显了在该领域进行公平分析的巨大潜力。

Jun, 2024

大型语言模型对误导性污染的风险

本文研究了现代大型语言模型的潜在滥用问题，并探讨其对信息密集型应用的影响，特别是对开放式问题回答系统。我们建立了一个威胁模型，模拟了可能的滥用场景，证明了大型语言模型可以作为有效的错误信息产生器，导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害，我们探索了三种防御策略：提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势，但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性，以应对大型语言模型生成的错误信息，促进大型语言模型的负责任使用。

May, 2023

大型语言模型（LLM）的利用中的挑战和影响因素

当面临领域特定问题时，大语言模型（LLMs）可能会遇到问题，如知识遗忘、知识重复、知识幻觉以及知识毒性，这些问题突显了 LLMs 的训练数据和算法设计的困扰。为了解决这些问题，建议对训练数据进行多样化，微调模型，提高透明度和可解释性，并引入伦理和公平性培训。未来的技术趋势可能会倾向于迭代方法学、多模态学习、模型个性化定制以及实时学习和反馈机制。最重要的是，未来的 LLMs 应确保在为人类服务时优先考虑公平、透明和伦理，确保它们持有高的道义和道德标准。

Oct, 2023