创造力已离开聊天窗口：语言模型去偏见的代价

Jun, 2024

创造力已离开聊天窗口：语言模型去偏见的代价

Creativity Has Left the Chat: The Price of Debiasing Language Models

Behnam Mohammadi

TL;DR使用强化学习通过人类反馈进行对齐技术（RLHF）在大语言模型的创造力上产生意外后果。

Abstract

large language models (LLMs) have revolutionized natural language processing but can exhibit biases and may generate toxic content. While

large language models biases toxic content alignment techniques creativity

发现论文，激发创造

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

大型语言模型中平衡创造力和现实之间的权衡的数学抽象

本文着重探讨了大型语言模型（LLMs）及其在生成创造性写作和问答系统等方面的应用，并提供了一种基于损失的数学抽象模型来平衡模型的创造性和真实性。

Jun, 2023

关于大型语言模型的创新力

本文分析了大型语言模型在创造性写作方面的应用，讨论了其中的挑战，探讨了机器创造性中的一些问题，以及这些技术在创意产业中的社会影响。

Mar, 2023

人类和大型语言模型中的分歧创造力

最新研究表明，大型语言模型（LLMs）在创造性方面可以超越人类的能力，特别是在发散性思维和创造性写作等特定创造性任务方面，这项研究使用创造力科学的最新进展构建了一个评估 LLMs 创造力的深入分析框架与一个包含 10 万人的实验数据集进行对比，既为更具创造力的 LLMs 的发展开辟了新的路径，也促进了对由人类独特的创新思维过程构成的与那些可以人工生成的元素的更细致的研究。

May, 2024

大型语言模型中偏重冗余的偏好标注

近年来，大型语言模型（LLMs）在自然语言处理和机器学习领域取得了显著的发展，其性能提升的一个关键因素是通过人类反馈实现与人类的对齐，同时研究发现其他 LLMs 进行强化学习也可以取代人类反馈。本文研究了使用其他 LLMs 来评估 LLMs 时出现的偏差，并着重探究了冗长性偏差 —— 即 LLMs 有时倾向于提供更冗长的答案，即使质量相似。我们发现在我们的问题设置中，GPT-4 更倾向于提供更长的答案，我们提出了一种度量这种偏差的指标。

Oct, 2023

大型语言模型中创造力的评估与理解

本研究旨在建立一个有效的框架，评估大型语言模型的创造力水平，通过改编 Torrance 创造性思维测试方法，研究评估了各种任务中的创造性表现，包括流畅性、灵活性、独创性和详尽度等 4 个标准，并发现大型语言模型在独创性方面表现不足，但在详尽度方面优秀，还揭示了模型的创造力受提示和角色扮演设置的显著影响，多个模型合作也可以增强独创性，此外，人工评估和大型语言模型对创造力的影响存在一致性，强调了大型语言模型设计对创造力的重要影响。

Jan, 2024

理解 RLHF 对 LLM 泛化和多样性的影响

利用强化学习从人类反馈中对大型语言模型（LLMs）进行微调，该方法已在一些最广泛使用的人工智能模型中得到应用，如 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Meta 的 LLaMA-2。我们通过广泛的分析探讨了这个过程的每个阶段（即受监督的微调（SFT）、奖励建模和强化学习从人类反馈）对于两个关键属性的影响：越界分布的泛化和输出的多样性。我们发现，相对于受监督的微调，强化学习从人类反馈更好地泛化到新的输入，尤其是在训练和测试之间的分布差异越大时。然而，相比于受监督的微调，强化学习从人类反馈显著降低了输出的多样性，这意味着在当前 LLM 微调方法中存在泛化和多样性之间的权衡。我们的研究结果为特定应用提供了微调方法的指导，并表明有必要改进泛化和多样性之间的权衡。

Oct, 2023

大型语言模型的教学对齐

介绍了针对教育领域的新概念 —— 教育对齐的大型语言模型 (LLMs)，它作为脚手架工具将复杂问题分解为可管理的子问题，并通过反馈和提示引导学生寻找最终答案。研究表明，通过对齐的强化学习方法在提高 LLMs 的性能方面表现优越，同时在线反馈对于提升教育对齐型 LLMs 的表现也具有潜力，为这些模型在教育环境中的发展提供了有价值的见解。

Feb, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

人类和大型语言模型中的创造过程特征

大型语言模型在创造性任务中表现得相当有创造力，但研究关于 LLM 创造力的过程主要集中在产品上，对创造过程的关注较少。我们提供了一种自动化方法来描述人类和 LLM 如何在交替使用任务和语言流利性任务中探索语义空间，并与其在行为上的对比。我们使用句子嵌入来识别响应类别和计算语义相似性，进而生成跳转轮廓。我们的结果证实了人类之前的工作，报告了持久性（对少量语义空间进行深度搜索）和灵活性（在多个语义空间中广泛搜索）两种创造力路径，两种路径都导致相似的创造力得分。LLM 在坚持性和灵活性路径上存在偏差，且在不同任务中变化。尽管 LLM 群体与人类个体相匹配，它们与创造力的关系不同，表现更灵活的模型在创造力方面得分更高。我们的数据集和脚本可以在 GitHub 上获得。

May, 2024