纷扰的细粒度反馈：超越赞 / 踩 —— 面向文本到图像生成的挑战

Jun, 2024

纷扰的细粒度反馈：超越赞 / 踩 —— 面向文本到图像生成的挑战

Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation

Katherine M. Collins, Najoung Kim, Yonatan Bitton, Verena Rieser, Shayegan Omidshafiei...

TL;DR通过对真实数据和合成偏好数据的实验，我们发现精细的反馈不一定总是优于粗略的反馈，根据模型选择、反馈类型和人类判断与计算解释的一致性的相互作用存在的复杂性，我们确定了精细反馈获取和利用的关键挑战，这促使我们重新评估其所假设的优势和实用性。我们的发现表明，在某些情况下，对于固定预算，精细的反馈可能导致更差的模型；然而，在已知属性的受控环境中，精细的奖励确实可以更加有帮助，这需要仔细考虑反馈属性并可能呼唤新的建模方法来合理地挖掘精细反馈在实际应用中的潜在价值。

Abstract

human feedback plays a critical role in learning and refining reward models for text-to-image generation, but the optimal form the feedbac

human feedback reward models text-to-image generation fine-grained feedback coarse-grained feedback

发现论文，激发创造

细粒度人类反馈为语言模型训练提供更好的奖励

本文介绍了 Fine-Grained RLHF 框架，可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练，并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。

Jun, 2023

利用人类反馈对齐文本与图像模型

本文介绍了一种 Fine-Tuning 方法，使用人类反馈对齐文本到图像的 Deep generative model，通过分析设计选择平衡对齐 - 准确性的权衡，最终通过奖励加权似然优化，使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明，利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。

Feb, 2023

文本到图像生成的丰富人类反馈

通过人类反馈信号提高图像生成质量，结合文本到图像生成模型和基于强化学习的人类反馈，标记不真实或不对齐的图像区域以及文本中被误代表或缺失的词，使用多模态变换器自动预测反馈，进一步改进图像生成方法。

Dec, 2023

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

人类反馈非黄金标准

人工反馈被广泛应用于评估大型语言模型的性能，但目前尚不清楚这个单一的 “偏好” 得分到底捕捉到了生成输出的哪些特性。我们假设偏好得分是主观的，并且可能存在不可取的偏差。我们批判性地分析了人工反馈在训练和评估中的使用，以验证其是否充分捕捉到一系列关键错误标准。我们发现，虽然偏好得分的覆盖面较好，但却未充分表示重要方面，如事实性。此外，我们假设偏好得分和错误标注都可能受到混杂因素的影响，并利用针对指令的模型生成具有两个可能混杂维度（肯定性和复杂性）的输出。我们发现输出的肯定性会使事实错误的感知率产生偏倚，表明人工标注不是一个完全可靠的评估度量或训练目标。最后，我们提供初步证据，表明使用人工反馈作为训练目标会不成比例地增加模型输出的肯定性。我们鼓励未来的研究仔细考虑偏好得分是否与所期望的目标一致。

Sep, 2023

弥合断层：自然语言生成中融入（人类）反馈的调查

本文对利用人类反馈来提高自然语言生成的研究进行了综述。通过介绍反馈的形式和目标，讨论了直接使用反馈或训练反馈模型两种方法在训练和解码过程中的应用。此外，我们还探讨了与反馈收集相关的现有数据集和问题，并提供了人工智能反馈领域的概述。

May, 2023

粗到细：基于粗糙标注数据的细粒度文本分类

该研究提出了一种基于粗到细粒度的分类，使用标签表面名称和预训练的生成式语言模型，生成虚假数据训练分类器并用于模型优化，实验证明在两个真实数据集上比零 - shot 分类改进了性能。

Sep, 2021

超越模仿：利用细粒度质量信号进行对齐

我们提出了一种名为 FIGA 的改进对齐方法，通过利用细粒度的质量信号，即对比好坏回答的方式，指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。

Nov, 2023

利用人类反馈进行指导性视觉编辑的 HIVE

本文提出了一种新的框架来使用人类反馈来改进指导性视觉编辑，通过学习奖励函数捕捉用户偏好并采用可扩展的扩散模型微调方法以处理数据限制带来的偏见，同时贡献了新的数据集以提升性能。实验证明该方法比之前的最先进的指导图像编辑方法更受欢迎。

Mar, 2023

透视偏好：解开大型语言模型对齐中的反馈获取

通过稀疏反馈的设计选择以及反馈协议对大型语言模型（LLMs）的对齐和评估进行分析，发现评分和排名所推断的偏好在人类和人工智能注释者中有显著差异，并揭示了对齐 LLMs 评估的方法中的关键缺陷和对反馈协议的强烈依赖。

Aug, 2023