透视偏好:解开大型语言模型对齐中的反馈获取
通过对人类和重要语言模型的偏好进行细致分析,研究发现人类对错误不太敏感,倾向于支持他们的观点的回答,并且当模型承认其局限性时显示出明显的不喜欢。相反地,高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外,相似大小的语言模型往往表现出类似的偏好,无论它们的训练方法如何,并且对于仅预训练的语言模型来说,通过对齐进行微调并不显著改变其偏好。最后,研究发现基于偏好的评估可以被有意地操纵,将模型与评委的偏好保持一致将提高评分,而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化,例如在 MT-Bench 上高达 0.59 分(1-10 分制),在 AlpacaEval 2.0 上高达 31.94 分(0-100 分制),突显了这种战略性调整的重要影响。
Feb, 2024
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023
通过理论分析学习动态,我们提供了对人类偏好对齐的理论观察,揭示了优化算法可能优先考虑具有更高偏好区分度的行为,并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。
Mar, 2024
近年来,大型语言模型(LLMs)在自然语言处理和机器学习领域取得了显著的发展,其性能提升的一个关键因素是通过人类反馈实现与人类的对齐,同时研究发现其他 LLMs 进行强化学习也可以取代人类反馈。本文研究了使用其他 LLMs 来评估 LLMs 时出现的偏差,并着重探究了冗长性偏差 —— 即 LLMs 有时倾向于提供更冗长的答案,即使质量相似。我们发现在我们的问题设置中,GPT-4 更倾向于提供更长的答案,我们提出了一种度量这种偏差的指标。
Oct, 2023
人工反馈被广泛应用于评估大型语言模型的性能,但目前尚不清楚这个单一的 “偏好” 得分到底捕捉到了生成输出的哪些特性。我们假设偏好得分是主观的,并且可能存在不可取的偏差。我们批判性地分析了人工反馈在训练和评估中的使用,以验证其是否充分捕捉到一系列关键错误标准。我们发现,虽然偏好得分的覆盖面较好,但却未充分表示重要方面,如事实性。此外,我们假设偏好得分和错误标注都可能受到混杂因素的影响,并利用针对指令的模型生成具有两个可能混杂维度(肯定性和复杂性)的输出。我们发现输出的肯定性会使事实错误的感知率产生偏倚,表明人工标注不是一个完全可靠的评估度量或训练目标。最后,我们提供初步证据,表明使用人工反馈作为训练目标会不成比例地增加模型输出的肯定性。我们鼓励未来的研究仔细考虑偏好得分是否与所期望的目标一致。
Sep, 2023
通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据,我们提出了一种新的框架,可以显著增强大型语言模型的对齐性能,进一步提取模型的内在偏好。
Jun, 2024
本综述从以偏好为中心的角度回顾了探索大型语言模型(LLMs)的人类偏好学习的进展,包括偏好反馈的来源和格式,偏好信号的建模和使用,以及对齐 LLMs 的评估。
Jun, 2024
通过自我引用的 AI 反馈框架,允许 13B Llama2-Chat 模型以 “最适合人类” 的原则为基准,对用户指令回应进行批判,从而提供高质量的偏好反馈,并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异,实验证明该方法使 13B 和 70B Llama2-Chat 注释器能够提供高质量的偏好反馈,并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。
Jun, 2024
使用 Pairwise-preference Search(PAIRS)方法,通过对比评估候选文本,解决了大型语言模型(LLMs)在评估中出现的偏差与不连贯问题。
Mar, 2024