基于辅助偏好学习的文本分类器优化
反馈数据在微调和评估先进的 AI 模型中起着重要作用。本文提出了一种将现有的文本偏好数据解释为压缩任务的方法,即逆向宪法 AI(ICAI)问题。我们通过生成宪法来提取最佳宪法,以便大型语言模型(LLM)能够重建原始注释。生成的宪法具有许多潜在用途,可以帮助识别不可取的偏见,将反馈扩展到未见数据,或帮助调整 LLMs 以适应个人用户喜好。在合成反馈数据集、AlpacaEval 跨注释人类反馈数据集和众包 Chatbot Arena 数据集上证明了我们的方法。
Jun, 2024
大型语言模型在自然语言处理中被广泛采用,但是它们面临着生成不可靠内容的挑战。最近的研究旨在通过引用作为证据来减少错误信息和产生幻象。然而,当前的引用方法通常集中在检索阶段和自动评估上,忽视了在人类学术写作中增强可信度的引用机制的反映。本文通过将归因任务建模为偏好学习,并引入自动偏好优化(APO)框架来解决这些挑战。我们首先创建了一个经过训练的精心策划的收集 (6330 个例子),通过收集和过滤现有数据集。其次,考虑到标记偏好数据的高成本,我们进一步提出了一种自动合成归因偏好数据的方法,得到了 95263 对。此外,受人类引文过程的启发,我们还提出了一种利用细粒度信息的渐进式偏好优化方法。在 ASQA、StrategyQA 和 ELI5 三个数据集上进行了大量实验证明,APO 在引文 F1 指标上达到了最先进的水平,并且具有更高的回答质量。
Mar, 2024
通过在不同迭代中为性能更好的无法获得明显奖励的响应对分配更多资源,本研究提出了一种选择值得注释的响应对的策略,以实现在成本效益高的注释条件下与随机选择基线相比的竞争性或更好的性能。
Jun, 2024
本研究提出了一个新的交互式框架,可通过优化离线数据和一种新型奖励模型,以少量交互式反馈的方式训练摘要模型,提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。
Apr, 2022
大规模基础模型预训练在原始网络数据上,无法直接部署,需要经过广泛的与人类偏好的协调。本文提出 PAL 框架,将人类偏好的多样性融入到预训练策略中,通过理想点模型和混合建模方法,捕捉到群体偏好的多样性,同时学习一种常用的偏好潜空间,能够适应新用户的少样本泛化。该方法利用基础模型的倒数第二层表示和简单的 MLP 层,学习与现有大型先进奖励模型相当的奖励函数,极大提升了奖励建模的效率。实验证明,PAL 在多个数据集上与基准模型相比,能够达到竞争性的奖励模型准确性,并揭示了当前偏好数据集的不足,呼吁采用更细致的数据收集方法。
Jun, 2024
提出一种基于多任务学习的方法,通过属性偏好学习、AUC 损失函数以及梯度的高效计算方法,实现了个性化的属性学习,进而保证个性化的排序预测效果。
Jun, 2019
该论文探讨了在文本到动作生成中的首选学习,指出当前的文本到动作生成仍依赖于需要具备专业知识的数据集和动作捕捉系统;而从人类偏好数据学习则不需要动作捕捉系统,只需没有专业知识的标注人员比较两个生成的动作。我们提供了 3,528 个由 MotionGPT 生成的首选对进行注释的数据集,标志着从偏好数据进行学习的首次尝试,并强调在使用偏好数据时的重要设计选择。此外,我们的实验结果表明偏好学习有着极大的潜力来改进当前的文本到动作生成模型。我们的代码和数据集已公开在 https://github.com/THU-LYJ-Lab/InstructMotion 以进一步促进该领域的研究。
Apr, 2024
本研究提出了使用无监督风格转移和 GPT-3 的零 - shot 技术发现具有表达性和直观性的个体公平规范的新方法,以解决文本分类器中公平性问题。我们使用众包研究验证了所生成的具有人类直觉的公平排除敏感属性的语句对,并展示了有限数量的人类反馈如何帮助训练一种相似度规范来训练下游的公平感知模型。
Dec, 2022