human preferences | BriefGPT

关键词human preferences

搜索结果 - 45

ACL跨文化对齐是否改变语言模型的常识道德？
用英文資源對日本語言模型進行對齊，並評估結果微調模型的通俗道德是否與日本文化保持一致，結果顯示，通俗道德的某些方面是可遷移的，但其他方面則不一定。
PDF8 days ago
SafeSora: 通过人类偏好数据集实现文本到视频生成的安全对齐
为了减轻大规模视觉模型（LVMs）带来的有害输出的风险，我们引入了 SafeSora 数据集，促进文本到视频生成与人类价值观的对齐研究。该数据集包括帮助性和无害性两个主要维度上的人类偏好，并进一步细分为 4 个子维度和 12 个子类别。通过
PDF12 days ago
大型语言模型人类偏好学习综述
本综述从以偏好为中心的角度回顾了探索大型语言模型（LLMs）的人类偏好学习的进展，包括偏好反馈的来源和格式，偏好信号的建模和使用，以及对齐 LLMs 的评估。
PDF15 days ago
WildVision：使用人类偏好评估在野外的视觉语言模型
最近在视觉语言模型（VLMs）中取得的突破强调了在真实世界中多模态交互中对人类偏好的基准测试的必要性。为了弥补这一差距，我们推出了 WildVision-Arena（WV-Arena），这是一个在线平台，收集人类偏好以评估 VLMs。我们通
PDF16 days ago
PAL：异构偏好学习的多元对齐框架
大规模基础模型预训练在原始网络数据上，无法直接部署，需要经过广泛的与人类偏好的协调。本文提出 PAL 框架，将人类偏好的多样性融入到预训练策略中，通过理想点模型和混合建模方法，捕捉到群体偏好的多样性，同时学习一种常用的偏好潜空间，能够适应新
PDF20 days ago
Diffusion-RPO：通过相对偏好优化对齐扩散模型
Diffusion-RPO 是一种新的方法，旨在更有效地将基于扩散的 T2I 模型与人类偏好对齐。我们引入了一种新的评估指标，即风格对齐，旨在克服当前人类偏好对齐评估中普遍存在的高成本、低可重复性和有限可解释性的挑战。研究结果表明，Diff
PDF22 days ago
LLM 自动竞技场：利用代理人对战和委员会讨论自动化评估 LLM
Auto-Arena 是一个自动、稳健且可信赖的评估框架，利用 LLM 代理自动化了整个评估过程，通过候选 LLM 之间的多轮对决以及 LLM 评委小组的讨论和决策，解决了 LLMs 评估的偏见和公平性问题，在 17 个最新的 LLMs 上
PDFa month ago
使用未观测到的偏好异质性进行直接偏好优化
利用 DPO 和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。
PDFa month ago
学习多维人类偏好的文本到图像生成
通过引入偏爱条件模块到 CLIP 模型，我们提出了首个用于评估文本到图像模型的多维度偏好评分模型，称为 Multi-dimensional Preference Score（MPS）。MPS 在我们的 Multi-dimensional H
PDFa month ago
具有信息噪声分布的异方差偏好贝叶斯优化
提出了一种新的，基于偏好的贝叶斯优化模型，在考虑人类的不确定性时，通过使用异方差噪声模型来提高候选设计的效率。
PDFa month ago
CLHA: 人类对齐的简单而有效的对比学习框架
通过对比学习实现人机对齐的简单而有效框架，以提高大型语言模型与人类偏好的一致性。
PDF3 months ago
Chatbot Arena: 通过人类偏好评估 LLM 的开放平台
Chatbot Arena 是一种基于人类偏好评估大型语言模型的开放平台，通过对接受众来源的成对比较和众包输入的方式收集数据，并使用经过验证的统计方法进行评估和排名，以确保其可靠性和可信度，成为最有价值和最引用的大型语言模型排行榜之一。
PDF4 months ago
奖励模型学习与直接策略优化：从人类偏好中学习的比较分析
通过系统比较强化学习从人类反馈中学习的范例与最近提出的直接偏好优化范例，我们向更深入地理解从人类偏好中学习迈进了一步。我们集中关注对数线性策略参数化和线性奖励函数的类别。
PDF4 months ago
PhyGrasp: 基于物理信息的大型多模态模型的机器人抓取泛化
将物理常识推理融入机器人操作，通过 PhyGrasp 模型结合自然语言和 3D 点云输入，实现对对象的物理属性准确评估和最优抓取位姿决策。模型的语言理解能力使其能够解释人类指令，并生成符合人类偏好的抓取位姿。在长尾场景中，PhyGrasp
PDF4 months ago
优化语言模型以符合人类偏好的问题的因果推断
对大型语言模型的优化进行了初步探索，为了使模型正确学习文本和结果之间的关系，提出了因果语言优化问题的形式化，开发了解决该问题的方法 —— 因果偏好优化（CPO），并扩展了双重稳健 CPO（DR-CPO），最后在困难的混淆条件下验证了 DR-
PDF4 months ago
上下文奖励：基于动态偏好调整的多目标基础模型对齐
通过 Rewards-in-Context（RiC）的方法，本文提出了一种用于多目标对齐基础模型和人类偏好的简洁和适应性方法，并通过监督微调在推断过程中支持用户偏好的动态调整，从而在只使用大约 10% 的 GPU 时间与多目标强化学习基准相
PDF5 months ago
MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM
通过引入一种新的基准测试，MLLMs 作为评判者，本研究揭示了 MLLMs 在评估任务中的能力，并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对 MLLMs 进一步改进和研
PDF5 months ago
ICMLLLM 投票：人类选择与 AI 集体决策
通过调查大型语言模型（LLMs），特别是 OpenAI 的 GPT4 和 LLaMA2 的选举行为及其与人类选举模式的一致性，本研究通过人类投票实验和与 LLM 代理人的平行实验，着重研究了集体结果和个人偏好，揭示了人类和 LLMs 在决策
PDF5 months ago
通过表示工程将大型语言模型与人类偏好对齐
以表征工程为灵感，通过人类反馈实现对大型语言模型（LLMs）中高层人类偏好的相关表征的识别，并通过转变其表征来实现对模型行为的精确控制。RAHF 方法在捕捉和操作表征方面表现出出色的效果，能够对齐各种人类偏好，显示了推进 LLM 性能的潜力
PDF6 months ago
可提示行为：个性化多目标奖励从人类偏好
本文提出了一个名为 Promptable Behaviors 的新型框架，用于在复杂环境中有效个性化机器人代理以满足多样化的人类偏好。通过使用多目标强化学习训练一个适应广泛偏好的单一策略，并引入人类示范、轨迹比较的偏好反馈以及语言指令等三种
PDF7 months ago