learning from human feedback | BriefGPT

关键词learning from human feedback

搜索结果 - 10

基于已记录的人类反馈的离线策略评估
从人类反馈中学习一直是人工智能和机器学习领域的重要进展。本文专注于从记录的人类反馈中评估新模型的政策价值，并提出了模型为基础和模型无关的估计器以及优化方法。我们分析了估计器的无偏性，并进行了实证评估，证明我们的估计器可预测评估政策的绝对值、
PDF20 days ago
ACL谁的偏好？公平偏好的差异及其对利用人类反馈的人工智能公平性的影响
通过从人类反馈中学习，我们考虑在内容审查中公平性的设置，在比较两个评论时，人类反馈被用来确定如何处理涉及不同敏感属性组的评论。我们发现，与注释者的种族、年龄、政治立场、教育水平和 LGBTQ + 身份有关，公平偏好存在显著差异，并且文本中提
PDF25 days ago
利用人工修订改进文本布局模型
通过利用人类修订技巧，本研究提出了利用细致反馈的奖励模型的方法，以加强生成模型的对齐性和性能。
PDF2 months ago
从对抗性反馈中的上下文对决强盗问题的近乎最优算法
通过创新性对抗反馈的鲁棒情境对决算法，本研究在学习人类反馈中探索大型语言模型的对齐方法，并证明了在存在或不存在创新性对抗反馈的情况下，算法具有接近最优的后悔界限。同时，在各种类型的创新性对抗反馈中，实验结果表明该算法优于现有的对决算法。
PDF3 months ago
BEDD: MineRL BASALT 评估与演示数据集，用于训练和评测解决模糊任务的智能体
该研究通过 MineRL BASALT 竞赛，提出了一种基于人类反馈学习的正式评估和演示数据集 (BEDD)，用于算法的开发和性能评估。该数据集包含了从近 14,000 个 Minecraft 游戏视频中提取的 2,600 万个图像 - 动
PDF7 months ago
AAAI通过自然语言以人工反馈聚合大规模语言模型数据对齐
通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提
PDF7 months ago
基于密度估计的从两两人类偏好中学习的视角
借助人类反馈（LHF）特别是借助成对偏好学习，最近成为训练大型语言模型（LLM）的重要组成部分并且引起了广泛研究。本文提出了一个替代解释，将其视为成对偏好的生成过程，并将 LHF 视为密度估计问题，通过实践和理论结果证明了基于成对偏好训练奖
PDF7 months ago
受指导的偏见：经过指导调节的语言模型呈现出应急认知偏差
通过检验三种认知偏见（假象效应、确定性效应和信仰偏误）在经过指导调优的语言模型中的存在程度，我们的研究提供了证据表明，这些经过调优的模型表现出过去预训练模型中不存在或较不明显的偏见，进一步突出了这些偏见存在于各种模型中的事实，特别是那些经过
PDFa year ago
2021 年 BASALT 学习与人类反馈竞赛回顾
本文介绍了 MineRL BASALT 比赛，旨在鼓励研究使用来自人类反馈的学习技巧的代理解决开放世界任务，参赛团队的多样化反映出任务的设计有效性，但比赛参与者不足，作者对此进行了探讨和提出了改善建议。
PDF2 years ago
从人类反馈中学习的 MineRL BASALT 比赛
MineRL BASALT competition focuses on the importance of learning from human feedback to build AI systems that would align
PDF3 years ago