BriefGPT.xyz
Ask
alpha
关键词
human supervision
搜索结果 - 4
自主驱动的语言模型从零开始的最小人工监督自我对齐
研究提出了 SELF-ALIGN 方法,利用少量人工监督和结合原理驱动推理和 LLM 的生成能力,实现 AI 助手的自我对齐,减少人工监督的依赖,获得更好的性能,开发了 Dromedary AI 助手。
PDF
a year ago
离线强化学习与人类反馈的部署
提出一种基于人类监督的强化学习在线部署框架,包含两种方法:一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署,二是在监督信号到达时在线微调模型。通过实证验证,这些方法有效地应用于机器人运动控制和交通信号控制任务中。
PDF
a year ago
ICLR
从规则中学习概括标记实例
本文提出了一种规则示例方法来收集人类监督,以结合规则的效率和实例标签的质量,通过潜在的覆盖变量联合去噪规则,通过覆盖和标签变量上的软蕴涵损失训练模型,并将去噪的规则和训练好的模型一起用于推理。实证评估表明,我们的算法比现有的几种方法更精确地
→
PDF
4 years ago
ICCV
VQS: 将分割与问题和答案相连,以监督 VQA 和问题关注的语义分割
本文提出了一种名为 VQS 的方法,将 COCO 数据集的实例分割与 VQA 数据集的问答进行连接,从而为视觉和语言建模提供更多有效的支持,包括 VQA 的监督式关注和一种新的基于问题的语义分割任务。
PDF
7 years ago
Prev
Next