BriefGPT.xyz
Ask
alpha
关键词
reed
搜索结果 - 2
通过奖励编码环境动态性来提高基于偏好的强化学习
本研究使用包含环境动态信息的 REED 方法,压缩了 preference-based RL 架构中需要从人获得的喜好标签数量,进而提升策略的学习速度和最终表现。
PDF
2 years ago
噪声标签学习中的表征与分类器解耦
本文提出了一种名为 REED 的新方法来解决卷积神经网络在存在噪声标签时训练的挑战,该方法通过无监督学习获取表示,通过分类器的半监督自训练解决噪声标签学习问题,并联合半监督重新训练表示和分类器,实现了对噪声标签的鲁棒性,大量实验结果表明,该
→
PDF
4 years ago
Prev
Next