Mar, 2024

利用强化学习与人类反馈增强图像字幕生成

TL;DR本研究探索了一种潜在的方法,通过使用 Flickr8k 数据集,将监督学习和强化学习与人类反馈相结合,以提高深度神经网络模型生成符合人类偏好的标题的性能,并引入了一种新的损失函数,能够基于人类反馈优化模型。