May, 2024

语言模型是否容易受到 PPO 攻击?

TL;DR我们的研究旨在通过使用静态学习的情感分类器评估奖励对积极情感生成的影响,并在机械翻译可解释性的视角下研究经过近端策略优化的预训练 GPT-2 模型。