Feb, 2022

基于 Transformer 的语言模型降低毒性的奖励建模

TL;DR本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify,通过引入新的奖励机制,它能够有效地检测出有毒的内容,并减轻与社会身份相关的无意识偏见。实验表明,Reinforce-Detoxify 方法在语言模型去毒性方面优于现有的去毒性方法,并且生成内容不太容易存在社会身份上的偏见。