Mar, 2024

基于多任务指令调优与 RLAIF 的意图条件和无毒抗辩生成

TL;DRCoARL 是一种新颖的框架,通过模拟憎恨言论中社会偏见的语用含义,增强了对抗性言论生成,优于现有基准,得到了广泛的人工评估支持。