Jun, 2024

针对性负训练实现语言模型的最小目标更新

TL;DR提出了一种名为目标负向训练(Targeted Negative Training,TNT)的方法,通过使用模型生成的负面样本,实现了最小化目标化更新,以避免生成不希望的结果,同时最小程度地改变模型的行为。TNT方法在减少不需要的行为和保持模型生成行为之间取得了更好的平衡,为基于迭代训练更新、限制生成不希望结果的模型范式铺平了道路。