Mar, 2024

逆向训练护理逆转诅咒

TL;DR大型语言模型(LLMs)在 “A 具有特征 B” 的训练中无法推广到 “B 是 A 的特征”,这称为反转诅咒。本研究提出了一种替代训练方案,称为反向训练,通过将训练字符串进行反转并保留(即不反转)选择的子字符串(如实体)来同时以正向和反向方式训练 LLM,以加倍可用令牌的数量。我们证明,数据匹配的反向训练模型在标准任务上提供了优越的性能,而计算匹配的反向训练模型在反转任务上提供了远超过标准模型的性能,有助于解决反转诅咒问题。