May, 2024

深思专家的混合(MoTE):思维链和专家混合在自我对齐中的协同作用

TL;DR使用 Chain of Thought(CoT)方法,并结合 Mixture of insighTful Experts(MoTE)体系结构,提出了一种新颖的自我对齐方法,以改善大语言模型和人类价值之间的对齐问题,显著提高对齐效率。