Apr, 2024
逐点思考:Transformer 语言模型的隐藏计算
Let's Think Dot by Dot: Hidden Computation in Transformer Language Models
Jacob Pfau, William Merrill, Samuel R. Bowman
TL;DR使用无意义的填充符号可以替代思维链,解决无法通过直接回答进行的两个难算法任务,但需要具体、密集的监督;同时,中间符号作为填充符号引发了对大型语言模型进行难以审查、隐藏计算的担忧。