EMNLPOct, 2023

晶体:强化自反馈的反观型推理者

TL;DR提出了一种新的内省型常识推理模型 Crystal,通过强化学习来调整模型的知识内省和基于知识的推理模式,使模型的性能和透明度明显提高。