Dec, 2023

关于环境学习校准的研究

TL;DR现代自回归语言模型研究了在上下文学习中,如何在广泛数据上通过预测下一个令牌以最小化对数损失,以获得校准答案。通过大量实验,发现当增加模型大小、增加上下文学习示例以及使用指导、对话或强化学习等方法在精心策划的数据集上对模型进行微调时,性能和校准之间存在权衡,并且常用的重新校准技术在校准错误方面的改善有限,因此在期望模型可靠性的设置下,可能需要新的方法。