Apr, 2024

强化学习的更多人类友好性,更多的信任?对语言模型可靠性的影响

TL;DR研究发现在大型语言模型的发展中,通过认同与人类价值观的算法对模型进行对齐的性能虽有所改善,但对模型的可信度提升并未经过彻底的测试。通过对五个可信度垂直方面进行实证研究,发现在偏好数据、对齐算法和特定可信度方面之间存在复杂的相互作用。因此,需要更加微妙的方法对模型进行对齐,以期望引导研究社区开发既能胜任任务又值得信赖的语言模型。