Oct, 2024

揭示因素级偏好以改善人类-模型对齐

TL;DR本研究旨在解决大型语言模型(LLM)与人类偏好之间的差距,通过提出PROFILE框架剖析影响偏好的因素。研究发现,在生成任务中,LLM的偏好与人类存在显著差异,而在评估任务中则显示出一致性,揭示了利用因素级洞察来改善人类-模型对齐的重要性。