Aug, 2024

自我对齐:通过上下文学习改善大型语言模型中的文化价值观对齐

TL;DR本研究针对大型语言模型(LLMs)与其编码的文化价值观之间的对齐问题,提出了一种利用推理时现有文化价值知识的方法。通过结合上下文学习和人类调查数据,我们展示了可以有效改善五种模型(包括英语为中心的和多语言的)对文化价值的对齐,且该方法在英语以外的测试语言和多元文化国家中同样具有潜在应用价值。