Feb, 2024

探索大规模语言模型中的多语言人类价值观念:价值一致性、可传递性和可控性是否跨语言保持一致?

TL;DR通过全面的研究,我们证实了多语言语言模型中存在多语言人类价值观念,进一步的跨语言分析揭示了语言资源差异引起的三个特征:跨语言不一致性、扭曲的语言关系以及高资源语言与低资源语言之间的单向跨语言传递,同时验证了通过使用主导语言作为源语言来控制多语言语言模型的价值观调整能力的可行性。我们的发现在多语言语言模型的预训练数据构成方面给出了明智的建议:在跨语言对齐传递时包含有限数量的主导语言,避免其过度流行,并保持非主导语言的平衡分布。我们希望我们的发现能够为增强多语言人工智能的安全性和实用性做出贡献。