Jul, 2024
LocalValueBench:一个合作建立且可扩展的基准,用于评估大型语言模型的地方价值对齐和伦理安全
LocalValueBench: A Collaboratively Built and Extensible Benchmark for
Evaluating Localized Value Alignment and Ethical Safety in Large Language
Models
TL;DR本研究解决了大型语言模型(LLMs)与地方价值和伦理标准对齐评估的不足,提出了一个名为LocalValueBench的可扩展基准,专注于评估其与澳大利亚价值观的一致性。通过新的伦理推理类型和审查方法,我们制定了全面的问题并进行了LLMs价值对齐的量化评估,揭示了现有模型的重要局限性和价值对齐的必要性。