LocalValueBench：一个合作建立且可扩展的基准，用于评估大型语言模型的地方价值对齐和伦理安全

Jul, 2024

LocalValueBench：一个合作建立且可扩展的基准，用于评估大型语言模型的地方价值对齐和伦理安全

LocalValueBench: A Collaboratively Built and Extensible Benchmark for Evaluating Localized Value Alignment and Ethical Safety in Large Language Models

HTML

PDF

Gwenyth Isobel Meadows, Nicholas Wai Long Lau, Eva Adelina Susanto, Chi Lok Yu, Aditya Paul

TL;DR本研究解决了大型语言模型（LLMs）与地方价值和伦理标准对齐评估的不足，提出了一个名为LocalValueBench的可扩展基准，专注于评估其与澳大利亚价值观的一致性。通过新的伦理推理类型和审查方法，我们制定了全面的问题并进行了LLMs价值对齐的量化评估，揭示了现有模型的重要局限性和价值对齐的必要性。

Abstract

The proliferation of Large Language Models (LLMs) requires robust evaluation of their alignment with local values and ethical standards, especially as existing benchmarks often reflect the cultural, legal, and ideological values of their creators. \textsc{→

发现论文，激发创造

大型语言模型的异构价值评估

本研究提出了A2EHV，一种自动化对齐评估方法，旨在提高大型语言模型的价值合理性，并在异构价值系统下进行评估，结合社会心理学中的社会价值取向框架，对大型语言模型的价值合理性进行评估，观察到大型模型更倾向于与中性价值对齐。

May, 2023

CValues: 从安全到责任，衡量中国大型语言模型的价值

本文提出了CValues，首个用于评估大型语言模型（LLMs）人类价值观一致性的中文评估基准，该基准通过在十个场景中手动收集对抗性安全提示和由专业专家引导的八个领域的责任提示来衡量LLMs的一致性能力。研究发现，虽然大部分中文LLMs在安全方面表现良好，但在责任方面还有相当大的改进空间。自动评估和人工评估在评估不同方面的人类价值观一致性方面都是重要的。

Jul, 2023

值得信赖的LLM：评估大型语言模型的对齐性的调查和指南

为了确保大型语言模型在实际应用中与人类意图保持一致，本研究介绍了对LLM值得信赖性进行评估时需要考虑的关键维度，包括对LLM的可靠性、安全性、公平性、抵抗滥用性、可解释性和推理性、遵守社会规范以及鲁棒性进行调查研究。通过对几个广泛使用的LLM进行测试，研究结果表明，总体上，更加符合人类意图的模型在整体可信度方面表现更好，但是模型对不同可信度类别的影响程度有所不同，这凸显了在LLM对齐方面进行更加细致的分析、测试和不断改进的重要性。本研究旨在为该领域的从业人员提供有价值的见解和指导，理解和解决这些问题对于在各种应用中实现可靠和符合伦理的LLM部署至关重要。

Aug, 2023

Denevil：通过指令学习解读和引导大型语言模型的道德价值

利用道德基金会理论，本研究探讨了伦理价值观，并提出了针对大型语言模型的价值漏洞的新型提示生成算法DeNEVIL，并构建了包含2,397个提示的高质量数据集MoralPrompt，使用VILMO进行伦理价值观的校准，在研究大型语言模型的伦理价值观方面取得了有前途的初步成果。

Oct, 2023

超越人类规范：通过跨学科方法揭示大型语言模型的独特价值

基于心理学方法研究，该论文通过提出ValueLex框架，重建了大型语言模型（LLMs）的独特价值体系，并鉴定出了三个核心价值维度：能力、品格和诚信。同时，他们还开发了定制的项目测试来评估和分析LLMs在不同模型规模、训练方法和数据来源下的价值倾向，从而为未来的人工智能对齐和规范铺平了道路。

Apr, 2024

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了Llama 2外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

ValueBench: 面向全面评估大型语言模型的价值导向和理解能力

介绍了ValueBench作为第一个综合性的心理测量基准，用于评估大型语言模型的价值取向和价值理解，并通过在人工智能与人类的实际互动中进行评估管道和开放性价值空间任务的实验，揭示了六个代表性大型语言模型的共同和独特的价值取向，展示了它们在价值相关的提取和生成任务中接近专家结论的能力。

Jun, 2024

MoralBench: LLMs的道德评估

该论文介绍了一个新颖的基准，旨在衡量和比较大型语言模型的道德推理能力，通过开发针对大型语言模型的道德维度的综合数据集和指标，结合伦理学者的定性洞察力，评估模型性能，并揭示了不同模型的道德推理能力存在显著差异，强调在大型语言模型的开发和评估中考虑道德推理的重要性，并需要进行后续研究来解决暴露在研究中的偏见和局限性。

Jun, 2024

从长期存在的问题到新兴的困境剖析大型语言模型的伦理

本文全面调查了与大型语言模型（LLMs）相关的伦理挑战，从长期存在的问题，如侵犯版权、系统性偏见和数据隐私，到新兴问题，如真实性和社会规范。我们批判性地分析了现有研究，旨在理解、审查和减轻这些伦理风险。我们的调查强调了将伦理标准和社会价值融入LLMs的开发中，从而引导负责任和道德对齐的语言模型的发展。

Jun, 2024

全球数据限制：大型语言模型中的道德与效果挑战

本文研究了大规模语言模型（LLM）获取高质量训练数据所面临的多方面挑战，包括数据稀缺、偏差以及低质量内容，并通过使用GPT-4和GPT-4o进行一系列评估，证明这些数据限制对模型性能和伦理对齐的不利影响。我们提出并验证了一些旨在提高数据质量和模型稳健性的缓解策略，包括高级数据过滤技术和伦理数据收集实践。我们的发现强调了开发LLM时需要积极考虑数据限制的有效性和伦理影响，以促进创建更可靠和普遍适用的人工智能系统。

Jun, 2024