ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性

May, 2024

ALI-Agent: 基于代理评估法评估 LLMs 与人类价值观的一致性

ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation

Jingnan Zheng, Han Wang, An Zhang, Tai D. Nguyen, Jun Sun...

TL;DR基于大型语言模型的评估框架 ALI-Agent 可以自动化生成实际测试场景，评估模型与人类价值观的一致性，并探测出长尾风险。

Abstract

large language models (LLMs) can elicit unintended and even harmful content when misaligned with human values, posing severe risks to users and society. To mitigate these risks, current evaluation benchmarks predominantly employ expert-designed contextual scenarios to assess how well L

large language models evaluation framework alignment assessment long-tail risks test scenarios

发现论文，激发创造

迈向更好的人机协作：评估 LLM 驱动应用中的任务效用

介绍了一种新的框架 AgentEval，用于验证大型语言模型（LLM）驱动应用程序的实用性，并提供一套与特定应用程序目标相符的评估标准，以全面评估其实用性。

Feb, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

评估和验证 LLM 驱动的应用中的任务效用

通过提出一套针对特定应用目的的标准，AgentEval 框架可以自动化地简化应用的效用验证过程，从而综合评估和量化该应用程序的效用。

May, 2024

演化社会规范中的代理对齐

基于大型语言模型的代理人在人类生产和生活的各个领域中日益普及，本研究提出一种名为 EvolutionaryAgent 的代理人进化与对齐的演化框架，将代理人对齐转化为适者生存的进化选择过程，实验证明 EvolutionaryAgent 能在适应不断演变的社会规范的同时保持在一般任务中的能力。

Jan, 2024

使用人类反馈的 AI 对准研究中的方法论思考

本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战，特别是针对训练总结文本的 LLMs。具体地，我们关注的是收集可靠人类反馈的方法，以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。

Dec, 2022

大型语言模型的异构价值评估

本研究提出了 A2EHV，一种自动化对齐评估方法，旨在提高大型语言模型的价值合理性，并在异构价值系统下进行评估，结合社会心理学中的社会价值取向框架，对大型语言模型的价值合理性进行评估，观察到大型模型更倾向于与中性价值对齐。

May, 2023

腾讯 LLMEval：人类对齐的 LLMs 的实际能力的层次评估

通过构建一个综合的人工评估框架，我们提出了一个评估大规模语言模型在不同实际任务中遵循指令的能力的方法，同时设计了详细的评估标准和过程，释放了一个包含不同难度水平和知识领域的测试集，并分析了自动化评估的可行性。我们的研究为评估英语和中文大规模语言模型的人类对齐性提供了一个标准化的方法，旨在促进安全和人类对齐性大规模语言模型发展进步的基准化。

Nov, 2023

基于垄断对话社会场景模拟的大型语言模型自对齐

通过社会情境模拟，本研究提出一种新的大语言模型（LLM）自我对齐方法（MATRIX），使 LLM 在回答问题之前考虑社会后果，并通过 MATRIX-simulated 数据对 LLM 进行微调，保证了对人类价值观的遵循和推理速度。实验证明，该方法在 4 个基准测试中优于 10 多个基线，通过 875 位用户评价表明，我们的调整后的 13B 规模 LLM 在与人类价值观的对齐方面超越了 GPT-4。

Feb, 2024

通过大型语言模型探索自主代理：一项综述

大型语言模型（LLMs）正在改变人工智能，使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力，有望在从客户服务到医疗保健等各个领域引发革命。然而，它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推理、工具利用和上下文学习等技术正在被探索，以增强它们的功能。像 AgentBench、WebArena 和 ToolLLM 这样的评估平台为在复杂场景中评估这些代理提供了强大的方法。这些进展正在引领更加有韧性和能力的自主代理的发展，预计它们将成为我们数字生活中不可或缺的一部分，协助我们完成从邮件回复到疾病诊断等任务。拥有 LLMs 带头的人工智能的未来充满了希望。

Apr, 2024

多模态大型语言模型与人类价值观相协调的评估

通过引入 Ch3Ef 数据集和评估策略，本研究总结了 10 多个关键发现，增进了对多模态大语言模型的能力、局限性以及评估层次之间的动态关系的理解，为未来领域的进展指明了方向。

Mar, 2024