GenAI Arena：生成模型的开放评估平台

Jun, 2024

GenAI Arena：生成模型的开放评估平台

GenAI Arena: An Open Evaluation Platform for Generative Models

Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun...

TL;DR通过开源平台 GenAI-Arena 和统计方法，该研究论文提出一种评估图像和视频生成模型的方法，以更准确地衡量模型性能，并发现现有的多模态模型在评估生成的视觉内容方面存在不足。

Abstract

generative ai has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of tru

generative ai evaluation metrics genai-arena model performance multi-modal models

发现论文，激发创造

GenLens：视觉遗传人工智能模型输出的系统评估

通过和产业界内的生成 AI 模型开发人员进行形态研究，本文提出了 GenLens，一个可视化分析接口，用于在模型开发的早期阶段系统评估生成 AI 模型输出的质量和公平性。通过开发人员的用户研究发现，GenLens 有效地提升了他们的工作流程，得到了高度的满意度和将其整合到实践中的积极意图。这项研究强调了在生成 AI 开发中早期评估工具的重要性，为公平和高质量的生成 AI 模型的进展做出了贡献。

Feb, 2024

Arena：多智能体智能评估平台和构建工具包

介绍了一个名为 Arena 的多智能体通用评估平台，其中包含 35 个逻辑和表述多样的游戏，以及可视化的社会树和五种基本的多智能体奖励机制，为研究人员提供了一个易于发明和构建新的多智能体问题的建模工具包，还提供了五个最先进的深度多智能体强化学习基线的 Python 实现和一组我们可以使用不同的训练方案训练的每个游戏的 100 个最佳的代理 / 团队，作为评估群体表现的基础，以便研究人员可以在稳定和统一的标准下进行比较。

May, 2019

GenAI-Bench: 评估和改进文本到视觉生成能力

本文通过对 GenAI-Bench 上的人类评分进行广泛研究，评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能，并发现 VQAScore 比先前的评估指标（如 CLIPScore）明显优于人类评分，而且 VQAScore 可以在黑盒的基础上通过简单地对候选图像进行排名（3 到 9 张）从而显著提高生成速度，在需要高级视觉语言推理的复合提示下，VQAScore 的排名效果比其他评分方法如 PickScore、HPSv2 和 ImageReward 提高 2 倍至 3 倍。

Jun, 2024

EvalCrafter: 大规模视频生成模型的基准测试和评估

对于图像和语言生成模型的视觉和语言生成模型，我们提出了一种新的框架和流程来彻底评估生成视频的性能，并通过系数对齐目标度量与用户意见，以获得模型的最终排行榜。

Oct, 2023

GPTScore：任意评估

本文提出了一种新的评估框架 GPTScore，利用生成预训练模型的崭新能力对生成的文本进行评分，实验结果表明该方法能够高效地实现对文本的定制化、多方面评估，不需要注解样本。

Feb, 2023

AIGCBench：AI 生成的图像到视频内容的综合评估

人工智能生成内容（AIGC）领域迅速发展，本研究介绍了 AIGCBench，一个全面且可扩展的基准测试，旨在评估各种视频生成任务，主要集中在图像到视频（I2V）生成上。

Jan, 2024

Chatbot Arena: 通过人类偏好评估 LLM 的开放平台

Chatbot Arena 是一种基于人类偏好评估大型语言模型的开放平台，通过对接受众来源的成对比较和众包输入的方式收集数据，并使用经过验证的统计方法进行评估和排名，以确保其可靠性和可信度，成为最有价值和最引用的大型语言模型排行榜之一。

Mar, 2024

GIQA: 生成图像质量评估

本研究提出 Generated Image Quality Assessment (GIQA) 算法，从学习和数据两个角度，定量评估 GAN 模型生成的图像质量。实验证明 GIQA 算法结果与人工评估基本一致，可应用于 GAN 模型的真实性和多样性评估，并能在训练中支持在线 hard negative mining。

Mar, 2020

可视化的生成人工智能：现状与未来发展方向

本文总结了在可视化领域中利用生成式人工智能（GenAI）的方法，涵盖了不同类型的 GenAI 方法在数据增强、可视化映射生成、风格化和交互等各个阶段的应用，同时阐述了评估、数据集和端到端 GenAI 与生成算法之间的挑战和研究机会。通过总结不同的生成算法、其当前应用和限制，希望为未来的 GenAI4VIS 研究提供有用的见解。

Apr, 2024

评估生成对抗网络的神经 - AI 接口

本研究提出了一种 Neuroscore 测评策略，该策略通过利用脑信号更直接地反映心理感知图像质量，优于现有算法并能够基于单个 GAN 排名图像质量，同时，本研究还介绍了基于卷积神经网络的神经 - 人工智能接口，可以直接从 GAN 生成的图像中预测 Neuroscore。

Mar, 2020