通过 AI 反馈实现质量与多样性

Oct, 2023

Quality-Diversity through AI Feedback

Herbie Bradley, Andrew Dai, Hannah Teufel, Jenny Zhang, Koen Oostermeijer...

TL;DR通过 AI 反馈引导的 QDAIF 与非 QD 控制组相比，在创意写作领域覆盖更大范围，生成高质量样本；同时，QDAIF 生成的创意文本经人工评估验证与人类评估具有合理的一致性，突显了 AI 反馈在引导开放式创意搜索方面的潜力。

Abstract

In many text-generation problems, users may prefer not only a single response, but a diverse range of high-quality outputs from which to choose. Quality-diversity (QD) search algorithms aim at such outcomes, by continually improving and diversifying a population of candidates. However, the applicability of QD to qualitative domains, like →

quality-diversity search algorithms language models creative writing human evaluation ai feedback

发现论文，激发创造

通过质量多样性实现程序化内容生成

Quality-diversity algorithms, with explicit behavior metrics searching for a set of high-quality and diverse solutions, provide new opportunities for AI game-playing and procedural content generation, enabling creative human-AI interactions and adaptivity.

Jul, 2019

通过人类反馈实现质量多样性

Quality Diversity through Human Feedback (QDHF) employs human feedback to expand the applicability of Quality Diversity (QD) algorithms, enhancing diversity in optimization for complex tasks.

Oct, 2023

大型语言模型作为上下文人工智能生成器的优质多样性

通过利用生成模型的模式匹配能力，我们提出了 In-context QD 框架，通过将 QD 档案作为上下文，利用预训练的大型语言模型的上下文能力生成有趣的解决方案，在多个领域中展现出有希望的结果，并在 QD 搜索中取得了良好的效果。

Apr, 2024

多样性策略梯度用于高效样本质量多样化优化

本文提出了一种新算法 QDPG，它结合了策略梯度算法和质量多样性方法，用于在连续控制环境中生成多样化和高性能的神经控制器，并且比其他进化算法更具样本效率。

Jun, 2020

通过质量多样性数据合成和语言模型的生成设计

通过将优化、约束满足和语言模型结合起来，我们提出了一种新颖的方法来解决工程应用中生成模型面临的两个基本挑战：获取高性能多样的数据集和生成符合精确约束的设计。我们的方法使用品质多样性 (Quality-Diversity, QD) 生成多样化、高性能的数据集，并使用该数据集对语言模型进行微调，生成高级设计。然后，使用波函数坍缩算法将这些设计精细化为符合约束的详细布局。我们的系统可靠地遵循文本指导，能够生成具有目标建筑特性和性能特征的布局。关键是，我们的结果表明，通过 QD 的进化搜索合成的数据不仅提高了整体模型性能，而且对模型密切遵循文本指导的能力至关重要。这种改进强调了进化计算在创建用于训练设计生成模型的关键数据集方面所起的关键作用。

May, 2024

动态感知的多样性优化：高效学习技能库

通过使用动态模型来提高质量 - 多样性算法的样本效率，我们提出了动态感知质量 - 多样性 (DA-QD) 框架；我们从中获得的经验进行增量训练，可以在想象力中使用想象技能库进行质量 - 多样性探索。该方法能够在三个机器人实验中取得成功的应用，包括比现有 QD 方法更高效的技能发现、零 - shot 学习中的新技能库以及长期导航任务中的损伤适应。

Sep, 2021

通过无重置多样性优化实现自主步行学习

本研究提出了 Reset-Free Quality-Diversity optimization (RF-QD) 算法来实现具有多样性和高性能技能的行为副本的自主学习，我们在 Dynamics-Aware Quality-Diversity (DA-QD) 基础上引入了一种行为选择策略，并演示了通过训练自我重置的步态行走任务，可以高效学习到具有多样性和一定安全性的行走技能。

Apr, 2022

基于相关性引导的无监督质量多样性算法能力发现

提出了一种基于 Relevance-guided Unsupervised Discovery of Abilities 的 Quality-Diversity 算法，可以自动发现适用于任务的行为描述符，并在模拟机器人环境中验证了算法的有效性。

Apr, 2022

可微分的质量多样性

提出了一种简化版的 Quality diversity 问题 - DQD，重点解决 Objective 和 Measure 函数是一阶可微分函数的问题，并提出了一种基于梯度信息的算法 MEGA, 成功地解决了优化过程中 “黑盒处理” 忽略 Gradient information 的问题。在两个 QD 基准领域和 StyleGAN 的潜在空间中进行实验，表明 MEGA 显著优于现有的 QD 算法，突出了 DQD 在梯度信息可用时高效的优势。

Jun, 2021

通过多样质量种群实现高效的质量多样性优化

本文提出了一种名为 Diverse Quality Species (DQS) 的新型质量 - 多样性算法，能够在不需要存档或事先定义行为范围的情况下，将解决方案分解为独立进化种类，并利用无监督技能发现来学习多样化而高性能的解决方案，在多个仿真机器人环境中进行评估，结果表明 DQS 比其他 QD 算法更具样本效率和性能。

Apr, 2023