大型语言模型基于优化的越狱技术的改进技术

May, 2024

大型语言模型基于优化的越狱技术的改进技术

Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

Xiaojun Jia, Tianyu Pang, Chao Du, Yihao Huang, Jindong Gu...

TL;DR提出改进的优化方法、多坐标更新策略等技术来实现大语言模型的监狱破解攻击，并在实验中证明其有效性。

Abstract

large language models (LLMs) are being rapidly developed, and a key component of their widespread deployment is their safety-related alignment. Many red-teaming efforts aim to jailbreak LLMs, where among these efforts, the →

large language models optimization-based jailbreaking techniques greedy coordinate gradient automatic multi-coordinate updating strategy jailbreaking attacks

发现论文，激发创造

稀疏估计的广义条件梯度算法

本文研究了广义条件梯度算法在解决稀疏结构优化问题中的应用，提出了优化极化算子计算的高效方法，证明其在数据处理方面的有效性。实验表明，该算法能够显著减少现有方法的训练成本。

Oct, 2014

ML 编译器的可转移图优化器

本文提出了一种基于可扩展序列注意力机制、归纳图神经网络和端到端可转移的深度强化学习方法，用于解决机器学习编译器生成高效机器代码时的图优化问题，并在多个图优化任务中取得显著性能提升。

Oct, 2020

稀疏条件高斯图模型的大规模优化算法

本文提出了一种基于牛顿法的优化程序，通过迭代两个子问题来实现高效计算，使用块协调下降来限制内存使用并实现快速收敛，解决了大规模问题下的内存限制和精度问题。

Sep, 2015

基于梯度对齐奖励的内循环元学习

该研究旨在通过梯度对齐奖励（GAR）引导优化来优化深度学习训练的多个分布，其中应用包括在小规模设置中选择数据分布，以及在 CIFAR-10 和 CIFAR-100 上成功指导学习增强策略等。

Feb, 2021

全局优化：机器学习方法

通过使用基于超平面的决策树将非线性约束进行建模，并利用这些树构建原问题的统一混合整数优化（MIO）近似，本研究提出了扩展解决方案，包括使用其他可转化为 MIO 的机器学习模型（如梯度提升树、多层感知器和支持向量机）逼近原问题，提出自适应采样方法以获得更准确的基于机器学习的约束近似，利用鲁棒优化来考虑样本依赖性训练的不确定性，并利用一组松弛方法来处理最终的 MIO 近似的不可行性。然后我们在 81 个全局优化实例中测试了增强的框架，并展示了大多数实例中解的可行性和最优性的改进。我们还与 BARON 进行了比较，在 11 个实例中显示了更好的最优间隙或解决时间。

Nov, 2023

多约束安全增强学习的梯度塑形

利用多目标优化（MOO）的统一框架来解决复杂的多约束（MC）安全强化学习（safe RL）问题，通过操纵约束条件的梯度，引入梯度塑形（GradS）方法来改善训练效率，实验证明该方法在各种具有挑战性的 MC 安全 RL 任务中提高了探索性和学习策略的效果，同时对约束数量的扩展性表现良好。

Dec, 2023

基因强化优化计算图的遗传算法学习

本文提出一种深度强化学习方法，以最小化优化器中神经网络计算图的执行成本。该方法通过离线训练优化器，然后推广到以前未见过的图形，以避免在同一图形上进行更多的训练。通过比较广泛的基线，我们的方法在运行时间和峰值内存使用量上比经典和其他基于学习的方法都取得了显着的改进。

May, 2019

一种基于强化学习的多列选择策略对于列生成

利用基于强化学习的多列选择策略，通过选择最有前途的列以提高目标值和加快收敛速度，比较传统单列和多列选择策略，在切割库存问题和图着色问题中取得了显著的收敛速度和迭代次数的减少。

Dec, 2023

偏差弹性多步离策略目标条件强化学习

通过解决多步 GCRL 中的偏差问题，本文提出了一种方法来提高学习效率，并在实证研究中证明该方法在十步学习场景下能够优于基线和多步 GCRL 的几个先进模型。

Nov, 2023

分子优化的多模态图形到图形翻译学习

本文采用图表征相似的分子并通过图表征将其转换为拥有更好性质的分子，采用基于树的模型以支持多样性的输出，并用低维潜在向量扭曲转换过程以实现多样性，并且用对抗训练方法以对齐分子的分布。实验表明，该模型优于目前最先进的基准。

Dec, 2018