大型语言模型基于优化的越狱技术的改进技术
本文研究了广义条件梯度算法在解决稀疏结构优化问题中的应用,提出了优化极化算子计算的高效方法,证明其在数据处理方面的有效性。实验表明,该算法能够显著减少现有方法的训练成本。
Oct, 2014
本文提出了一种基于可扩展序列注意力机制、归纳图神经网络和端到端可转移的深度强化学习方法,用于解决机器学习编译器生成高效机器代码时的图优化问题,并在多个图优化任务中取得显著性能提升。
Oct, 2020
本文提出了一种基于牛顿法的优化程序,通过迭代两个子问题来实现高效计算,使用块协调下降来限制内存使用并实现快速收敛,解决了大规模问题下的内存限制和精度问题。
Sep, 2015
该研究旨在通过梯度对齐奖励(GAR)引导优化来优化深度学习训练的多个分布,其中应用包括在小规模设置中选择数据分布,以及在 CIFAR-10 和 CIFAR-100 上成功指导学习增强策略等。
Feb, 2021
通过使用基于超平面的决策树将非线性约束进行建模,并利用这些树构建原问题的统一混合整数优化(MIO)近似,本研究提出了扩展解决方案,包括使用其他可转化为 MIO 的机器学习模型(如梯度提升树、多层感知器和支持向量机)逼近原问题,提出自适应采样方法以获得更准确的基于机器学习的约束近似,利用鲁棒优化来考虑样本依赖性训练的不确定性,并利用一组松弛方法来处理最终的 MIO 近似的不可行性。然后我们在 81 个全局优化实例中测试了增强的框架,并展示了大多数实例中解的可行性和最优性的改进。我们还与 BARON 进行了比较,在 11 个实例中显示了更好的最优间隙或解决时间。
Nov, 2023
利用多目标优化(MOO)的统一框架来解决复杂的多约束(MC)安全强化学习(safe RL)问题,通过操纵约束条件的梯度,引入梯度塑形(GradS)方法来改善训练效率,实验证明该方法在各种具有挑战性的 MC 安全 RL 任务中提高了探索性和学习策略的效果,同时对约束数量的扩展性表现良好。
Dec, 2023
本文提出一种深度强化学习方法,以最小化优化器中神经网络计算图的执行成本。该方法通过离线训练优化器,然后推广到以前未见过的图形,以避免在同一图形上进行更多的训练。通过比较广泛的基线,我们的方法在运行时间和峰值内存使用量上比经典和其他基于学习的方法都取得了显着的改进。
May, 2019
利用基于强化学习的多列选择策略,通过选择最有前途的列以提高目标值和加快收敛速度,比较传统单列和多列选择策略,在切割库存问题和图着色问题中取得了显著的收敛速度和迭代次数的减少。
Dec, 2023
通过解决多步 GCRL 中的偏差问题,本文提出了一种方法来提高学习效率,并在实证研究中证明该方法在十步学习场景下能够优于基线和多步 GCRL 的几个先进模型。
Nov, 2023
本文采用图表征相似的分子并通过图表征将其转换为拥有更好性质的分子,采用基于树的模型以支持多样性的输出,并用低维潜在向量扭曲转换过程以实现多样性,并且用对抗训练方法以对齐分子的分布。实验表明,该模型优于目前最先进的基准。
Dec, 2018