- TextGrad: 自动文本 “差异化
AI 正处于一个新的转变时期,TextGrad 是一个强大的框架,通过文本实现自动 “微分”, 可以改善复合人工智能系统的各个组件,这是开发下一代人工智能系统的基础之一。
- 基于 ODE 的学习优化
通过将惯性系统与 Hessian 驱动的阻尼方程(ISHD)与基于学习的方法相结合,本文提出了一个综合框架,以理论洞察力的深度协同为基础,通过发展优化方法来研究加速方法的理解。
- 高性能计算中复杂调谐搜索的经济有效方法:导航相互依赖性和维度
高性能计算中的调谐搜索是解决计算应用中复杂优化挑战的关键,本文提出的方法通过适应和改进依赖性分析和高维分解技术,确保在现实场景中具备计算可行性的同时最大化性能收益。
- 通过训练一系列损失函数在类别不平衡数据上优化 ROC 曲线
通过使用一系列的损失函数进行训练,而不是单一的损失函数,我们提出了 Loss Conditional Training (LCT) 方法来解决高度不平衡的分类问题,实验结果表明该方法提高了模型性能并对超参数选择更具鲁棒性。
- 变形图模型的竞赛:基于 B 样条和网格的多目标可变形图像配准
直接比较了使用相同最新多目标优化方法的 B 样条模型和网格模型的转换模型,并在两个基于盆腔 CT 扫描的宫颈癌患者注册问题上实验证明,转换模型的选择对实现的注册结果的多样性和质量产生了深远影响。
- 关于隔室流行病学模型的校准
流行病学分区模型的参数校准是一个新兴领域,有潜力提高疾病建模和公共卫生决策的准确性。本文概述了可采用的校准策略,包括多种优化方法和强化学习,并讨论了这些方法的优点和缺点以及实验结果的实际结论。
- 稀疏主成分分析的联邦学习
在机器学习领域中,数据质量和可用性经常限制算法的有效性。传统方法由于法律和隐私问题而遭遇数据共享困境。联邦学习框架应对了这个挑战,通过在客户端上进行模型训练,保护隐私并保持数据局部化。本研究将联邦学习框架应用于稀疏主成分分析(SPCA),通 - 梅子:元启发式的智能学习
自从大规模语言模型出现以来,启发式学习已成为优化和定制这些模型的流行方法之一。本文介绍了元启发式方法作为一种潜在的提示学习方法,并测试了六种典型方法的有效性,展示了它们在黑盒提示学习和经过论证的提示调优中的功效,并表明这些方法可以用于发现以 - 内存高效的混合精度优化器
传统优化方法依赖于使用单精度浮点算术,在内存大小和计算性能方面具有成本。然而,混合精度优化技术利用单精度和半精度浮点算术来降低内存需求,同时保持模型准确性。我们在训练模型期间提供了一种算法,通过摆脱参数的浮点副本,实际上只保留半精度数,进一 - 敏感性感知的混合精度量化和宽度优化:通过基于聚类的树结构 Parzen 估计实现深度神经网络的优化
通过引入创新的搜索机制,基于深度学习模型的优化方法,在神经网络设计方面取得了重要突破。该方法有效选择了每个神经网络层的最佳比特宽度和层宽,提高了深度神经网络的效率。通过采用基于 Hessian 的修剪方法来减少搜索空间,并利用基于聚类的树状 - 通用主配对算法
使用 Taylor 模式自动微分的近期泛化方法,我们提出了自动推导 majorizer 的优化器,这些通用的 Majorization-Minimization 优化器可应用于任意问题,并且从任何起始点收敛,无需超参数调整。
- 一种新的无导数优化方法:高斯搜索
优化方法及其应用,介绍了一种新的优化方法 —— 高斯压缩搜索(GCS),通过对高斯分布中粒子行为的仿真,GCS 旨在高效地探索解空间并收敛于全局最优解。通过实验评估及与其他优化方法的比较,突出了 GCS 的优势和特点,为对优化感兴趣的研究人 - 加速深度学习训练和提高鲁棒性的乘法更新规则
本文研究了深度学习训练加速和鲁棒性问题,提出了一种优化框架,其中使用了一种新的乘法更新规则,并将其与传统的加性更新项相结合,实验表明该框架可以应用于广泛的优化方法和深度神经网络结构,并加速训练同时提高了模型的鲁棒性。
- SGD 的精确均方线性稳定性分析
本文推导出了随机梯度下降法 (SGD) 的稳定性阈值的显式表达式,并给出了与批量大小相关的最简单的必要稳定性条件。
- 解决向量量化网络中优化挑战的直通估计器问题
本文研究了在使用向量量化直通估计训练神经网络时所遇到的挑战,通过引入仿射重新参数化的过程和交替优化方法来改进模型性能。对多种模型结构和任务进行测试,包括 AlexNet,ResNet 和 ViT 以及图像分类和生成建模等领域。
- 深度神经网络的高效端到端训练中理解数据预处理
本篇论文主要关注于了解公共云中深度神经网络(DNN)训练的数据预处理流程。我们运行实验来测试使用原始数据或记录文件两种主要数据预处理方法所带来的性能影响。初步结果表明,即使使用 NVIDIA DALI 这种高度优化的数据预处理库,数据预处理 - 混合 ACO-CI 算法解决梁设计问题
开发了一种新的 Ant colony optimization (ACO) 算法的混合版本,使用 Cohort Intelligence (CI) 算法的样本空间约简技术。该算法用于解决 35 个标准基准测试功能和两个机械设计问题,并且相对 - GPT-4 技术报告
本文介绍了 GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4 表现出人类水平的性能。
- 硬提示变得容易:基于梯度的离散优化用于提示调整和发现
本文介绍了一种针对文本生成模型的优化方法,通过梯度下降优化生成 “hard” 文本提示,该方法可在文本生成到图像和文本生成到文本的应用中使用,提高了模型的分类准确率和混合搭配图像概念的功能。
- 关于预训练和初始化在联邦学习中的影响:从何开始?
本文研究了在联邦学习中使用预训练模型初始化的影响,结果显示,使用预训练模型可以减少训练时间和减小数据和系统异质性的影响,建议未来的工作应该在评估联邦优化方法时同时考虑预训练模型和随机初始化。