- 寻找神经策源地:从参数角度看大型语言模型的知识转移
通过参数的视角,本文以敏感性为基础的技术来提取和对齐不同规模的大型语言模型之间的知识特定参数,并且使用 LoRA 模块作为注入提取的知识到较小模型的中间机制,通过四个基准测试验证了我们提出的方法的有效性,突出强调了影响参数化知识传递过程的重 - 使用随机变分深层核学习的并行和有限数据语音转换
基于随机变分深度核学习方法的有限数据语音转换模型在使用较少数据的情况下获得更高的平均意见得分、较小的频谱失真和更好的偏好测试结果。
- ChatGPT 和 GPT-4 是优秀的扑克选手吗?—— 一项翻牌前的分析
通过一系列实验,我们首先发现了与这些模型一起玩扑克的最佳提示和模型参数的特点。然后,我们观察到了这两个模型不同的扑克玩家风格,结论是 GPT-4 是比 ChatGPT 更高级的扑克玩家。ChatGPT 的保守性与 GPT-4 的攻击性形成了 - 通过贝叶斯攻击提高对抗样本的传递性
本论文提出了一种新颖的方法,在模型参数和模型输入中都引入贝叶斯公式,以实现对迁移性的增强,在对抗样本中取得了显著的改进并超越了现有技术水平。
- 联邦学习中的共享内容调查:模型效用、隐私泄露和通信效率的观点
通过从新的角度,即什么在联邦学习中共享,以模型效用、隐私泄露和通信效率为重点,系统调查了联邦学习方法的新分类、隐私攻击的脆弱性以及不同共享方法的性能与隐私保护的效力,并讨论了当前方法存在的潜在缺陷和未来改进的方向。
- 基于梯度下降的在线无噪声标签深度神经网络鲁棒训练方法
本文提出了一种新的基于梯度的在线学习方法,名为 OGRS,能够在不改变参数设置的情况下自动选择不同干净比例的数据集中的干净样本,并逐步更新模型参数,具有优异的性能表现。
- Git-Theta: 机器学习模型协作开发的 Git 扩展
本文介绍 Git-Theta,这是一种适用于机器学习模型的版本控制系统,它可以追踪模型参数的细微变化并支持通信效率高的更新、模型合并和差异报告。通过公开发布 Git-Theta,旨在开启协作模型开发的新时代。
- 序贯实验设计中的交叉熵估计与强化学习
该研究提出了一种基于交叉熵的替代下界估计方法,其使用灵活的提议分布来近似模型参数的真实后验,不需要对比样本,并且可以在多种任务中实现更加准确的估计和学习。
- 遥感图像亿级基础模型
本文研究了模型参数数量增加对远程遥感领域中基础模型在旋转物体检测和语义分割等下游任务性能的影响,并通过实验验证了模型参数数量的增加可以提升模型性能和数据效率,进而提出了一种有效的基于视觉变换器进行扩展和微调的远程遥感领域的方法。
- 将专家意见纳入统计模型的可观察量中 -- 通用框架
本文章提出了一种采用损失函数更新引入专家意见的先验概率而非指定先验概率参数可观测量的方法,该方法不仅能够简便地将专家的意见纳入,同时也对专家提供的信息进行了更具体的处理,使得模型参数不但更好地拟合数据,也更符合实际情况。
- EMNLP解决中文字符表示瓶颈问题:基于笔画序列建模的神经机器翻译
本篇论文提出了一种名为 StrokeNet 的新型汉字表示方法,它通过拉丁化的笔划序列为汉字表示,解决了学习瓶颈和参数瓶颈问题,可应用于神经机器翻译中,有效提高翻译性能并减少模型参数。
- 我们需要谈论随机种子
该论文分析了现代神经网络库中随机种子的使用,论述了其安全和危险的用法,并通过对 ACL 文献集的分析发现,超过 50%的论文使用了随机种子的危险用法。
- ACL重新审视神经机器翻译中的检查点平均化
在神经机器翻译中,采用 checkpoint 平均值来提高模型的性能,此方法计算简单,被广泛采用。本文通过实验,考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用,结果表明 checkpoint 平均值对于性能的提高 - ICLR3D UX-Net: 基于大卷积核优化分层变换的医学图像分割立体卷积网络
该研究提出了一种轻量级体积卷积网络(3D UX-Net),它使用 ConvNet 模块来适应分层变换器进行稳健的体积分割,与当前 SOTA 变换器相比表现竞争力,并在三个具有挑战性的公共数据集上显示出更好的 Dice 系数。
- 理解信念传播的行为
本文研究概率图模型中置信传播算法的性能,特别关注模型参数对固定点数、收敛性和逼近质量的影响。
- ICML污染数据异常检测的潜在异常暴露
本研究提出一种在未标记异常情况下训练异常检测器的策略,通过联合推断二进制标签(正常 vs. 异常)并更新模型参数来使用两个损失的组合,表现出比基准测试更显著的改进。
- 通过适应和增强检测时间鲁棒性
本文提出了一种简单的方法,在没有模型训练过程的任何假设的情况下,通过在测试数据点上执行不同的数据增强并通过最小化平均输出分布的熵来适应模型参数,从而提高模型的鲁棒性。该方法在多个基准测试中都表现出色,并在 ImageNet-C、ImageN - EMNLP双向训练优化神经机器翻译
通过双向的预训练策略,将神经机器翻译模型从'src -> tgt' 朝向'src + tgt -> tgt + src' 方向进行更新,成功地提升了神经机器翻译在 15 项任务上的表现,具有更好的双语对齐。
- AAAI贝叶斯框架下的黑箱模型优化神经过程
本文提出了一种称为神经过程贝叶斯优化的通用黑盒模型优化算法,通过使用神经过程作为代理模型来提高效率和准确性,在功率系统参数优化问题和七个基准贝叶斯优化问题上的比较均表明该算法的性能优于其他四个基准算法。
- 数据如何与您的模型互动学习:执行梯度下降
该研究论文介绍了一种新的算法 PerfGD,通过捕捉模型对数据分布的影响来优化模型参数,为解决通过部署机器学习模型改变数据分布引起的性能问题提供了新的解决方案。