- 量化 LLM 对提示工程的敏感性和一致性:我做错了什么?
使用两个度量标准(敏感性和一致性)来评估大型语言模型在分类任务中的性能,并希望它们能成为自动提示工程框架中寻求平衡鲁棒性与性能的有力工具。
- 马尔可夫决策过程的鲁棒奖励设计
回报设计问题研究了领导者与追随者之间的相互作用,其中领导者通过修改追随者的奖励函数来塑造追随者的行为以最大化领导者的回报。现有的奖励设计方法依赖于准确模拟追随者对奖励调整的反应,而这可能对模型不准确性敏感。为了解决这个敏感性问题,我们提出了 - ICML多任务基准中多样性与稳定性之间的内在权衡
我们通过社会选择理论的视角研究机器学习中的多任务基准,并将基准与选举系统进行类比,其中模型是候选人,任务是选民。我们将基准系统区分为基数型和序数型两种,前者将数字得分聚合为模型排名,后者则将每个任务的排名聚合起来。我们应用阿罗不可能定理于序 - ACL通过掩码特定损失提高预训练语言模型的敏感性:以生物医学 NER 为案例研究
通过适当加权领域特定术语并加入遮蔽策略,提高语言模型的灵敏度和检测领域特定术语的能力。
- Transformer 模型对学习低敏感性函数的简洁倾向
通过对变压器在随机输入变化的敏感性进行研究,揭示了其简约偏差以及频谱偏差,并发现低敏感性偏差与提高鲁棒性相关,并可作为进一步提高变压器鲁棒性的有效干预手段。
- 基于骨骼的动作识别的连续图学习敏感性基准测试
连续学习是一个研究领域,旨在构建能够在不重新训练的情况下连续积累不同任务知识的机器学习模型。本文提出了第一个用于时空图的连续图学习基准,并将其用于评估在这一新领域中著名的连续图学习方法。通过标准性能指标的基准测试,我们研究了连续图学习方法的 - 测试集 AUROC 的奇特案例
ML 模型的尺寸和复杂性在过去十年中迅速增长,但评估其性能的方法未能跟上步伐。然而,我们认为仅考虑来自测试 ROC 曲线的得分只能对模型的性能和泛化能力提供有限的见解。
- AAAI机器学习算法的泛化分析:最坏情况数据生成概率测度
该研究介绍了将最坏情况下的概率度量引入数据中,以表征机器学习算法的泛化能力。最坏情况下的概率度量是 Gibbs 概率度量,并且是相对熵约束下期望损失最大化的唯一解。该研究还通过最坏情况下的数据生成概率度量得出了基本的泛化度量指标,例如期望损 - 高维非线性抛物型偏微分方程的深度遗传算法(Deep-GA)方法
提出了一种称为深度遗传算法(deep-GA)的新方法,通过将遗传算法(GA)嵌入求解器以优化初始猜测的选择,加速深度 BSDE 方法的性能,达到在更广泛的区间内对非线性 PDE 进行更快的收敛,并在黑 - 斯科尔斯(BS)方程和哈密尔顿 - - 计算近似的 ℓp 敏感度
近期在降维回归任务中引入了敏感性的概念,提供了通过子采样移除低敏感性数据点后的近似质量的可证明保证。本文提供了计算给定矩阵的相关汇总统计量和近似敏感性的高效算法,分别针对不同的 Lp 范数进行了泛化,并通过实验表明,实际数据集的敏感性远远小 - 带权重剪枝的 DP-SGD
通过利用当前全局模型及其在搜索域中的位置的公共信息,我们提出了一种新方法来缓解传统梯度剪裁带来的偏差,从而实现了改进的梯度界限,进一步确定了灵敏度并调整了噪声水平,提供更好的差异性隐私保证,并进行了实证评估。
- 量化信贷投资组合对资产相关性的敏感性:可解释的生成神经网络
通过使用变分自动编码器,我们提出了一种新的方法来量化信贷投资组合风险价值对资产相关性的敏感性,并发现变分自动编码器的潜空间可以捕捉到影响投资组合多样化的关键因素,特别是与信贷投资组合对资产相关性变化的敏感性有关。
- 随机森林中超参数对变量选择的影响
随机森林 (RF) 在高维物质研究中的预测建模和变量选择方面具有很好的适用性。超参数在 RF 算法对预测性能和变量重要性估计的影响已被研究,然而,超参数对基于 RF 的变量选择的影响尚不清楚。本文使用理论分布和实验基因表达数据进行两个模拟研 - 大型语言模型对多项选择题选项顺序的敏感性
在这篇论文中,我们研究了大型语言模型在多项选择题中的鲁棒性,发现其对选项顺序敏感,并存在位置偏差的问题。通过详细的分析和实验证明,通过调整选项的位置策略可以缓解或者放大模型的偏见,并提出了校准预测的两种方法,成功提高了不同模型和评估指标的性 - 基于强化学习的传感器优化技术
通过增强电极设计和指间电容式无线射频传感器的指标宽度等参数的优化,本研究采用了一种新的基于强化学习的二进制粒子群优化方法(RLBPSO),并与蚁群优化(ACO)和其他最先进的方法进行了对比。结果显示,所提出的 RLBPSO 方法在不同频率范 - 深度神经网络对扰动的敏感性估计器
深度神经网络对扰动的敏感性估计器的推导和测试,以及对两个卷积神经网络进行的随机扰动和对抗攻击的研究。
- IJCAI评估基于显著性的解释方法的整体敏感性
为了解决生成 “黑盒” 深度学习模型准确解释的需要,本论文提出了一种基于模型不可知的、敏感性敏感度和信任度为核心的评估方法。该方法通过对多种卷积神经网络解释方法进行比较来验证其可行性,并探讨了敏感性与信任度的关系及该方法在其他领域的应用
- 关于 Gibbs 算法的验证:训练数据集、测试数据集及其聚合
研究了 Gibbs 算法的训练数据依赖性,使用期望经验风险作为性能衡量标准,得出了 GA 的敏感性,并研究了数据集聚合和评估 GA 泛化能力的不同指标,建立了 Jeffrey's 散度、训练和测试误差之间的联系。
- 使用大语言模型自动筛选临床评审论文
通过比较 OpenAI GPT API 对临床评论文章标题和摘要的筛选效果和两位独立人工审核的效果,我们发现使用 OpenAI GPT API 可以显著提高临床评论的筛选效率和准确性。
- 用因果框架量化语言模型数学推理的鲁棒性
通过行为测试,研究语言模型在数学问题求解中的鲁棒性和灵敏度,并通过因果图描述直接干预输入空间对模型行为的影响。在双变量数学问题测试中,LLM、GPT-3-Instruct(175B)相对于其他 GPT 变体,在鲁棒性和灵敏度方面实现了显著提