- 什么是最好的模型?用于大型语言模型的应用驱动评估
通过构建一个应用驱动的评估基准,我们提供了一种选择最佳模型的方法,并推动其应用和发展。
- 朝向基本可扩展的模型选择:渐近快速更新和选择
深度学习技术的进步带来了每天都有新模型的情况,激发了对可扩展模型选择的研究。本研究旨在针对根本上更可扩展的模型选择,同时支持渐进快速更新和渐进快速选择。
- 选择何种骨干网络:面向计算机视觉的资源高效领域比较
该研究评估了多个轻量级、预训练的 CNN 骨干网络在各种不同数据集上的性能,包括自然图像、医学图像、星系图像和遥感图像,并提供了关于计算机视觉领域不同骨干网络性能和有效性的可行见解,为模型选择提供指导。
- 预测的政策树:机器学习中可解释和自适应的模型选择
通过开发一种树基的方法学,Optimal Predictive-Policy Trees (OP2T),我们提出了一种规定性方法来解决机器学习模型选择中的关键问题,从而产生可解释的适应性策略以选择预测模型或集成,并具有参数化选项拒绝进行预测 - 基于聚类的领域泛化验证划分
该论文考虑了域漂移下的模型选择问题,并提出了一种基于核 k-means 聚类的数据分割算法,该算法最大化训练集和验证集之间的最大平均差异 (MMD),提高选定模型的泛化能力,该技术在一系列数据集和训练算法中一直表现优于其他分割策略,适用于域 - 通过协同作用的主动学习和模型选择探索测试时间人机协作适应性
本研究提出了一种基于主动学习和模型选择的人在环测试时间自适应方法,通过选择具有信息量的样本进行标记并使用已标记的数据选择最优超参数,实验结果表明该方法在 4 个测试时间自适应数据集上优于最先进的方法和基于流的主动学习方法。
- 基于知识的大型语言模型的高效问答系统
Coke 是一种新颖的成本有效的 KBQA 策略,它通过将 LLMs 和 KGMs 相结合,作为一个定制的多臂赌博问题来最小化对 LLMs 的调用,从而在有限的预算内实现成本节约并提高准确性。
- 具有隐藏对称性的对称线性赌博算法
在高维线性赌博机中,通过模型选择来学习隐藏的对称性结构,我们的算法能够达到低预测误差并降低后悔程度。
- 绿色人工智能行动:生产中集成模型选择的战略
通过减少模型数量或改进集成推断时的模型使用效率,本研究提出并评估了两种模型选择策略 —— 静态和动态,以在最小化能量使用的同时优化集成学习系统性能,平衡模型的准确性与能源消耗之间的挑战,结果显示静态策略将 F1 得分从基准线提高,并将平均能 - 不要浪费时间:早停止交叉验证
使用早停法进行交叉验证的模型选择,可以更高效地收敛,涵盖更多搜索空间,并实现更好的性能。
- 基于深度学习的医学文本情感分析
本研究使用双向编码器表示来自转换器(BERT)的基本预训练模型,并在输出层使用卷积神经网络(CNN)、全连接网络(FCN)和图卷积网络(GCN)等模块进行实验和分析。结果表明,在与 BERT 等预训练模型结合使用较小的医学文本数据集进行训练 - 弱监督物体定位的真实模型选择
使用无需手动边框注释的模糊伪框,提出一种新的 WSOL 验证协议,该协议可用于模型选择,并通过实验证明其性能接近使用真实边框选择的模型,优于仅使用图像类别标签选择的模型。
- 通过图学习的模型动物园进行模型选择
通过分析预先训练的深度学习模型的元数据,并捕捉模型和数据集之间的内在关系,研究人员提出了一种名为 TransferGraph 的新框架,将模型选择问题重新定义为图学习问题,并在 16 个真实数据集上进行了广泛实验,发现相较于现有方法,Tra - GLEMOS: 即时图学习模型选择的基准
通过设计高效的模型选择方法,研究了图学习模型的选择问题,并提供了一套全面的基准数据和评估环境用于评估模型在链接预测和节点分类等任务上的表现。
- 贝叶斯非参数方法:一种替代深度学习的选择
贝叶斯非参数模型为统计模型选择提供了灵活而强大的框架,使模型复杂性能够适应不同数据集的复杂性,尤其在统计学、计算机科学和电气工程等领域解决复杂挑战方面具有重要意义。本调查意在阐明这些非参数模型的基本特性和理论基础,提供贝叶斯非参数模型的全面 - 一种快速模型选择的两阶段召回和选择框架
提出了一种基于两阶段模型选择框架的方法,通过利用基准数据集上模型的训练性能来提高选择强大模型的效率,实验证明该方法让模型的选择速度比传统基准方法快 3 倍。
- 共形在线模型聚合
这篇论文介绍了一种在在线环境中通过投票将多个算法的预测集合结合起来的方法,从而解决了在 conformal prediction 中的模型选择和 / 或聚合问题。
- 高斯过程的拉普拉斯近似方法作为模型选择准则
通过引入基于拉普拉斯近似的多种度量标准,我们解决了之前在高斯过程模型的模型选择中存在的性能和运行时间问题,并且在不损失计算速度的情况下,我们的度量标准在质量上与黄金标准动态嵌套采样相当,允许更快速、高质量地对高斯过程模型进行模型选择。
- 评估大型语言模型作为生成式用户模拟器用于对话推荐
通过五项任务评估语言模型在对话推荐中模拟人类行为的效果,研究发现基准模拟器的评估可以揭示语言模型与人类行为的差异,并提供了模型选择和提示策略的见解。
- WWW选择哪个 LLM?具有收敛意识的增长式时间赌博的在线模型选择
提出了一种时间递增的强化学习算法 TI-UCB,用于在模型选择中预测性能的增长趋势并平衡探索与开发的权衡,通过对分类模型选择和在线选择 LLMs 进行验证,实验证明了该方法提高了模型选择的效率和经济性。