- 基于增强树的基于模型不确定性的表格数据主动学习
本研究探讨了基于提升树的主动学习方法对表格数据的有效性,利用模型不确定性进行样本选择,并针对回归任务提出了一种成本效益高的主动学习方法,同时也提出了改进的成本效益高的分类任务的主动学习方法。
- 构建和机器学习的 Calabi-Yau 五维空间
使用完全相交的 Calabi-Yau 五重纽结构在少于等于四个复投射空间上进行构建,通过处理众多协调数据,使用有监督机器学习方法对其进行分类和回归预测,发现其中的 $h^{1,1}$ 可以非常高效地学习,且准确度达到 96%。
- 机器学习在公交运输分析中的优势
利用监督机器学习算法分析德黑兰 BRT 巴士系统准时性的影响因素,并构建准确的预测模型,研究各算法的决策过程,揭示影响巴士线路效果的关键因素,为提高其性能提供有价值的见解。
- 大型语言模型在立场分类中的应用
使用大型语言模型(LLMs)进行立场分类的研究发现,尽管 LLMs 在某些数据集中的准确性可以匹配甚至超过标准结果,但它们的整体准确性并不明确优于受监督模型的结果,从而揭示了 LLMs 在立场分类方面的改进潜力。然而,LLMs 的应用为无监 - 应用监督机器学习和基于物理的机器学习方法预测铝合金摩擦搅拌堆焊的峰值温度分布
通过结合监督式机器学习和基于物理的神经网络,本研究使用先进的方法预测了加性摩擦搅拌沉积(AFSD)过程中的峰值温度分布,为优化材料微结构提供了全面的见解。
- 对比学习作为核逼近
通过对无标签数据进行对比学习,可以生成低维的特征向量表示,这些特征向量可以作为输入来提高有标签数据上的监督学习系统的准确性,并探讨了对比损失函数的最小化器及其与以往学习无标签数据方法的关系。
- 利用机器翻译的事实性检测 —— 德国临床文本的应用案例
使用机器翻译将英文数据翻译为德文,以训练基于变压器的事实检测模型,以解决临床文本中的事实性问题。
- 连续扫描:一种改进的二进制量化器
通过引入连续扫描(Continuous Sweep)这种新的参数二值量化器来估计数据集的类别普遍性,其使用了参数类分布替代经验分布,优化了决策边界和采用了平均值,同时通过理论推导得到了偏差和方差的解析表达式。模拟研究结果表明,连续扫描在广泛 - 正则表达式推理挑战
提出正则表达式推理(REI)作为代码 / 语言模拟的挑战,并对更广泛的机器学习社区提出。REI 是一项监督式机器学习和程序综合任务,通过示例来找到最小的正则表达式。最近在 GPU 上实现了 REI 求解器,首次实现了用于复杂 REI 实例的 - ALE:面向自然语言处理的基于仿真的主动学习评估框架用于参数驱动的查询策略比较
使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略,并通过定义和跟踪实验参数,帮助实践者作出更明智的决策,同时帮助研究者开发出新的高效主动学习策略和制定最佳实践,从而降低注释成本。
- VideoPro:一种交互式视频编程的视觉分析方法
通过视觉分析和数据编程,本文提出了 VideoPro,一种支持灵活和可扩展的视频数据编程的方法,以减少人力成本并监控模型效果的可视界面。通过提取视频中的可理解事件并利用其作为标签函数的组成部分,我们进一步提出了一种两阶段的模板挖掘算法用于高 - 学习选择 SAT 编码用于伪布尔和线性整数约束
通过使用监督式机器学习方法,探讨选择伪布尔约束和线性约束的编码问题,我们展示了使用标准特征集和专门设计的特征集可以有效地选择编码,甚至对于未见过的问题类别也能取得良好的结果,相比使用相同特征集的 AutoFolio 结果有优势。我们讨论了实 - 应用机器学习辅助模式识别算法估算熔覆沉积建模聚乳酸样品的极限拉伸强度
本研究探讨监督机器学习算法在估计使用熔丝沉积建模方法制备的聚乳酸试样的极限拉伸强度方面的应用,结果表明 KNN 算法在分类任务中表现最好,同时,该研究首次利用机器学习算法估计聚乳酸试样的 UTS,从而为附加制造领域中的预测模型性能和准确性提 - MM自动内容分析中的错误分类导致回归偏差。我们能修复吗?是的我们可以!
通过系统文献综述,我们发现大多数通信学者没有考虑分类器的误分类偏差。我们介绍并测试了 “gold standard” 验证数据的错误校正方法,并通过蒙特卡罗模拟来揭示每种方法的局限性。我们推荐我们设计和实施的新方法作为更有效的误差校正方法。
- 基于时序高斯过程的学习控制与消失的跟踪误差
通过测量数据,我们提出了一种基于贝叶斯预测误差边界的高斯过程回归模型,证明了其具有逐渐减小的跟踪误差并实现了逐渐消失的跟踪误差,有效地解决了复杂技术系统中的问题,并在多个模拟中进行了验证。
- 预测模型可用于因果推断吗?
本研究考虑了在有因果关系的影响下,监督机器学习和深度学习算法能否在解释性和预测性之间实现平衡,并表明这种平衡可以通过紫珀(Pearl)的后门调整准则来实现。使用这种方法,不仅可以获得准确的预测,同时也可以大大提高模型的解释性和迁移性。
- ACL具有不完全注释的关系抽取的适应性自训练
本文提出了一种新的自适应重新采样自训练框架,采用精度和召回率对每个类别的伪标签进行重新采样,以增加整体召回率而不过多牺牲精度,并在文件级别和生物医学关系提取数据集上进行实验表明,所提出的自训练框架在数据集的不完全注释时比现有方法表现要好。
- QM9 分子量子哈密顿量预测 QH9 基准测试
本文介绍了一种基于监督学习方法的量子哈密顿矩阵预测模型,该模型利用 QM9 数据集中的分子动力学轨迹和稳定分子几何结构生成了一个准确的 QH9 量子哈密顿矩阵数据集,并设计了各种不同分子的基准测试任务,该模型可对任意分子预测哈密顿矩阵,并在 - 评估性能预测模型的泛化能力
本研究提出了一种可以估算算法性能预测模型泛化能力的方法,并通过在基准测试套件之间训练预测模型来测试该方法的可行性,结果表明,特征空间中的泛化模式确实反映在性能空间中。
- 泰勒学习
本文介绍了一种不使用梯度下降或经验风险最小化技术来构建模型的学习算法,以构建实分析函数模型为例,将熟悉的泰勒逼近方法置于从分布中抽样数据的情境中,并证明了该学习结果的非均匀性。