- 泰勒学习
本文介绍了一种不使用梯度下降或经验风险最小化技术来构建模型的学习算法,以构建实分析函数模型为例,将熟悉的泰勒逼近方法置于从分布中抽样数据的情境中,并证明了该学习结果的非均匀性。
- 关于使用经验插值方法对深度神经网络进行降维的说明
本文提出了使用经验插值法(EIM)算法在监督机器学习中高效降低训练数据维度的方法(称为 DNN-EIM),并对数据科学和参数化(和时变)偏微分方程(PDE)的应用进行了考虑。在分类情况下,为每个类训练并行的 DNN,这种方法是顺序的,即可以 - 数据偏差管理
本篇论文探讨了数据偏见对最终用户的影响、偏见的来源以及如何处理数据偏见的问题。提出了‘bias management’的概念,强调应该从识别、测量、索引、面向和调整偏见的角度入手,而不是在所有情况下都要消除数据偏见。
- 问答标签学习
本文提出了一种新的注释方法 Q&A 标注,其包含一个问答生成器和一个注释者,该方法的标签生成模型的推导不是基于预先假设的假设,而是基于 Q&A 标注的定义方法。我们还推导出一个用于评估使用 Q&A 标签指定实例的普通监督机器学习的分类风险的 - 基于特征的广义高斯分布方法在超宽带(UWB)室内定位系统 NLoS 检测中的应用
提出了一种基于特征的高斯分布和广义高斯分布 Non-Line-of-Sight 检测算法,可用于改善所提供的数据库中 NLoS 和 LoS 信号不平衡造成的定位不精确度问题,比 SVM、DT、NB 和 NN 算法效果更好。
- 将 CVE 漏洞记录自动映射到 MITRE CWE 弱点
本研究旨在通过 Sentence-BERT 和 rankT5 等深度学习模型将 CVE 记录映射为 MITRE CWE 弱点,并发布了包含 4,012 个记录的手动注释数据集,以用于弥补缺乏公共可用数据集的问题。
- 借助监督式机器学习进行 QAnon 的作者归属度分析
通过网络人类学的方式,收集大量由 13 个潜在作者撰写的文章,然后使用监督式机器学习技术建立了每个作者的文体风格档案。其结果表明,两个社交媒体活动家 Paul F 和 Ron W 写的文本最符合 Q 的语言风格,因此可能是该组织的撰写者。
- 柯西损失函数:高斯噪声和柯西噪声下的强鲁棒性
本文比较了传统均方误差(MSE)和柯西损失函数(CLF)的表现,结果显示在带有异常值数据的情况下,CLF 相对更具鲁棒性和适用性,提高了人工神经网络的性能。
- MMNA-SODINN:基于残差噪声区间的深度学习算法用于外行星图像检测
提出了一种名为 NA-SODINN 的新深度学习算法,通过引入新的本地处理方法和相应地调整学习过程,提高了 SODINN 检测性能。
- 米兰・昆德拉的无署名剧本?作者鉴定研究
本研究使用监督式机器学习,拟探讨关于剧本《Juro Jánošík》的作者身份归属问题,结果显示 Milan Kundera 可能是真正的作者。
- VISEM-Tracking:人类精子跟踪数据集
本文介绍了一种新的数据集 VISEM-Tracking,其中包含有 20 个视频录像的精子制备的 30 秒湿样中所观察到的使用手动标记的边界框坐标和专家分析的精子特征的数据集,同时还提供了未经标注的视频片段,可通过自我或无监督学习等方法进行 - CultureBERT:为企业文化微调基于 Transformer 的语言模型
本研究将监督式机器学习应用于从文本文档中度量企业文化的文献中,通过对员工评论数据集的人工标注,细调基于转换器的语言模型进行分类预测,相比传统的文本分类方法,我们的语言模型可以将员工评论的 16 至 28 个百分点与人类评估者产生一致性,并将 - 差模型的好数据:基于阈值的自动标注的基础
本文分析了基于阈值的自动标注系统,推导了保证机器标注数据质量所需的人工标注验证数据量的样本复杂度上限,并通过模拟和实际数据集研究了基于阈值的自动标注在真实数据上的有效性和使用限制。
- 使用机器学习技术估计高性能计算应用程序的数据分区块大小
使用监督学习技术对 HPC 应用程序中数据块大小进行估算的方法在 dislib 上进行实现并进行评估,实验结果表明该方法能够有效地确定给定数据集的拆分方法,从而在高性能环境中实现数据并行应用程序的高效执行。
- ACLALANNO:一种适用于普通人的主动学习注释系统
本研究开发了 ALANNO,一种针对 NLP 任务的开源注释系统,该系统支持多标注者的注释管理,并支持各种易于配置和扩展的 AL 方法和底层模型,以解决活性学习中存在的挑战。
- 情感分析自动标注方法比较
本研究比较了三种情感自动标注技术用于推特情感分析,结果表明 Afinn 自动标注技术应用于 BiLSTM 深度学习模型具有最高的准确率,为 80.17%(DS-1)和 80.05%(DS-2),这表明自动文本标注可以提供显着的好处并提供了替 - 利用新型犯罪数据和机器学习进行犯罪预测
本研究介绍了一种新的犯罪数据集,该数据集包含有关孟加拉国 6574 起犯罪事件的时间、地理、天气和人口统计数据,使用五种监督学习分类算法对这个数据集进行评估,并获得了令人满意的结果。此外,对数据集的各方面进行了探索性分析,并预计该数据集将为 - MM超越分类的校准测试
这篇论文提出了第一个框架,统一了概率预测模型的校准评估和测试,并应用于分类和任意维度回归模型。
- TruEyes:利用移动应用中的微任务进行众包标注机器学习数据集
TruEyes 是一种协作众包系统,通过将微任务分配给移动应用程序用户来解决大批量任务导致工人疲劳从而影响标注质量的问题,评估结果表明所标注的数据质量与传统的众包方法相当,并且大多数用户更喜欢任务广告而不是传统广告。
- Prayatul Matrix:直接对比评估监督机器学习模型性能的方法
该论文通过引入一种直接比较个别数据集实例的监督机器学习模型方法,即 Prayatul 矩阵,提出了 5 种性能度量,以比较四种分类技术和四种常见的深度学习模型在多个数据集上的性能表现,结果表明新设计的度量能够在比较 ML 算法方面提供更多的