连续扫描：一种改进的二进制量化器

Aug, 2023

连续扫描：一种改进的二进制量化器

Continuous Sweep: an improved, binary quantifier

Kevin Kloos, Julian D. Karch, Quinten A. Meertens, Mark de Rooij

TL;DR通过引入连续扫描（Continuous Sweep）这种新的参数二值量化器来估计数据集的类别普遍性，其使用了参数类分布替代经验分布，优化了决策边界和采用了平均值，同时通过理论推导得到了偏差和方差的解析表达式。模拟研究结果表明，连续扫描在广泛的情况下优于中位数扫描（Median Sweep）。

Abstract

quantification is a supervised machine learning task, focused on estimating the class prevalence of a dataset rather than labeling its individual observations. We introduce →

quantification supervised machine learning continuous sweep parametric binary quantifier decision boundaries

发现论文，激发创造

二进制量化和数据集变化：实验调查

在这项研究中，我们通过实验分析了当前的定量化算法在不同类型的数据集偏移下的行为，以识别现有方法的局限性，并为开发更广泛适用的方法铺平道路。我们通过提出细粒度的数据集偏移类型分类，建立受这些偏移类型影响的数据集生成协议，并在生成的数据集上测试现有的定量化方法。研究结果表明，许多已被发现对于先验概率偏移具有鲁棒性的定量化方法对于其他类型的数据集偏移可能不具备鲁棒性。此外，没有发现任何现有的定量化方法能够对我们在实验中模拟的所有数据集偏移类型具备足够的鲁棒性。

Oct, 2023

量化问题的在线优化方法

本研究提出了用于优化量化特定的性能参数的首批在线随机算法，其对于多变量优化的理论具有最优的收敛性，并通过实验验证，相对于现有的算法，能够更好地对性能参数进行优化。

May, 2016

多元损失函数的文本量化器优化

本研究旨在探讨采用结构化预测的有监督学习模型解决量化问题，通过在 5500 个二进制高维数据集上实验，证明该方法比现有的量化方法更准确、更稳定、更高效。

Feb, 2015

QUANT: 时间序列分类的极简区间方法

使用一个特征类型（分位数），固定区间和现成分类器，我们展示了在标准基准数据集上可以实现与现有时间序列分类间隔方法相同的平均准确度。这种间隔方法的提炼在 UCR 档案的 142 个数据集上取得了最先进的准确度，并且只需不到 15 分钟的总计算时间（训练和推理）使用单个 CPU 核心。

Aug, 2023

连续值二分类器的三元工具

本文提供了一种交互式可视化方法，以支持二元分类器的标定、操作点选择和检验等任务，该方法可以整合到多视图协调系统中，延伸了现有的比较方法，将连续值视为三值（正、不确定、负），并提供了使用案例来展示如何完成关键任务。

Apr, 2022

基于直方图的置换不变网络的量化

本研究探讨了深度神经网络在量化任务中的应用，并提出了适用于量化问题的基于直方图的无重排不变表示的新型神经架构 HistNetQ。通过实验结果表明，HistNetQ 在量化问题上优于其他用于集合处理的深度神经架构和现有的量化方法，具有不需要训练示例的标签但仅需要训练数据集中的流行度值的能力，并且能够优化任何自定义的量化相关损失函数。

Mar, 2024

现场量化：数据集和基准

本研究在野外应用于海洋生态学两个大规模数据集，并研究了文献中的若干量化方法，特别是表明了在有限的数据下深度神经网络可以胜过其他方法。

Oct, 2015

在先验概率转移下最小化量词方差

通过研究二元预测问题、先验概率转移及基础分类器的优化策略，本文确定其最大似然估计量的渐近方差，发现其与特征下类别标签的 Brier 得分相关，并点明了训练基础分类器的方法以最优化训练集和测试集的 Brier 得分。

Jul, 2021

基于正则化的排序量化方法

分类量化的研究在近年来获得了更多的关注，但是大部分的研究都集中在二分类和多分类问题上，很少研究有序情况下的分类量化。本文主要贡献有三点：首先，我们创建了两个新的有序分类量化数据集，弥补了之前数据集的不足；其次，我们对现有的有序分类量化算法进行了实验比较，将来自数据挖掘和天体物理学等不同研究领域的算法作者集于一身；第三，我们提出了一种新的正则化的有序分类量化算法，在实验中优于现有算法。我们的算法在性能上取得了提升，关键原因是我们的正则化方法防止了在实际应用中不合理的有序估计，因为我们假设有序分布在实践中趋于平滑，我们通过多个实际应用案例对此假设进行了非正式验证。

Oct, 2023

无分布假设的二分类：预测集，置信区间和校准

研究数据无任何分布性假设条件下，针对二分类问题的不确定性量化中的三种方法 —— 标定、置信区间和预测集，建立了连接这三个概念的三角脚架，明确了使用基于评分函数的分类器才能进行无分布标定的必要条件。我们还推导了面向固定宽度和统一质量分组的二分类问题中的无分布概率分组方法的置信区间，这些区间可以导致无分布标定。此外，我们还推导了针对流数据和协变量转移的扩展。

Jun, 2020