现场量化：数据集和基准

NIPSOct, 2015

Quantification in-the-wild: data-sets and baselines

Oscar Beijbom, Judy Hoffman, Evan Yao, Trevor Darrell, Alberto Rodriguez-Ramirez...

TL;DR本研究在野外应用于海洋生态学两个大规模数据集，并研究了文献中的若干量化方法，特别是表明了在有限的数据下深度神经网络可以胜过其他方法。

Abstract

quantification is the task of estimating the class-distribution of a data-set. While typically considered as a parameter estimation problem with strict assumptions on the data-set shift, we consider →

quantification marine ecology deep neural network data-set shift plankton time series

发现论文，激发创造

二进制量化和数据集变化：实验调查

在这项研究中，我们通过实验分析了当前的定量化算法在不同类型的数据集偏移下的行为，以识别现有方法的局限性，并为开发更广泛适用的方法铺平道路。我们通过提出细粒度的数据集偏移类型分类，建立受这些偏移类型影响的数据集生成协议，并在生成的数据集上测试现有的定量化方法。研究结果表明，许多已被发现对于先验概率偏移具有鲁棒性的定量化方法对于其他类型的数据集偏移可能不具备鲁棒性。此外，没有发现任何现有的定量化方法能够对我们在实验中模拟的所有数据集偏移类型具备足够的鲁棒性。

Oct, 2023

量化问题的在线优化方法

本研究提出了用于优化量化特定的性能参数的首批在线随机算法，其对于多变量优化的理论具有最优的收敛性，并通过实验验证，相对于现有的算法，能够更好地对性能参数进行优化。

May, 2016

多元损失函数的文本量化器优化

本研究旨在探讨采用结构化预测的有监督学习模型解决量化问题，通过在 5500 个二进制高维数据集上实验，证明该方法比现有的量化方法更准确、更稳定、更高效。

Feb, 2015

多类定量的核密度估计

我们在本文中提出了一种基于核密度估计的多元密度表示机制，称为 KDEy，通过实验证明 KDEy 在量化性能上优于现有的分布匹配方法，并与目前在量化领域中的最强竞争者期望最大化方法展开比较。

Dec, 2023

FathomNet2023 竞赛数据集

海洋科学家收集了图像数据进行研究海洋生物多年来，这些图像和视频在基础科学和环境监测任务中非常有价值。然而，目前没有能够处理海洋视觉采样中普遍存在的样本种群的极端变异性、图像质量和栖息地特征的工具。为了充分利用海洋中的视觉数据，创建能够识别图像或视频序列中是否包含新生物、非常规动物集合或者是否越界的模型至关重要。FathomNet2023 竞赛数据集提供了一个真实的情景，其中目标数据中的动物集合与训练数据不同。挑战是在目标图像中识别生物并评估其是否越界。

Jul, 2023

基于直方图的置换不变网络的量化

本研究探讨了深度神经网络在量化任务中的应用，并提出了适用于量化问题的基于直方图的无重排不变表示的新型神经架构 HistNetQ。通过实验结果表明，HistNetQ 在量化问题上优于其他用于集合处理的深度神经架构和现有的量化方法，具有不需要训练示例的标签但仅需要训练数据集中的流行度值的能力，并且能够优化任何自定义的量化相关损失函数。

Mar, 2024

QUANT: 时间序列分类的极简区间方法

使用一个特征类型（分位数），固定区间和现成分类器，我们展示了在标准基准数据集上可以实现与现有时间序列分类间隔方法相同的平均准确度。这种间隔方法的提炼在 UCR 档案的 142 个数据集上取得了最先进的准确度，并且只需不到 15 分钟的总计算时间（训练和推理）使用单个 CPU 核心。

Aug, 2023

基于正则化的排序量化方法

分类量化的研究在近年来获得了更多的关注，但是大部分的研究都集中在二分类和多分类问题上，很少研究有序情况下的分类量化。本文主要贡献有三点：首先，我们创建了两个新的有序分类量化数据集，弥补了之前数据集的不足；其次，我们对现有的有序分类量化算法进行了实验比较，将来自数据挖掘和天体物理学等不同研究领域的算法作者集于一身；第三，我们提出了一种新的正则化的有序分类量化算法，在实验中优于现有算法。我们的算法在性能上取得了提升，关键原因是我们的正则化方法防止了在实际应用中不合理的有序估计，因为我们假设有序分布在实践中趋于平滑，我们通过多个实际应用案例对此假设进行了非正式验证。

Oct, 2023

连续扫描：一种改进的二进制量化器

通过引入连续扫描（Continuous Sweep）这种新的参数二值量化器来估计数据集的类别普遍性，其使用了参数类分布替代经验分布，优化了决策边界和采用了平均值，同时通过理论推导得到了偏差和方差的解析表达式。模拟研究结果表明，连续扫描在广泛的情况下优于中位数扫描（Median Sweep）。

Aug, 2023

WHOI-Plankton - 一个大规模细粒度视觉识别基准数据集，用于浮游生物分类

科学家们越来越多地使用基于成像的技术研究浮游生物，而 WHOI-Plankton 是一个大规模、细粒度的可视化识别数据集，包括了 70 类超过 340 万张的专家标记图像，用于通过传统方法和两种基于卷积神经网络的方法来进行自动分类，并讨论了相关的分类性能评估指标和结果。

Oct, 2015