- 可持续深度学习的数据减少方法深入分析
深度学习方面的研究,介绍了八种不同的数据减少方法和一个基于拓扑结构的代表性度量标准,探讨了这些方法对数据集的代表性、能源消耗和模型预测性能的影响。
- 关于预训练机器学习模型存储可压缩性的一切,你想知道的都在这里
论文通过对预训练模型数据集进行详尽分析,揭示了现代数据压缩工具对预训练模型数据集不够有效的问题,并提出了一种简单而有效的浮点数压缩方法及与其他数据减少方法相结合的压缩框架。
- 通过双层数据修剪实现高效的架构搜索
提出一种基于 Bi-level Data Pruning (BDP) 范式的新型神经架构搜索优化方法,通过逐步修剪不适合的样本来降低搜索成本,并实现超过 50% 的性能提升。
- tinyCLAP:压缩对比式语音 - 文本预训练模型
研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性,得到一个高效模型 ——tinyCLAP,该模型仅使用原 Microsoft CLAP 参数的 6%,在测试的三个声音事件检测数据集上,零样本分类性能仅降低不到 5%。
- 融合树(和持久图)的 Wasserstein 自编码器
本文提出了一种基于合并树(MT-WAE)的 Wasserstein 自编码计算框架,该框架是传统自编码神经网络架构到 Wasserstein 度量空间的一种新扩展,在每个网络层上显式地处理相关度量空间上的合并树,从而提高了准确性和可解释性, - 简化 Tight L2 回归的标签复杂度
提出一种多项式算法,其中通过删除数据点和减少步骤,可以实现与最优解的期望 $(1+d/n)$ 接近度,从而达到在减少标签复杂度的情况下,实现紧密近似。
- Dark Energy Survey 中的异常星系图像及其使用无监督机器学习的识别
利用基于机器学习的自动检测方法,成功从 Dark Energy Survey 的首个数据版本中检测到 250 个异常天体,可实现对海量数据的异常点位识别和降维处理,以及减轻了手动检查的工作量。
- 持久图的 Wasserstein 字典
本文提出了一种计算框架,用于编码持续图的一组摩尔复合表达式,这些表达式是字典中原子图的加权 Wasserstein 重心;其中,多尺度梯度下降方法可有效解决相应的最小化问题,混合了重心权重和原子图的优化,并利用了共享内存并行性。
- 面向可视化的大型数据库采样
提出了可视化感知采样(VAS)方法,通过优化可视化启发式损失函数,从而在保证可视化质量的基础上,实现对大规模数据集的快速采样。实验表明,VAS 相比现有的方法具有更高的成功率和更快的速度,尤其在回归、密度估计和聚类等场景下。
- 贝叶斯回归的随机投影
该研究论文探讨随机投影作为贝叶斯回归分析的数据降维技术,证明了高维分布在数据点从 n 到 k 时仍可以得到保留,通过对投影数据进行高斯似然函数的评估获得的结果误差很小,结果表明该方法能够高效恢复回归模型。
- THELI -- 便捷处理任何光学、近红外和中红外成像数据
本文介绍了 THELI,一个易于使用的图形界面,驱动针对任何光学、近红外和中红外成像数据的端到端管线进行简化。与其他方法相比,THELI 具有许多优点,它将多种处理算法和第三方软件结合在一起,为研究人员提供了一个单一的、均匀的工具。
- Mopra 南银河平面 CO 勘测
在本文中,我们介绍了使用 Mopra 射电望远镜在半径为 R=13.5 kpc 的银河系第四象限的 l=305-345 deg,b=+/- 0.5 deg 的一部分进行的第一个新的 CO 探测结果,其具有光谱和空间分辨率分别为 0.1 km