- 使用现成的机器学习工具,以超过 99% 的准确率区分作者身份:ChatGPT 还是学术科学家?
通过监督分类的方法,我们开发了一种方法来辨别人工智能生成的文本和学术科学家的文本,其中包含 20 个特征,最终建立了一个模型准确地判断了文本的作者,使得误分类文档的数量减少至原来的 1/20。
- 维度无关数据集近似及其在分类中的应用
本研究中,我们在核方法逼近 / 插值理论的一个特定背景下重新审视这一方法。我们定义了特殊函数作为数据信号用于解决监督分类问题,其有效性通过低维例子和高维 MNIST 数字分类问题的应用得到了证明。
- TabPFN: 一种在一秒内解决小型表格分类问题的 Transformer
TabPFN 是一个训练有素的 Transformer,可对小型表格数据集进行监督分类,无需调整超参数,并且在与最先进的分类方法竞争中具有竞争力,它彻底包含在我们网络的权重中,并接受训练和测试样本以及一系列值输入,并在单个前向传递中为整个测 - 用于噪声标签数据分类的半监督级联聚类
本研究使用半监督级联聚类 (SSCC) 算法和新颖的聚类评估矩阵 (CEM),以减少昂贵的人工标签评估,并提高在嘈杂标签集上的分类准确性。该算法通过生成级联分类树从而在工业环境中有效地推导萨来。
- AAAI排名信息噪音对比估计:通过排名正例提高对比学习
该论文提出了一种名为排名信息噪声对比估计 (RINCE) 的新的信息噪声对比损失,它可以利用相似性排名的信息来学习相应的嵌入空间,并且相比标准 InfoNCE,RINCE 可以通过不完全划分相似和不相似样本的情况来自适应探索相似性信息。此外 - AAAI通过属性增强合成多样特征,提升生成式零样本学习
本文提出了一种使用生成模型合成多样性特征来增强零样本学习的新框架,以解决现有方法使用的单一属 性信息无法完全表达样本丰富特征的问题。在四个基准数据集上的实验证明,本方法在性能方面显着优于现有工作。
- ICCV聚焦正面:自监督学习用于生物多样性监测
利用静态监控相机捕获的图像集合中的自然变化和上下文数据来学习无标签图像集合的自我监督表示,通过在训练时识别高概率正面对,即可能描述相同视觉概念的图像,可以获得出色的下游超级分类性能。
- CVPROTCE: 跨域跨任务表征的可迁移度量
本研究提出了一种基于优化转运输基础条件熵(OTCE)的度量方法,用于预测跨领域和跨任务特征传输的监督分类任务的传输性能,其中 OTCE 比现有技术平均提供 21%的性能提升,并且可以用于源模型选择和多源特征融合。
- EMNLP鲁棒文本分类中的虚假相关性识别
本文提出了一种区分文本分类器中误导性和真实关联的方法,将其作为监督分类问题,并利用来自治疗效应估计器的特征,通过特征选择的方法进行更加鲁棒的分类。经过在情感分类和毒性检测等四个数据集上的实验,表明这种方法提高了最坏情况下的准确性和更好的分类 - 监督式机器学习的严谨和鲁棒量子加速
本文提出一种量子支持向量机分类器模型,实现有监督分类并取得了明显的量子加速,要求仅具备经典数据访问能力。在构造的数据集中,基于普遍认为的离散对数问题的困难性假设,该量子分类器实现的分类效果均优于无法逆多项式地超越瞎猜的经典学习器。这个模型可 - 摘要 - 源命题级别对齐:任务、数据集和监督基线
该论文提出了一种以监督分类的方式在更准确的命题跨度级别进行摘要 - 源文本对齐的方法,并利用众包数据构建了一个新的训练数据集,表明该方法在句子对齐质量方面的效果优于无监督方法。
- 一种基于边界的广义零样本学习外域分类器
本文提出了一种基于边界的 Out-of-Distribution 分类器来解决 Generalized Zero-Shot Learning 问题,其利用共享的潜在空间,在单位超球上对视觉特征和语义属性的潜在分布进行按类别对齐,并通过类中心 - 学习易于解决的微分方程
该研究提出了一种利用高阶导数的可微时间代价替代标准数值求解器的方法以提高神经网络参数差分方程数值求解的效率,并且在监督分类、密度估计和时间序列建模任务中得到了验证。
- 使用逻辑损失训练的宽两层神经网络的梯度下降的隐含偏见
分析了具有同质性激活函数的两层神经网络在无限宽的情况下的训练和泛化行为,并表明在存在低维结构的情况下,梯度流的极限可以完全表征为某些函数空间中的最大间隔分类器,并且具有强的泛化边界,在实践中符合两层神经网络的行为,并证明了其隐式偏差的统计优 - 生成式对抗零样本关系学习用于知识图谱
本文提出了一种零样本学习方法,利用生成对抗网络从文本描述中学习新关系的语义特征并在知识图谱中识别新关系的事实,使得知识图谱的扩展更加容易,实验结果表明这种方法可以被广泛应用于任何版本的知识图嵌入,并在 NELL 和 Wiki 数据集上实现了 - 量化推特上的极化:卡瓦诺提名
本文使用半监督和监督分类技术,分析 Twitter 用户对布雷特・卡瓦诺(Brett Kavanaugh)的提名立场,并通过修改现有的极化量化措施,表征了支持和反对提名的用户之间的极化。
- ICCV监督分类任务的可转移性和困难度
本文提出了一种新的方法,通过信息论方法来估计监督分类任务的难度和可转移性,无需模型和训练,而是通过探索训练标签统计数据作为随机变量,考虑从源任务到目标任务的两个标签分配之间的条件熵,表明此值与传输模型的损失有关,并测试其在三个大型数据集上的 - BreizhCrops:用于作物类型映射的时间序列数据集
介绍了一个农田作物卫星时间序列的分类数据集 Breizhcrops,并对七种不同的深度神经网络模型及随机森林模型进行了对比评估。该数据集及模型实现和预训练模型可在相关的 GitHub 存储库中获取并应用于实际的农田作物分类工作。
- ACL自然语言推理的标记级别解释生成
本文提出一种使用简单 LSTM 架构的零样本句子对标记来生成自然语言推理的 token 级解释的方法,并使用 SNLI 数据集进行了实验,与黑盒方法相比,白盒方法的匹配精度较低。
- 自适应贝叶斯线性回归在自动化机器学习中的应用
本文提出了一种元学习方法,利用先前的元数据自动搜索高性能的机器学习管道以完成模型选择和超参数优化,该方法结合自适应贝叶斯回归模型、神经网络基函数和贝叶斯优化的收获函数,能够在监督分类数据集上高效地搜索预定义的候选管道,实验结果表明,该方法在