- 通过语音转录生成特征向量的跨语言数据格式
通过提出新的方法,动态地为所有可以表示为 CLTS 标准版本中的声音创建二进制特征向量,我们解决了缺失数据的问题,可以直接访问非常庞大的多语言词表集合,并证明该特征系统不仅可以提供比较语音相似性的简便手段,还可以在未来的跨语言机器学习应用中 - 因果启发式正则化实现域通用表示
在给定描述不同领域 / 分布共享的数据生成过程的因果图的基础上,通过强制执行足够的图推断条件独立性可以确定领域通用(非虚假的)特征表示。针对标准的输入 - 输出预测设置,我们将文献中考虑的图集合分类为两个不同的组:(i)那些在训练领域中的经 - 自监督的多样农业视觉任务骨干框架
通过自我监督学习从原始农业图像数据中学习有意义的特征表示,我们提出了一种利用 SimCLR 对大规模未注释数据集上进行预训练的轻量级框架,该框架具有较强的适用性,可以解决各种农业视觉任务,并降低对注释数据的依赖,从而提高成本效益和可用性,推 - CVPRCuVLER:通过详尽的自我监督变换增强无监督对象发现
通过 VoteCut 和 CuVLER 方法,在多个无监督设置中,利用多个自我监督模型的特征表示进行归一化切割、聚类和像素投票,实现了显著的改进,为图像分割领域的未来发展铺平了道路。
- COLINGASEM:通过基于注意力的情感建模增强聊天机器人的共情能力
提出了一种通过采用多个编码器,在情感分析的基础上进行情绪分析,从而在开放领域聊天机器人中生成流利而相关的共情回应的新型解决方案。
- 最低特权学习的基本限制
我们提供了机器学习中最小权限原则的第一个形式化定义,证明了在表示与任务之间存在着效用和信息泄露的根本权衡,无论采用何种技术和数据集学习特征映射,都无法同时实现对任务的高效用和避免泄露非任务标签属性的目标。
- 剖析残差学习的内幕
通过发现神经网络中的 “消散输入” 现象,我们揭示了残差学习背后的基本原理,从而解决了深度可扩展的普通神经网络训练中收敛失败的挑战,并提出了 “普通神经网络假设”(PNNH)来支持无残差连接的深度普通神经网络训练,通过在流行的视觉基准测试中 - 双解离深度多聚类
本研究提出了一种名为 DDMC 的新型双解缠绕深度多聚类方法,通过学习解缠绕表示来实现多个隐藏数据结构的独立聚类目标,并通过变分期望最大化(EM)框架进行实现,实验证明 DDMC 在七个常用任务上始终优于现有的方法。
- 关于大规模自供训练方法在少样本语音分类中的可迁移性
近年来,自监督学习因其能够从无标签数据中学习出鲁棒特征表示而取得了优异结果。本研究评估了大规模自监督模型在少样本音频分类中的性能,并探讨了模型的少样本学习能力与其他下游任务基准的关系,发现在某些少样本问题(如 SpeechCommandsv - 基于中间 ASR 特征和人类记忆模型的面向听障用户的非侵入式语音可懂度预测
利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示,结合人类记忆的示例驱动型心理模型,预测助听器用户的人类可懂度评级,并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。
- CrossVideo: 点云视频理解的自监督跨模态对比学习
本文介绍了一种名为 CrossVideo 的新方法,旨在增强点云视频理解领域的自监督跨模态对比学习。通过利用点云视频和图像视频之间的跨模态关系获取有意义的特征表示,我们提出了一种自监督学习方法来解决数据稀缺和标签获取困难的问题。通过使用单模 - PDiT:交错融合感知与决策的 Transformer 用于深度强化学习
该研究提出了一种深度强化学习网络,Perception and Decision-making Interleaving Transformer (PDiT),它将两个 Transformer 结合在一起,一个负责环境感知,一个负责决策,并 - 基于对抗损失的少样本异常检测与鲁棒特征表示
我们提出了一种少样本异常检测方法,通过整合对抗训练损失来获得更强大和广义的特征表示,实验证明该方法在利用对抗性损失时通常获得更好的性能。
- AS-LLM:算法选择与大型语言模型相结合
该论文提出了一种将算法表示集成到算法选择过程中的方法,通过模块化提取问题和算法的表示,利用预训练的 LLMs 来计算匹配度,实验证实了该模型的有效性以及预训练 LLMs 的性能,表明该算法选择框架有潜力作为评估 LLMs 编码表示能力的基准 - 概念级微调对防止负面迁移的重要性
通过概念微调(Concept-Tuning)方法,可以改善预训练模型的特征表示,减少罕见特征和虚假关联特征的负面影响,进而提高细调方法在各种数据集上的表现。
- 用球谐和正弦表示网络进行地理位置编码
地理空间特征表示对于集成地理定位数据的任何机器学习模型都是至关重要的,本研究提出了一种新的全球分布地理数据的位置编码器,结合球面调和基函数和正弦网络表示网络 (SirenNets),以学习双傅立叶球嵌入。
- 混沌中的秩序发现:对比学习中的时间序列新颖数据增强方法
本研究介绍了一种新的数据增强方法,用于准周期性时间序列任务,通过将类内样本连接在一起,从而在潜在空间中找到顺序。该方法基于著名的混合技术,并结合了一种考虑非平稳时间序列的周期性的新方法。通过控制数据增强引起的混乱程度,我们的方法实现了改进的 - 基于 CTC 的语音识别的单模聚合
该论文提出了一种非自回归自动语音识别方法,使用一种单模态聚合(UMA)来分割和整合属于同一文本令牌的特征帧,从而学习更好的文本令牌特征表示。与常规 CTC 相比,该方法学习到更好的特征表示,并缩短了序列长度,从而降低了识别错误和计算复杂度。 - 基于自我蒸馏的全尺寸图像的更好特征 (BROW)
基于 BROW 模型,我们提出了一种用于提取 WSI 特征表示的基础模型,通过使用自蒸馏框架预训练的转换器结构,改进模型的鲁棒性,并利用 WSI 的多尺度金字塔来增强其性能,我们在各种器官和组织的 WSI 上进行实验,证实了该模型的有效性、 - 基于双图和门控融合的聚合特征视频字幕生成
本文提出了基于双图和门控融合的视频字幕模型,通过使用两种类型的图来生成视频内容的特征表示,并利用门控融合来进一步理解这些不同层次的信息,以实现对复杂视频对象相互作用的全面理解。在 MSVD 和 MSR-VTT 这两个常用数据集上进行的实验表