简化 Transformer 下的深度估计
本文提出了一种基于 CLIP 的 Transformer 方法(CLIPVQA),用于视频质量评估(VQA)问题,该方法在充分利用质量语言描述和视频帧信息的基础上,实现了新的 VQA 性能,比现有的基准方法的泛化能力提高了 37%。
Jul, 2024
本论文研究通过自监督学习进行预训练的语音编码器在不同领域的下游任务中表现出卓越的性能,包括口语语言理解(SLU)和自动语音识别(ASR)。针对低资源的突尼斯阿拉伯口音情境以及结合了低资源 SLU 和 ASR 场景的情况,本研究通过比较不同的自监督学习方法的有效性做出贡献。使用许多经过自监督学习训练的语音编码器在 TARIC-SLU 数据集上进行实验,其中语音编码器均在单语言或多语言语音数据上进行了预训练。一些语音编码器还通过多模式监督师生范式进行了改进,而无需领域内数据或突尼斯数据。本研究得出了许多重要发现,并在本文中进行了讨论。
Jul, 2024
自我监督学习和医学图像领域主要依赖预训练期间的成像模态。本研究中提出了一种融合电子健康记录(EHR)数据的自我监督预训练方法,通过 Masked Siamese Network (MSN) 来提高胸部 X 射线图像的质量,并通过线性评估验证了该方法对图像表示质量的显著改进。
Jul, 2024
利用自我关注机制在长上下文任务中表现良好,但复杂度为二次方。我们提出了一种具有线性复杂度和表达能力隐藏状态的新型序列建模层,以隐藏状态本身作为一个机器学习模型,并将更新规则作为一个自监督学习的步骤进行训练。我们考虑了两个实例化模型:TTT-Linear 和 TTT-MLP,它们分别使用线性模型和两层 MLP 作为隐藏状态。在 125M 到 1.3B 参数规模上与强基准模型 Transformer 和现代 RNN 模型 Mamba 进行对比评估,TTT-Linear 和 TTT-MLP 都能达到或超过基准模型的性能,尤其是 TTT-Linear 已经在 8k 上下文任务上比 Transformer 更快,与 Mamba 在墙时相匹配,而 TTT-MLP 在内存 I/O 方面仍面临挑战,但在长上下文任务中显示出更大的潜力,为未来的研究方向指明了一个有前景的方向。
Jul, 2024
基于知识图谱的异构超图推荐系统 (KHGRec) 模型将复杂的高阶互动和多样性输入源的异构性纳入考虑,使用协作知识异构超图 (CKHG) 来建模复杂连接,并通过交叉视图自监督学习和注意机制融合来自输入图的信号,实现精准推荐。该模型在四个真实数据集上的广泛实验表明其相对于现有的其他模型有平均 5.18% 的相对改进,对于噪声鲁棒性、缺失数据和冷启动问题的额外测试也展示了 KHGRec 框架的稳健性。
Jul, 2024
通过引入可训练的一组针对口音的代码本到自我监督架构中,我们提出了一种针对自我监督学习的口音感知自适应技术。这些可学习的代码本使模型能够在预训练过程中捕获口音特定信息,并在 ASR 微调期间进一步优化,从而在 Mozilla Common Voice 数据集上胜过其他所有的口音适应方法,对于见过和没见过的英语口音都有最多 9% 的相对词错误率减少。
Jul, 2024
使用自我监督学习的环绕深度估计方法 (SSSDE) 通过连续图像为无人驾驶提供一种经济的深度估计替代方案,并通过有效的姿态估计设计和两个损失函数增强了跨视图一致性。
Jul, 2024
通过使用 Precision at Scale (PaS) 方法自动生成特定领域的数据集,该研究证明自动生成的领域特定数据集比大规模监督数据集(如 ImageNet-1k 和 ImageNet-21k)更适合预训练,能够在多个领域和分类任务中以及食品领域中取得至少 12% 的性能提升,同时数据集体积仅为 ImageNet-21k 的 1/12。
Jul, 2024
通过分析深度线性模型的训练动态,揭示了预测隐藏空间中的显著特征对于 Joint Embedding Predictive Architecture(JEPA)方法成功的隐含偏差机制。
Jul, 2024
通过引入 Universal Gloss-level Representation (UniGloR),我们提出了一个统一的自监督解决方案,用于手语翻译和手语生成任务,并在各项任务中展示了 UniGloR 的有效性。我们的研究表明,自监督学习可以以统一的方式进行,为未来的创新与实际应用铺平了道路。
Jul, 2024