- 编程语言和自然语言的对齐:探索多模态变换器嵌入在缺陷定位中的设计选择
通过评估 14 个不同的嵌入模型并开发相应的漏洞定位模型,我们的研究表明,预训练策略显著影响嵌入质量,并且嵌入模型对数据的熟悉程度对漏洞定位模型的性能有着显著影响。当训练数据和测试数据来自不同的项目时,漏洞定位模型的性能会出现大幅波动。
- L-MAE: 长纵向掩码自编码器中的时间和严重性感知编码,用于糖尿病视网膜病变进展预测
本文提出基于自监督学习(SSL)的预训练策略,针对医学图像的非典型性,开发了一种基于 Transformer 的纵向遮蔽自编码器 (MAE),研究了时间感知的位置嵌入和疾病进展感知的遮蔽策略,通过评估在糖尿病视网膜病变(DR)筛查数据集上的 - 跨领域和跨维度的图像到图形转换学习
直接从图像到图表的转换是一项具有挑战性的任务,这一任务要在单个模型中解决对象检测和关系预测。本文提出了一套方法,使得图像到图表转换器能够进行跨领域和跨维度的迁移学习,并通过将模型在 2D 卫星图像上进行预训练,应用于大不相同的 2D 和 3 - DiCoM -- 提高胸部 X 射线研究普适性的多样概念建模
Chest X-Ray used in diagnosis and prognosis of lung and heart conditions. Introducing Diverse Concept Modeling (DiCoM) f - 为何双曲神经网络有效?关于分层表示能力的研究
通过对超球面神经网络在超球面上的作用进行了广泛的研究和分析,我们提出了一种基准评估 HRC 的方法,并通过大规模实验揭示了 HNNs 的有效性,进一步验证了分析的可靠性。实验表明 HNNs 无法实现理论上的最优嵌入,而 HRC 受到优化目标 - 基于端到端预训练的分类器解释增强医学图像分割
基于大规模医学图像分类数据集,通过训练图像分类器并使用集成梯度方法生成诊断定位标签,本研究提供了一个以胸部 X 光片为例的案例研究,先对放射学中的 14 种病理观察进行图像分类器训练,再将所得标签用于预训练模型,最终在 COVID-19 感 - 自动驾驶的视觉基础模型铸造:挑战、方法和机遇
自动驾驶中用于构建视觉基础模型(VFMs)的关键技术包括数据准备、预训练策略和下游任务适应等方面,同时介绍了 NeRF、扩散模型、3D 高斯喷洒和世界模型等关键进展,并提出了未来研究的全面路线图。
- 基于合成驾驶数据的轨迹预测预训练
在有限的数据可用性下,我们提出了利用高精度地图和轨迹的图表示以及预训练策略相结合的方法来学习通用的轨迹预测表示,进而对轨迹预测模型进行改进,从而在数据扩展和预训练策略方面取得了显著的效果。
- ACL通过跨模态图表对模型进行预训练提升视觉和语言任务中的图表理解能力
介绍了一种名为 ChartT5 的 V+L 模型,通过对绘图表格对进行跨模态预训练学习,具备了解释图表信息的能力,其采用的两种新颖预训练目标 Masked Header Prediction (MHP) 和 Masked Value Pre - 蛋白质语言模型与结构预测:联系与进展
本文系统地概述了蛋白质语言模型在蛋白质结构预测中的应用和方法,介绍了网络架构、预训练策略、常用蛋白质数据库等方面的最新进展和挑战,并展望了未来发展方向。
- 分子预训练模型系统调查
本篇论文总结了分子预训练模型领域的近期进展,并从分子描述符、编码器结构、预训练策略和应用等几个关键角度进行了系统性分析,以期为机器学习和科学界提供有用的资源。
- 在实际应用中应用自监督学习,实现混合式自动语音识别
本文讨论了如何利用未经筛选的音频数据进行自监督学习,在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略,比较了近期开发的对比损失,并通过实验结果表明,利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要 - ESResNe (X) t-fbsp:学习音频时间 - 频率鲁棒变换
本文旨在提高环境声音分类的准确性,通过利用基于复频 B - 样条小波的时频转换层,加强模型的信号抗干扰能力并考察不同预训练策略的影响。使用 ImageNet 和 AudioSet 两个大规模数据集进行权重初始化和训练,本文提出的模型在 ES - KDD代码的通用表示方法
本研究提出了一种基于图形的代码表示技术,并通过有效的预训练策略生成通用代码表示。通过在真实数据集上的测试,表明该方法在方法名称预测和代码图链接预测方面具有最先进的结果。
- AAAICrossNER: 跨领域命名实体识别的评估
为了解决交叉域命名实体识别 (NER) 任务中样本少的问题,作者提出了一个跨领域 NER 数据集 CrossNER, 进行了一系列实验来探索利用不同级别的领域语料库和预训练策略进行域自适应预训练的有效性,研究表明利用包含领域特定实体的分数语 - UniVL: 用于多模态理解和生成的统一视频与语言预训练模型
本论文提出了 UniVL:一种统一的视频和语言预训练模型,旨在为多模态理解和生成任务提供强大的视频和文本表示,并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件,最终在五个下游任务上实现了最新的成果。
- IJCAI使用维基百科学习全球卫星图像的解释
本文提出了一种新的方法来解决缺乏标注训练数据在卫星图像的细粒度解释方面的难题,通过将地理参考维基百科文章与其对应位置的卫星图像配对构建名为 WikiSatNet 的新型数据集,并提出了两种学习卫星图像表示的策略。在最新发布的 fMoW 数据 - ICCV野外场景下的深度学习人脸属性
本文提出了一种深度学习框架,用于在野外预测面部属性,将 LNet 和 ANet 级联,且在预训练时分别使用大量通用对象类别和大量面部身份信息,最终得到优于现有技术的表现,并揭示了面部表示学习的有价值的事实。