- 利用自知识蒸馏引导帧级 CTC 对齐
通过引入自知识蒸馏方法,解决了自动语音识别中教师 - 学生模型帧级对齐不一致的问题,该方法使用共享编码器层并将子模型作为学生模型,提高了资源效率和性能,并通过实验证明了所提方法通过减少对齐不一致来改善性能。
- 可扩展的多元时间序列数值嵌入:增强医疗数据表示学习
通过 SCANE 和 SUMMIT 算法,有效地处理多变量时间序列数据中的缺失值并提供精确的预测输出,验证结果证实了它们在多种 MTS 数据分析任务中的应用潜力。
- WeatherFormer:一个基于预训练编码器模型的小数据集天气表示学习方法
本文介绍了 WeatherFormer,一种基于 Transformer 编码器的模型,旨在从少量观测数据中学习稳健的天气特征。它解决了在农业、流行病学和气候科学中许多预测任务中建模复杂天气动态的挑战。WeatherFormer 在大型预训 - 一种用于 Otago 微标签识别的掩码半监督学习方法
通过将 Transformer 编码器用于特征提取和时序卷积神经网络(TCN)用于分类来识别 Otago 锻炼计划(OEP)中的微操作,并结合掩码无监督学习任务提高有监督学习任务的性能,研究结果显示 f1 - 分数超过临床实用的 0.8 阈 - 优化 BioTac 模拟的真实触觉知觉
通过温度、力量和接触点位置对 BioTac 进行模拟,训练了不包括温度读数的三个替代模型(XGBoost 回归器、神经网络和 Transformer 编码器),并研究了输入向量的窗口大小,实验结果表明 XGBoost 回归器和 Transf - 多目标跟踪的表示对齐对比正则化
利用轻量级单层变压器编码器模型化时空关系,通过基于特征对齐的对比正则化损失将特征引入数据关联阶段,以提高现有跟踪网络的性能和解释性。
- 不放过任何一个患者:提升罕见疾病患者的药物推荐
提出了一种名为 Robust and Accurate REcommendations for Medication (RAREMed) 的新型模型,通过使用预训练 - 微调的学习范式和统一的输入序列方法来提高罕见疾病的准确性,同时引入了两 - 基于时空序列和关系学习的情感 - 激活估计的多模态融合方法
通过视频和音频的预处理,提取视觉和音频特征,并利用时间卷积网络和 Transformer 编码器结构提高模型的性能和泛化能力,融合预训练的音频和视频模型进行特征提取,实现了较好的 VA 评估性能(简化中文摘要)。
- 无人机热图中使用深度学习进行目标检测
本研究提出了一种神经网络模型,能够在无人机收集的热像图中识别小型和超小型目标。模型结构包括骨干网络、中间层和预测头,其中骨干网络基于 YOLOv5 结构,结尾使用了 Transformer 编码器。中间层采用了 BI-FPN 块以及滑动窗口 - Lens:网络流量的基础模型
网络流量分析具有独特的挑战,因为数据包具有异构标头和缺乏语义的加密负载。为了更好地学习大规模网络流量的表示,本研究基于 Transformer 编码器的 T5 架构开发了 Lens 模型,并采用了一种新的损失函数,整合了三个任务:遮蔽跨度预 - 自我监督对比预训练多元点过程
使用 Transformer 编码器的自监督学习方法来处理多元事件流数据,在预训练阶段引入了新的策略,通过随机遮盖事件时刻和插入不存在事件的时刻来扩展遮盖的效果,通过对比真实事件和模拟的不存在事件来提高下游任务的性能,实验证明相较于现有模型 - 通过部分信息辨识和跨层交互学习聚类表示
本文介绍了一种名为 PICI 的新型深度图像聚类方法,通过部分信息辨别和跨层级交互在联合学习框架中进行。通过使用 Transformer 编码器作为骨干网络,我们形成了具有两个并行增广视图的蒙版图像建模。从通过 Transformer 编码 - AAAI多模态追踪的双向适配器
通过引入多模态图像以弥补单一成像传感器的限制,我们提出了一种基于通用双向适配器的新型多模态视觉提示跟踪模型,通过交互式互补多模态信息,实现了优良的跟踪性能。
- 可控人物图像生成的解耦表示学习
本文提出了一种名为 DRL-CPG 的新框架,用于学习可控人物图像生成的分离潜在表示,通过使用 transformer 编码器和属性解码器来实现形状和纹理的转换,实现了产生具有所需姿势和人体属性(例如姿势,头部,上衣和裤子)的逼真人物图像的 - TransPose:基于几何感知的 Transformer 的 6D 物体姿态估计
TransPose 是一个利用 Transformer 编码器和几何感知模块的 6D 姿态框架,用于提取和利用深度信息中的几何特征,以实现更准确的预测。通过统一采样点云,并借助设计的局部特征提取器和图卷积网络提取局部几何特征;采用 Tran - EMNLP多模式机器翻译中合成与真实图像之间的连接
本研究提出了一种方法来解决多模态机器翻译中由合成图像引起的分布差异问题,并在推理过程中不依赖真实图像。
- 具地区感知和可推广性的隐式神经表示
提出了一种新的通用的内隐神经表示(INR)框架,结合了 transformer 编码器和可感知局部性的 INR 解码器,显著优于以往的通用的 INR,并验证了局部感知潜变量在图像生成等下游任务中的有效性。
- ResidualTransformer:采用权重共享的残差低秩学习的 Transformer 层
通过重新参数化模型权重,将 Transformer 编码器层中的模型权重缩小,可以降低模型大小,减轻设备内存的压力,并在语音处理任务上取得了显著的性能改进。
- EGFE: 在 UI 设计中使用多模态学习进行碎片元素的端到端分组
通过 UI 序列预测的方式,我们提出了一种自动从设计原型中将碎片化元素进行端到端分组的新方法,通过创新性地构建 Transformer 编码器来改善 UI 理解,我们的方法在 4606 个专业 UI 设计师收集的 UI 原型数据集上优于现有 - 利用相似性差异解耦的音频差异字幕生成
对类似但略有不同的音频剪辑进行语义差异描述的音频差异字幕(ADC)是一项新的扩展任务,通过比较一对音频剪辑和强调潜在空间中的差异以提取差异的交叉注意力集中型变压器编码器来解决常规音频字幕生成类似标题的问题。