- 自主系统的空间和社会情境感知基于 Transformer 的轨迹预测
提出了一种基于转换器的轨迹预测模型,通过社交张量将目标代理的位移特征丰富化,考虑和周围代理的社交互动信息,以实现对周围代理的反应预测。
- MM面向图像标注的检索增强架构
通过利用外部的 kNN 内存来改善生成过程,本研究提出了两个模型变体,这些模型变体结合了基于视觉相似性的知识检索器组件、可微分编码器以及基于上下文线索和从外部存储器中检索的文本来预测标记的 kNN 增强语言模型。在 COCO 和 nocap - 适应预训练网络用于高动态范围显示器上的图像质量评估
本研究探索了在高动态范围(HDR)数据上训练深度学习模型进行图像质量评估(IQA)的更有效的方法,并通过添加微调和域适应将基于标准动态范围(SDR)数据的预训练模型重新定位到 HDR 数据,验证了我们的方法优于之前的基准结果,并在 HDR - 神经代码补全模型是否使用了我的代码?一种成员推断方法
我们研究了当前神经代码完成模型的法律和道德问题,通过使用会员推理方法来确定给定代码样本的成员身份。实验证明 LSTM 和 CodeGPT 模型存在会员泄露问题,而 CodeGen 和 StarCoder 模型的数据成员资格很难检测,有待进一 - 合成逼真的数据进行表格识别
基于中国金融公告的表格结构和内容,提出一种用于表格识别的新型注释数据综合方法,利用现有复杂表格的结构和内容,有效地创建接近目标领域中真实风格的表格。借助这种方法,构建了首个广泛的金融领域表格注释数据集,用于训练深度学习的表格识别模型,同时建 - 视频异常检测中的补丁时空关系预测
通过自监督学习和视觉变换网络,提出一种用于视频异常检测的方法,能够有效地保留视频帧的空间和时间上的一致性,并且在三个公共基准测试中表现优于像素生成方法和其他自监督学习方法。
- PAME: 无参考点云质量评估的自监督掩码自编码器
我们提出了一种自监督预训练框架,使用了掩蔽自动编码器,来帮助模型在无标签的情况下学习有用的表示,通过将点云投影成图像并使用双分支自动编码器来重构图像中的遮蔽区域,从而分别学习具有内容感知特征和失真感知特征的映射图像,在模型微调阶段,学习到的 - KARINA: 全球天气预报的高效深度学习模型
KARINA 是一种考虑到计算资源需求的全球天气数据的深度学习模型,通过协同使用 ConvNext、SENet 和 Geocyclic Padding 来提高 2.5 度分辨率下的天气预报准确性,大约 4 个 NVIDIA A100 GPU - 利用无降采样小波包特征和 Transformer 模型进行时间序列预测
该研究综合了小波分析技术与机器学习方法,针对单变量时间序列预测提出了三个主要贡献:考虑使用带有不同消失矩的 Daubechies 小波作为非时态和时态预测方法的输入特征;比较非分解小波变换和非分解小波包变换在计算这些特征时的使用情况;在更广 - ACL模因分析:通过多模态解释增进对网络欺凌的认识
通过提出多模式解释与 CLIP 投影的多模式共享私有多任务方法,首次为混合代码网络欺凌迷因引入了一种鲜明的基准数据集,并通过实验结果证明,训练多模式解释可以提高生成文本解释的性能,并更准确地识别支持决策的视觉证据,从而可靠地提升性能。
- 基于骨干的动态图空时网络用于疫情预测
提出一种名为 BDGSTN 的新模型,通过生成骨干网络和动态图来预测流行病数据,使用线性模型和动态图卷积来处理时间依赖关系,实验证明该模型在准确预测流行病方面优于其他基准模型。
- 合成人脸图像的多通道跨模态检测
通过使用跨媒体聚焦损失函数分析频率和可见光谱中的信息,我们提出了一种用于检测完全合成面部图像的多通道架构,并与几种使用二进制交叉熵训练的相关架构进行比较,在跨模型实验中展示了受跨媒体聚焦损失函数监督的所提出的架构通常具有最具竞争力的性能。
- 量化蒸馏:为资源受限环境优化驾驶员活动识别模型
通过使用知识蒸馏和模型量化来增强 3D MobileNet,该论文介绍了一个轻量级的资源高效驾驶员活动识别框架,通过从较大的教师模型(I3D)获取软标签来降低模型大小,降低内存和计算需求,从而实现模型大小的减小三倍和推断时间提升 1.4 倍 - 基于功能连接的神经障碍诊断的可学习对应病因分析框架
通过采用深度学习模型进行疾病识别和解释模型进行后续分析,我们提出了一个新的统一框架来集成诊断和解释,并通过仿真逆转诊断信息的功能连接来验证其有效性,并在对疾病相关的神经模式进行分析。
- 可解释准确的自然语言理解:为语音助手及其它应用而设计
将完全的联合 NLU 模型在粒度级别上‘本质地’可解释化,以提高准确性,并在情感分析和命名实体识别等其他广义分类任务中成功应用。
- 有限数据下的磁共振成像场迁移重建:神经风格迁移正则化
通过神经风格迁移和去噪引擎,我们提出了一种正则化神经风格迁移(RNST)的方法,用于通过有限数据重建高质量 MRI 图像,并验证了其在 MRI 重建中的能力和在限定数据情况下的潜力。
- 基于不确定性量化的冠状动脉语义标签的超级关联图匹配
冠状动脉语义标记的心脏血管图匹配模型通过将两个独立图之间的动脉分支进行匹配,实现了运用部分标记的动脉段对未标记的段进行分类和冠状动脉的语义标记,从而提高了冠状动脉语义标记的准确度,并在实时临床决策中具有高效的预测能力。
- 基于 StyleGAN2 的医学影像异常检测
利用生成对抗网络(GAN)检测处于训练分布之外的图像,该方法能够在 90% 以上的区分肝脏与非肝脏的情况下识别出分布之外的图像。
- 采用冷因果需求预测模型减轻冷启动预测问题
介绍了基于因果推断的深度学习模型用于提高多元时间序列数据冷启动问题的预测精度,并在 15 个谷歌数据中心的网络流量数据集上进行了实验,证明了该模型比现有的预测模型更为准确。
- 蛋白质 - 配体结合亲和力预测的多任务生物测定预训练
本文提出了多任务生物测定预训练框架 (MBP),该模型结合蛋白质 - 配体复合物的三维结构作为输入来预测蛋白质 - 配体结合亲和力,利用 ChEMBL-Dock 数据集对不同亲和力标签的预测进行多任务预训练,并且分类了相对排名是否来自同一生