- ACL大语言模型中的语言普适性有多抽象?论阐探有关论证结构
Transformer-based large language models perform well in generalizing word distributions in related contexts seen during - L2MAC:大型语言模型自动计算机无限编码生成
Transformer-based language models are limited by a fixed window size, but this paper proposes L2MAC, a memory-augmented - ICML太阳影像的多光谱熵约束神经压缩
提出了一种基于变压器的多光谱神经图像压缩器,通过使用窗口聚合令牌多头自注意力机制捕获跨波长的冗余信息,使用随机平移窗口注意力机制使神经压缩器对输入域的平移不变,展示了该方法在多个波长上比传统压缩算法更好地去相关图像。
- CircleFormer:基于圆查询和注意力的全切片图像圆形核检测
本文介绍了一种基于 Transformer 和动态锚圈的圆形医学目标检测方法 CircleFormer,并通过 MoNuSeg 数据集上的实验证明其在圆形核分割任务上的优越性能。
- 释放自监督图像去噪的力量:一份综述
深度学习为图像去噪技术带来了革命性的转变,本文聚焦于自监督图像去噪方法,对最新的方法进行了全面的分析和分类,并提供了理论分析和实际应用,同时讨论了这些方法的局限性并提出了未来研究的方向。
- YOLOPose V2:基于 Transformer 的 6D 姿态估计的理解与改进
基于 Transformer 的 YOLOPose 模型通过关键点回归和改进的方式实现多目标 6D 姿态估计,适用于实时应用,并达到与最先进方法相媲美的效果。
- MSQNet: 多模态查询下的无关角色行为识别
现有的行动识别方法通常是针对特定的演员,这是由于演员之间的内在拓扑和显而易见的差异造成的。我们提出了一种称为 ' 演员不可知的多模多标签行动识别 ' 的新方法,以统一解决包括人类和动物在内的各种演员类型的问题。我们进一步在一种基于 Tran - 人类基因核苷酸序列的生成式语言模型
开发类似 GPT-3 的自回归生成语言模型用于 DNA 序列,研究了 RNNs 和 N-grams 在处理人类基因中的核苷酸序列时的表现以及选择具有最小词汇量的语言对数据需求的影响。
- 多模态生成预训练
本文介绍了 Emu—— 一种基于 Transformer 的多模态基础模型,它可以在多模态语境中无缝生成图像和文本。该模型可通过单一模型进行全自回归训练,将任何单模态或多模态数据输入混合 (例如,交错的图像、文本和视频),并表现得十分出色。
- 使用对比奖励提升基于参考的独特图片描述
该研究提出了新的 Ref-DIC 基准和基于 Transformer 的 Ref-DIC 模型 TransDIC 及 TransDIC++,并采用新的指标 DisCIDEr 评估其生成字幕的准确性和独特性,实验结果表明 TransDIC++ - 预训练语言模型在土耳其地址解析中的比较
本文研究了使用 Transformer 模型 Bert、DistilBert、ELECTRA 和 RoBERTa,以及多层感知器 MLP 对土耳其地图数据进行多语言和土耳其语 fine-tune 的实验,结果表明土耳其语特定模型与多语言 f - 基于上下文的语音修补:以视频为导向的语音合成
本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题,该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型,同时说明了使用 AV-HuB - SmartTrim:用于高效视觉语言模型的自适应令牌和参数剪枝
提出了一种智能修剪方法 SmartTrim,通过在模型中集成轻量级修剪模块,对冗余输入和参数进行任务特定修剪,不需要额外的预训练或数据增强,利用跨模态交互信息提供更重要的语义指导,以达到资源受限场景下更好的效率 - 性能平衡。
- 基于 Transformer 的语音自动识别模型,考虑词汇语义的非自回归模型
提出了一种基于 Transformer 的、有词汇感知的自动语音识别框架,可以同时训练语音和文本数据,并松弛条件独立性,实现更快的解码速度和较好的性能。实验结果表明,该模型比其他最近提出的非自回归 ASR 模型更具优越性,并且比大多数非自回 - 基于 Transformer 的变率图像压缩与感兴趣区域控制
本文提出了一种基于 transformer 学习的图像压缩系统,通过使用 prompt generation 网络,支持 RO I 功能,并允许同时实现可变速和 ROI 编码。实验结果表明,该方法优于其他竞争方法。
- TransCAR: 基于 Transformer 的摄像头和雷达融合技术用于 3D 物体检测
该研究提出一种基于 Transformer 的摄像头和雷达融合方案 TransCAR,用于 3D 物体检测,并通过 set-to-set 的匈牙利损失估计每个查询的边界框,最终在挑战的 nuScenes 数据集中得到了优越的实验结果,超越了 - 基于音频驱动的面部动态表情多样而逼真的生成技术
DIRFA 是一种新的方法,可以通过基于 Transformer 的概率映射网络生成出同一音频驱动下具有多样化但真实面部动画的语音合成人脸,并能通过源图像使用通用生成网络合成出逼真的说话人脸。
- 从常规电子健康记录中整合成像和潜在临床特征的纵向多模态变压器用于肺结节分类
使用基于 Transformer 的多模态策略,将电子健康记录中的临床特征和胸部 CT 扫描图像进行无监督解开耦合,并利用时间 - 距离缩放的自注意力来共同学习其表达式,从而实现 SPN 分类的高效准确。
- EVA-02:新世纪福音战士的视觉展现
通过使用 EVA-02,一款基于 Transformer 的视觉表示预训练算法,研究人员证明其在各种代表性视觉任务中具有卓越的性能,并且使用更少的参数和计算预算。
- GPT-4 技术报告
本文介绍了 GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4 表现出人类水平的性能。