- 利用预训练的 ASR 编码器进行有效和高效的端到端语音意图分类和槽填充
通过使用预训练的语音识别(ASR)编码器来初始化端到端(E2E)Conformer-Transformer 模型,本文研究了语音意图分类和槽填充(SICSF),该模型在 SLURP 数据集上实现了新的最高准确度结果,意图准确率为 90.14 - DreamIdentity:提高可编辑性,实现高效面部身份保留图像生成
该论文提出了一种优化自由的面部识别编码器,以在条件面部图像中保留面部标识符,并提出了自我增强的可编辑性学习方法,从而在更快的速度下生成具有不同场景下的保留标识符的图像。
- C3S 微体系结构增强:Spike 编码器块和松弛伽马时钟(异步)
本研究以 Temporal Neural Network 皮層柱 C3S 架構設計為基礎,提出了二進位轉脈衝編碼器與 Gamma 週期控制器的詳細設計,評估了最佳設計參數和整體系統增益與性能,以期貢獻於神經形態計算機架構的進一步改進。
- 一种基于积分投影的语义自编码器用于零样本学习
提出了一种利用积分投影的语义自编码器(IP-SAE)模型,可以有效应用于不同但相关的目标数据分布,从而学习通过一个数据源分布进行嵌入。该模型能够解决因域漂移引起的问题和域变化的偏见,同时在四个基准数据集上表现出超越最新技术的表现。
- AutoSAM:通过重载提示编码器将 SAM 应用于医学图像
本文提出的方法通过使用编码器代替条件图像,在未经过进一步的微调的情况下,使用与多种医学影像和视频基准测试上的最新结果来改进 recently introduced Segment Anything Model (SAM) 的能力,并使用曲测 - 基于领域知识的深度学习药物推荐
本文提出了一种集成领域知识和可观察临床表现的新型 DKINet 框架,用于药物推荐,并设计了一个基于知识的编码器和一个基于数据的编码器,以及一个明确的药物编码器,用于学习患者的纵向依赖关系,并在三个公开数据集上进行了广泛的实验。
- U-Net 设计与分析的统一框架
本文提出了一个设计和分析通用 U-Net 体系结构的框架,介绍了它们在编码器和解码器中的作用,通过预处理与 ResNets 的相关性及其高分辨率缩放极限,为 PDE 模型、图像分割和扩散模型提供了更好的性能,并提出设计新的 U-Net 架构 - 3D 单目标跟踪的相关金字塔网络
本文提出了一种新颖的相关金字塔网络(CorpNet),采用统一的编码器和运动分解解码器,着重解决了如何从稀疏不完整的点云中学习目标感知表征的中心问题。经过实验证明,该方法在两个常用数据集上均取得了最先进的结果,并且具有实时性。
- 利用扩散先验进行实际图像超分辨率
本文介绍了一种新的方法,利用预先训练的文本到图像扩散模型中所包含的先前知识来实现盲超分辨率,并通过引入可控特征包装模块和渐进聚合采样策略来克服扩散模型固定尺寸的限制,实现对任何大小分辨率的适应,并在综合评估中展示了该方法在超分辨率领域的优越 - 面向上下文语言表示的对抗训练
从预训练语言模型的角度调查对抗训练,提出了一种新的 extit {Contextualized representation-Adversarial Training} (CreAT) 方法来全局优化对抗样例,显著提高性能表现,并让它们对超 - 学习同形异义词辨析表示用于神经机器翻译
本文提出一种新的方法来解决神经机器翻译中同形异义词的问题,该方法利用编码器的隐藏状态以及受 WordNet 数据集启发的同义词句子进行 encoder 的微调,从而实现单词级别的同形异义词消歧表示(HDR),最终应用于 transforme - 使用文本到图像扩散模型驯服编码器,实现零微调图像个性化定制
本文提出了一种基于编码器和文本到图像合成模型的方法,用于生成用户定制的对象图像,经过实验验证表明该方法能够产生具有魅力的高质量、多样化和逼真度高的图像。
- 修正常见解缠度测度中的缺陷
本论文提出两种新的基于分类问题的度量方法来评估编码器的解缠能力,这些度量方法解决了现有度量方法中的两个缺陷,并且发现这些度量方法与组合概括任务的表现强相关。
- 非冷静,非沉着,非收集:使用情感语言检测 COVID-19 虚假信息
本文介绍了一种结合情感编码和 COVID-19 虚假信息编码的新型 COVID-19 虚假信息识别模型,实验结果表明其比单独使用虚假信息分类器具有更好的效果,并对标签分布不匹配等局限性进行了分析。
- 视频预训练 Transformer:多模态预训练专家混合
本论文提出了一种名为 VPT 的模型,该模型使用多个编码器模型从视频中提取紧凑的嵌入向量,通过预测 YouTube 视频中的语音来训练,并在标准的下游任务基准测试中达到了最先进水平,并在模型中添加了更多的模态信息。
- 重新发现 CNN 在原始电子病历文本编码中的多功能性
本文利用具有层级结构的卷积神经网络对电子健康记录进行编码,提高临床任务执行的性能和内存利用率,并通过广泛实验给出实际操作指南。
- 面向文本 OOD 检测的无监督分层得分聚合
本研究探讨了对于文本异常检测,如何选择最佳层数进行计算,提出了一种数据驱动无监督方法来组合常常输出的异常得分,并在包含更多分类任务的基准测试中验证结果。
- 视觉语音识别只需拟态
提出采用线性视觉前端结合更大 Conformer 编码器来实现更低的延迟,更高的内存效率和更好的 WER 性能,从而达到新的 TED LRS3 数据集上的视觉语音识别的最佳性能。
- 基于表示学习和领域自适应的跨领域少样本关系抽取
该论文介绍了一种结合少样本学习和领域适应思想的方法,使用表示损失和对抗损失来提取源域和目标域中的句子关系,从而解决跨域少样本关系抽取问题,并在 FewRel 数据集上证明了其优越性。
- AAAIMicroAST:超快超分辨率任意风格迁移
本论文提出了一种称为 MicroAST 的新型超快速任意风格迁移模型,基于两个微型编码器和一个微型解码器,并引入了一种新的风格信号对比损失以提高风格编码器的处理能力。与现有方法相比,MicroAST 在速度和模型大小上的优势显著,首次实现了