- 鉴别性哈密顿变分自编码器在数据稀缺情况下精准肿瘤分割
通过提出基于 Hamiltonian 变分自动编码器(HVAE)和区别性正则化的新的端到端混合架构,我们的方法可以准确估计图像和蒙版的联合分布,从而生成具有较少伪影和离群实例的逼真医学图像。通过在丰富增强的数据集上以切片方式操作,我们的架构 - Samba:高效无限上下文语言建模的简单混合状态空间模型
Samba 是一种简单的混合架构,使用 Mamba(一种选择性状态空间模型)与滑动窗口注意力机制(SWA)相结合,以有效地建模具有无限上下文长度的序列,并实现了完美的内存回忆。
- Dimba: Transformer-Mamba 扩散模型
该论文介绍了 Dimba,一种新的文本到图像扩散模型,它采用了一种独特的混合架构,结合了 Transformer 和 Mamba 元素。
- ICLR高效视觉网络调制
通过高效调制机制和高效调制设计,本研究提出一种高效视觉网络来在准确性和效率之间取得更好的折衷,并在有效网络中创造了最新的最佳性能。
- SpeechCLIP+: 自我监督多任务表示学习:用于语音的 CLIP 和语音 - 图像数据
通过替换固定数量的 CLS 令牌,基于 Continuous Integrate-and-Fire 模块的级联 SpeechCLIP 模型在语音关键词提取任务中优于之前的级联 SpeechCLIP 模型。此外,通过混合架构,级联任务学习提升 - Transformer-CNN 融合架构用于增强皮肤病变分割
通过融合 transformers 和 CNNs,我们提出了一种混合架构用于医学图像分割,旨在克服 CNNs 在捕捉全局依赖性和局部空间细节方面的局限性。我们通过比较各种架构和配置,并进行多次实验来评估它们的有效性。
- 单一与综合多光谱航空影像的融合
使用混合架构,通过从合成孔径感测得到的整体空中图像和传统空中图像提取最重要的特征,以消除由于茂密植被引起的遮挡。该方法结合了环境的空间参考和无遮挡目标的特征,不需要手动调整参数,可以扩展到任意数量和组合的光谱通道,可根据不同用例进行重新配置 - TEC-Net: 视觉 Transformer 集成卷积神经网络用于医学图像分割
本研究采用混合卷积神经网络和 Transformer 的混合结构,提出了一种具有自适应特征提取能力和具有全局信息建模的方法,用于医学图像分割。实验结果表明,该方法比现有的方法具有更好的医学图像分割结果。
- 真相与唯一的真相:使用数据流传输和受限解码的忠实可控对话响应生成
介绍了一种基于规则式与神经式语言生成结构的对话回复生成方法,该系统在流畅性,相关性和真实性方面在人类评估中的性能都优于基于规则式和学习式的方法。
- IARPA OpenASR21 挑战中的 THUEE 系统描述
该论文介绍了 THUEE 团队为 IARPA OpenASR21 挑战赛开发的语音识别系统,包括使用基于混合体系结构的 ASR 系统、使用 Grapheme-to-Phoneme 技术扩展发音词典来缓解词汇外问题、使用 self-super - 用图神经网络进行粗粒化分子动力学模拟
通过引入混合架构来学习分子动力学中的粗粒化力场,以便于能够将粗粒化力场转移到分子系统之间,从而进一步加速模拟的过程。
- 学习分支的混合模型
本文提出了一种基于 GNN 和 MLP 的混合模型,可在没有高端 GPU 的情况下有效地优化 Mixed Integer Linear Programming 问题求解器的性能。
- HyGCN:一种具有混合架构的 GCN 加速器
本文提出一种基于混合架构的 GCN 加速器 HyGCN,该加速器在处理 GCNs 时具有细粒度的并行性,利用两个处理引擎来缓解 Aggregation 阶段的不规则性和 Combination 阶段的规则性,并通过间相位融合和基于优先级的内 - 参数化动作空间中的混合演员 - 评论家强化学习
介绍了一种混合体结构的深度强化学习算法,其包含多个并行的子演员网络和一个评论家网络,可以将结构化的行动空间分解为更简单的行动空间,并指导所有子演员网络的训练。该算法在参数化行动空间中展示了出色的表现。
- 利用长短期记忆网络对高维混沌系统进行数据驱动的预测
使用基于数据驱动的长短时记忆(LSTM)循环神经网络的预测方法,展示了该方法在高维混沌系统中的定量预测效果,并提出了一种新的具有混合结构的 LSTM 神经网络。与高斯过程相比,LSTM 在所有应用中都表现出更好的短期预测准确性,并且 MSM - AAAI高层诱导下的可视化解释:基于答案集编程的机动物体推理
我们提出了一种混合架构,用于系统地计算关于视频数据的鲁棒视觉解释,其中包括假设形成,信念修正和默认推理,并且由紧密集成的两个协同构成:以时间 - 空间为基础的踪迹上的函数回答集规划的诱导推理和基于检测的对象跟踪和动态分析的视觉处理流程。
- 文本生成的混合卷积变分自编码器
本文探讨了建筑选择对于学习文本生成变分自编码器(VAE)的影响。与之前引入的使用 RNN 的 VAE 不同,本文提出了一种新颖的混合架构,将完全前馈卷积和反卷积组件与递归语言模型混合在一起。我们的架构具有几个有吸引力的属性,如更快的运行时间 - 学习导航能量景观
本文提出一种新颖高效的架构,用于解决使用 “分析与合成” 方法的计算机视觉问题,并在 RGB 相机重定位、手姿估计和图像检索任务上展示了其有效性。
- 卷积网络和图形模型联合训练的人体姿态估计
本文提出一种新的混合架构,并将其成功应用于单眼图像中的人体姿态估计等领域,同时提出了联合训练的想法以提高性能并明显超越现有技术。