- 文本可追溯视觉再现的新基准
本研究构建了一种基于文本和视觉推理的控制生成图像的方法,其中通过新构建的 CLEVR-NOT 数据集和手动制作的 Fruit-NOT 数据集对模型的准确性和行为进行了详细分析,旨在提高文本图像生成模型的可控性和可解释性。
- 钻井操作中早期卡钻迹象的半监督检测方法
该研究提出了一种实时卡钻预测方法,使用自动编码器和变分自编码器将常规钻井数据训练多种模型,以捕捉局部正常行为,应用于钻井数据集时,具有比监督方法更好的性能和鲁棒性,需要使用多种模型来提高性能表现。
- 一种几何感知的自编码器,用于多纹理合成
本研究提出了一种自编码器体系结构,可以用于多纹理合成。该方法依赖于同时考虑二阶神经统计和自适应周期性内容的紧凑编码器和生成器,将图像嵌入一个紧凑和几何一致的潜空间,在这个空间内实现纹理表示和其空间组织的解耦。实验结果表明,该模型在视觉质量和 - 面向可计算验证的语言模型语义基础研究
本文提出了一种语义基础的语言模型方法,将语言模型嵌入到自编码器中,在保持语义解析器冻结的同时通过采样和训练提高了自动生成的文本的流畅度和语义准确性,使用 BLEU 分数和标准解析度量在 English WebNLG 3.0 数据集上进行实验 - 良性自编码器
该研究证明了通过压缩数据维度以实现数据表示和压缩的有效性,并提出了一种普遍适用于非凸问题的优化算法(BAE),使得压缩模型输入有利于模型性能,并提出了一种用于计算 BAE 的高效算法,测试表明 BAE 能够提高模型在各类数据中的性能,并提高 - 使用互信息机器改进小分子生成
该论文提出一种基于自编码器和互信息机器学习的方法 MolMIM,用于小分子药物发现领域的分子生成和优化,并使用 CMA-ES 算法在 MolMIM 潜在空间中进行性质引导的分子优化任务,取得了优异的结果。
- DAPDAG: 基于扰动有向无环图重构的域自适应
介绍了一个利用自动编码器进行领域自适应的框架 DAPDAG,该框架通过推断统计属性并重构定向无环图作为辅助任务来更好地对多个领域的标记数据进行预测。在合成和真实数据集上的实验表明,重构定向无环图有助于提高近似推断的能力,并且我们的方法在预测 - 探究口罩重建预训练为何对下游任务有所帮助
该论文研究了在无监督预训练中,通过使用自编码器结合随机遮盖的方法,可以更好地提取语义特征,从而应用于监督微调,实现更好的性能表现。
- CVPR减少 Transformer 多元图像修复中的信息丢失
提出了一种新的基于 Transformer 的框架 PUT,其中包括自动编码器 P-VQVAE 和无量化 Transformer(UQ-Transformer),以尽可能保留输入信息并消除量化所引起的信息丢失。
- ACL无监督文本风格转移的鲁棒和语义组织潜在表示
该研究提出了一种基于 EPAAEs 的方法,通过在连续嵌入空间中添加一个可调整噪音组件来完善扰动模型,从而更好地聚类风格相似的句子,且在文本风格转移任务上表现优异,同时还将文本风格转移任务扩展到 NLI 数据集,并证明了该方法最适合学习具有 - CVPR深度点云压缩保密度
本研究提出了一种新型深度点云压缩方法,可以有效保留本地密度信息,采用自动编码器的方式进行降采样和上采样操作,通过密度嵌入、本地位置嵌入和先祖嵌入等方式编码点云局部几何和密度,并在解码时预测每个点的上采样因子和方向尺度,同时也可以压缩点云属性 - CVPR非监督视频分解的可变形精灵
本文提出了一种从动态场景中提取持久元素的方法,采用 Deformable Sprite 作为场景元素的表示,实现了一些应用如一致的视频编辑。Deformable Sprites 是一种视频自编码模型,它是针对单个视频进行优化的,不需要大规模 - CVPR深度量化的隐性特征解耦
通过使用 Depthwise Quantization 方法对特征轴上的分解子张量进行量化,增加了表现能力,同时在现有编码器 - 解码器框架中可以直接应用,提高了对 CIFAR-10、ImageNet-32 和 ImageNet-64 的似 - Pix2NeRF: 单图像生成神经辐射场的无监督有条件 π-GAN
本文提出了一种基于神经辐射场的管线,能够生成特定类别物件或场景的 NeRF, 并能够利用自动编码器构建无监督的 3D 感知图像合成模型,特别是能够基于单张图像进行物体视角的生成。
- PolarDenseNet:MIMO 系统中 CSI 反馈的深度学习模型
本文提出了一种基于自编码器架构的基于 AI 的 CSI 反馈方法,通过将 CSI 编码成低维度潜空间并在 BS 处解码回来来有效地减少反馈开销,同时最小化恢复期间的损失,仿真结果表明,该 AI-based 建议的架构优于采用 5G New - iCaps: 迭代式类别级物体姿态和形状估计
本文提出了一种基于自编码器、粒子滤波和 LatentNet 的类别水平 6D 目标姿态和形状估计方法,可用于跟踪类别中未见过的物体的 6D 姿态和估计它们的 3D 形状。
- 利用记忆和对比学习进行无监督异常检测
研究了利用特征空间中异常值与正常值的距离进行异常检测,提出了一种名为 MCOD 的框架,结合记忆模块和对比学习模块。实验证明,该方法在四个基准数据集上表现良好,优于其他九种最先进的方法。
- 基于模型驱动的深度学习技术的毫米波海量混合 MIMO 系统通道估计及反馈
本文提出了一个基于深度学习的模型驱动的通道估计和反馈方案,适用于宽带毫米波巨型混合多输入多输出系统,利用角度 - 时延域通道的稀疏性来减少开销。
- 使用元原型网络学习视频中的正常动态
本篇论文提出一种基于动态原型单元(DPU)和元学习的视频异常检测方法,通过对正常场景进行实时动态编码,能够高效处理新场景数据,并在多个基准测试中获得表现优异的效果。
- AAAI深度语义词典学习用于多标签图像分类
本文提出了一种新颖的端到端模型 DSDL,将多标签图像分类问题视为字典学习任务,利用自动编码器将类级语义生成语义词典,利用字典表示 CNN 提取的视觉特征,同时通过 APUS 算法优化,为多标签图像分类问题提供了一种简单而优雅的解决方案,与