- 基于深度学习的盲图像超分辨率:迭代核重建和噪声估计
本研究提出了一种名为 IKR-Net (迭代核重构网络) 的方法,通过使用专门的深度模型进行迭代的核和噪声估计以及高分辨率图像重建,提供了一种通用解决方法,能够处理输入低分辨率图像中任意类型的模糊和噪声,并在盲目单图像超分辨率中取得了最先进 - 大型语言模型能从错误中持续演进
通过 “从错误中总结” 的学习技巧,我们提出了继续从错误中演进的方法 (CEM) 来实现对大型语言模型的迭代改进,从而解决其知识缺陷问题。我们通过采集涉及问题相关的知识的多个数据源,进行连续、有针对性的知识更新和补充,同时开发了两种策略来构 - CVPRDiaLoc:一个迭代式的具身对话定位方法
DiaLoc 是一种新的基于对话的定位框架,通过迭代细化位置预测来可视化每次对话后的当前姿态,有效地利用多模态数据进行分步定位。DiaLoc 在单次拍摄(ValUnseen 准确率 + 7.08%)和多次拍摄(ValUnseen 准确率 + - 利用位置编码进行鲁棒的基于多参考点的物体 6D 姿态估计
准确估计对象的姿态在计算机视觉和机器人领域是一项关键任务。本文分析了现有方法的局限性,并提出了克服这些局限性的新策略。我们使用了高频成分的位置编码来解决几何表示模糊的问题,并引入了一种基于规范化图像平面的多参考点迭代细化策略来解决细化方法中 - Diff-PCR:基于扩散的点云配准中的双随机矩阵空间对应搜索
利用去噪扩散模型在双随机矩阵空间内预测最优匹配矩阵的搜索梯度,沿着这个梯度迭代地寻找更好的解,以提高点云配准的效果。
- DrugAssist:一个用于分子优化的大型语言模型
通过人机对话,结合大型语言模型的强交互性和泛化性,提出了 DrugAssist,一个用于分子优化的交互式模型,成功在单一和多个性能优化方面取得了领先的结果,同时展示了潜在的可迁移性和迭代优化的巨大潜力。
- 精准指点,而非批评:通过精细的可操作反馈改进大型语言模型
使用细粒度的可行操作反馈,基于学习的错误定位模型预测的错误类型、错误位置和严重程度,提出了 FITO(一种推理时间优化方法)来进行迭代改进,通过一个生成改进输出的改进模型,迭代地结合反馈。我们在三个文本生成任务上进行了实验,包括机器翻译、长 - 借鉴过去:利用回顾性学习进行 Python 代码补全
这项工作提出了过去作为指南(PaG),这是一种用于大型语言模型(LLMs)的简单方法,通过将过去的历史与交互和迭代的代码改进相结合,提高编码能力。具体而言,受人类认知过程的启发,该方法使 LLMs 能够利用以往的编程和调试经验,提升 Pyt - 学习可叠加和可跳过的乐高积木,用于高效、可重构和可变分辨率漫射建模
这项研究引入了乐高积木,通过无缝地整合局部特征增强和全局内容编排,设计了一种高效灵活的网络主干,用于迭代改进。乐高积木可以在测试时重新配置扩散主干,通过选择性跳过积木来减少采样成本并生成比训练数据分辨率更高的图像。实验结果表明,乐高积木提高 - ICCV迭代原型的手语翻译
该论文介绍了 IP-SLT,这是一个简单而有效的手语翻译框架,通过迭代改善方式,增强了输入手语视频的语义表达(原型)。通过特征提取、原型初始化和迭代原型改进,IP-SLT 能够准确理解手语,并将其流畅和恰当地翻译成文本。
- 回顾式大型语言代理人优化的政策梯度的 Retroformer
通过学习出具有回顾性模型的基于政策梯度的大型语言代理(language agent),我们的方法在多个环境和任务中学习奖励,以优化代理的性能,并取得了比基准方法更好的结果。
- CVPRDIFT: 用于内存高效光流的动态迭代场变换
本文介绍了一种轻量级低延迟和内存高效的动态迭代字段变换(DIFT)模型,适用于移动、增强现实、微型无人机、机器人和相机等边缘应用的光流估计,通过迭代精炼框架利用不同分辨率的代价体来实现。在 Snapdragon 8 Gen 1 HTP AI - 嵌套扩散过程用于实时图像生成
本研究提出了一种基于扩散模型的任意时间图像生成方法,使用两个嵌套扩散过程进行快速迭代细化,并允许根据用户的瞬时偏好进行灵活调度。在 ImageNet 数据集和稳定扩散的文本到图像生成实验中,我们显示了我们的中间生成质量大大超过原始扩散模型, - ACL一种以用户为中心,交互式,人机交互主题建模系统
开发了一种新型交互式人机协同的主题建模系统,支持对语料库特定方面的主题建模,具有易于使用的界面、记录与比较功能以及主题词推荐功能,经过多次用户研究验证,该系统在主题建模中的应用具有显著价值。
- 一张 RGB 图像交互式双手重建的解耦迭代细化框架
本文提出了一个分解迭代框架来实现像素对齐的手部重建,同时有效地建模手部之间的空间关系,利用图卷积网络和变压器在 3D 联合特征空间中进行手部内部和交互信息交互,并通过在两个特征空间中进行多个交替增强来实现精确和稳健的相互作用手部重建。 与所 - CVPR统一的金字塔循环网络用于视频帧插值
UPR-Net 是一种基于光流和轻量级循环模块的新型统一金字塔递归网络,采用迭代合成策略和双向光流估计来提高大运动情况下的帧间插值鲁棒性能。
- 作为定点的对象表示:使用隐式微分训练迭代改进算法
该论文探讨了通过迭代重构来打破数据中对称形式的应用到实体集合的表征学习中,应用隐函数定理实现了对这一过程的可微分性的改进,在保证时间和空间复杂度稳定的同时优化了 SLATE 模块中的槽关注的学习。
- 学习模拟编辑过程
本文提出了一种通过多步编辑的方式,建立生成序列的生成模型,以及训练该模型的神经网络,并基于多步编辑提出了基础结果和度量标准。实验结果表明,所提出的模型在相关下游任务上的表现优于以往单步编辑模型的表现。
- CVPR迭代深度单应矩阵估计
本文提出了迭代单应性网络(IHN),一种新的深度学习单应性估计架构,通过可训练的迭代器和多尺度方法可以实现对静态场景和动态场景中移动目标的高精度估计。实验表明,IHN 可以实现 95%的误差减少和 32.7fps 的处理速度。
- CVPR移动窗口回归:一种新的序回归方法
本文提出了一种新的序数回归算法 —— 移动窗口回归 (MWR)。在算法中,我们设计了基于相对排序的表示模式、全局与局部相对回归模型以及迭代式的排名估计方法。实验结果表明,该算法在面部年龄估计和彩色图像分类等多个数据集上均取得了最先进的表现。