- CVPR基于语义文本指导的降级感知与交互图像融合技术
借助语义文本引导的图像融合模型,解决了低质量原始图像的退化问题和多重主观客观需求的非交互性。通过文本语义编码和语义交互融合解码器,实现多模式图像和信息的融合,并在图像融合性能和退化处理方面具有明显优势。
- LLM A*:人在循环大型语言模型启用的 A * 搜索用于机器人技术
研究聚焦于大型语言模型如何以人机交互的方式帮助移动体代理(如机器人)的路径规划。提出了名为 LLM A * 的创新框架,旨在利用 LLM 的常识,采用效用最优的 A * 算法来实现少样本近最优路径规划。通过引导 LLM 以求解 ` 白盒 ' - AAMDM: 加速的自回归运动扩散模型
通过综合定量分析和视觉比较,我们展示了加速自回归运动扩散模型(AAMDM)在运动质量、多样性和运行效率方面优于现有方法,并通过消融研究证明了每个算法组成部分的有效性。
- 互动多兴趣流程模式发现
基于多兴趣驱动的交互式框架,该研究旨在发现与用户感兴趣的模式。通过迭代和交互的方法,将专家知识纳入发现过程,从而得到与过程结果相关的有意义的模式,并且在自动设置中可与单个兴趣维度的模式相媲美或更好的预测性能。
- 通过草图细化实现交互式图像修复
提出了一种名为 SketchRefiner 的双阶段图像修复方法,旨在有效利用手绘线描信息以及通过交叉相关损失函数对其进行校准和优化,从而消除由于自由线描造成的伪影和失真,并提高修复质量。
- ShaRP:形状规则化的多维投影
该研究提出了一种新型投影技术 ShaRP,它能够帮助用户在高维数据的可视化中更好地掌控投影形状,以满足交互式可视化场景的需求,并且在保证数据质量的同时,也能够很好地应对高维度和大规模数据集。
- CVPRSimpSON:使用单击分心对象分割网络简化照片清理
本研究提出了一种交互式干扰选择方法,通过单击一次来完成任务,可以有效准确地分割未知的干扰物体,并极大地简化照片清理和修饰过程。
- 使用 GPT 从对话中交互学习分层任务
使用对话作为交互前端的 GPT 模型,学习可解释、符号化的任务,并将其表示为具有作用域变量参数的谓词 - 论元结构的分层分解,从而使得分层任务知识得以在自然、自由的对话环境中被获得和重用。
- SIGIR可编辑用户个人资料用于可控文本推荐
该研究提出了一种基于概念价值瓶颈模型的可控文本推荐系统,将用户表示为人类可读的概念集,通过用户交互文档学习概念的个性化表示,并掌握控制推荐内容的能力,在离线和在线验证中证明其有效性,并进行用户研究以证明可提高推荐质量。
- 轻量级用户反馈交互式日志解析
本文开发了人机交互式模板挖掘框架,支持实时诊断和排除大规模 Web 应用故障,并通过提供三种轻量级用户反馈设计了三种模板挖掘算法。
- 交互式和组合式 Deepfake 的展望
该研究讨论了两种类型的 Deepfakes—— 互动式 Deepfakes 和组合式 Deepfakes,这两种 Deepfakes 的恶意使用将会对社会产生昂贵的影响,并探讨了可能的缓解措施。
- 基于频谱扩散的多乐器音乐合成
本文介绍了利用神经合成器实时生成任意乐器和音符组合的音频,其具有互动性和表现力,使用 MIDI 序列进行训练,采用两阶段过程转换为声谱图,然后通过生成对抗网络(GAN)声谱图反演器将其转化为音频,发现 DDPM 方法在质量和重建等方面具有显 - NewsPod: 自动和交互式新闻播客
本文提出了一个利用最新的自然语言处理和语音合成技术进行自动生成的新闻播客应用,其中具有独特的交互性,通过用户询问问题并自动生成回答,以更好地模拟一种对话式的播客体验。经过两个可用性研究,该系统的设计被证明是可行和受喜爱的。
- AAAI人机交互的机器创造力
该研究探讨了在艺术创作中将人类专业知识与 AI 模型相结合,以实现更具表现力、细腻和多模态的生成作品的方法,并提出 Human-in-the-Loop 的设计,以增加人类与 AI 之间的互动,从而帮助未来的 AI 系统更好地理解我们自己的创 - ICMLRL 交互式调试的可视化
本研究设计和实现了一种交互式可视化工具,用于调试和解释强化学习算法,解决了现有工具在强化学习环境下不适用的问题。
- 一个解释并不能适用于所有情况:交互式解释对于机器学习透明度的承诺
通过交互式机器学习,将对比解释应用于黑盒机器学习系统,个性化调整其条件语句并通过提问 “What if?” 的方式提取更多解释,从而提高系统的透明度。
- CVPRSEAN: 带有语义区域自适应归一化的图像合成
提出语义区域自适应归一化 (SEAN) 的算法,可在生成对抗网络中应用分割掩模控制图像的语义区域样式,具有更好的重构质量和可变性,并可用于交互式图像编辑。
- ICCV交互式素描填充:多类素描到图像翻译
本文提出了一种交互式的基于 GAN 的草图到图像的翻译方法,能够帮助新手用户创建简单物体的图像,通过引入基于门控机制的分类条件方法,可以在不混合特征的情况下从单个生成器网络中生成不同的类别。
- explAIner:一种交互和可解释的机器学习视觉分析框架
该论文提出了一个交互式和可解释的机器学习框架,同时结合了一个迭代的 XAI 管道和八个全局监控机制,通过可视化分析系统 explAIner 在 TensorBoard 环境下执行,增强了用户了解机器学习模型以及发现其局限性、优化和更新的能力 - CVPR交互与传播网络实现快速用户引导的视频目标分割
本文提出了一种基于深度学习的交互式视频对象分割方法,通过卷积神经网络进行交互和传播两个核心操作,并通过新的多轮训练方案,使网络能够学习如何理解用户的意图和更新不正确的估计,实现高质量和快速的分割,并在 DAVIS 挑战赛上跑得更快、更准确,