- Cones 2: 多主体定制图像合成
研究在多个主题约束下如何高效地表示一个特定主题以及如何适当地组合不同主题,并提出了一种方案,该方案利用文本嵌入和布局来生成图像,并通过实验证明了其在多个主题的自定义方面具有优越性。
- Mix-of-Show: 为扩散模型的多概念定制提供低秩自适应去中心化方案
本文提出了一种名为 Mix-of-Show 的新框架,它采用嵌入分解的 LoRA (ED-LoRA) 和梯度融合来处理多客户端单一概念调整和中心节点概念融合中的概念冲突和身份丢失问题,同时引入区域可控采样以扩展空间可控采样以解决多概念抽样中 - 从一张图像中提取多个概念
本文提出了一种文本场景分解任务,并介绍了一种基于掩模增强的输入方法和一个新颖的两阶段自定义过程,用于针对生成图像中的特定概念进行微调,并使用多种自动度量标准和用户研究,验证了该方法的有效性。
- CVPR使用定制扩散模型进行文本引导的图像编辑
该研究提出了一种名为 Custom-Edit 的文本导向图像编辑方法,使用少量参考图像进行模型自定义,可以显著提高引用相似性同时保持源相似性,适用于各种数据集。
- 定制化文本到图像生成的细节保留增强:一种无正则化方法
通过建立一个包含编码器网络和新型的采样方法的框架,该文提出了一种用于文本到图像生成的自定义方法,无需使用规范化方法来解决过拟合问题且可以在很短的时间内自定义大规模的文本到图像生成模型。实验证明,该方法优于现有的方法,并保留更多的细节信息。
- 人工智能的最终用户开发:一项系统文献综述
本文介绍了一个系统性文献综述,旨在探讨当前 End-User Development 对于人工智能系统的景观,即如何使用户即使没有 AI 和 / 或编程技能,亦可定制 AI 行为以满足其需求。本研究还讨论了 EUD 面临的当前挑战,潜在的益 - Continual Diffusion:使用 C-LoRA 实现文本到图像的持续个性化
本研究提出了一种新的方法 C-LoRA,用于解决文本到图像连续定制中的遗忘问题,并取得了良好的效果,为各种应用开启了新的可能性。
- 使用文本到图像扩散模型驯服编码器,实现零微调图像个性化定制
本文提出了一种基于编码器和文本到图像合成模型的方法,用于生成用户定制的对象图像,经过实验验证表明该方法能够产生具有魅力的高质量、多样化和逼真度高的图像。
- AAAI构建下一代文档阅读器
通过添加基于 NLP 技术的 18 个功能和提出一个新的插件市场来增强用户的理解能力和改善电子阅读体验,并提供 3 个用户界面的探索性原型,这是下一代文档阅读器的愿景。
- MM基于动作条件的即时运动生成
提出了一种新的框架 ODMO,用于仅以动作类型为条件生成逼真且多样化的长期 3D 人体运动序列,并具有自定义功能。该编码器使用对比学习来创建运动序列的分层嵌入,解码器使用分层解码策略,使得整个运动序列的木乃伊能够被重构,从而实现了有效的运动 - EMNLP无监督的多粒度摘要
本文介绍了第一个无监督的多粒度文本摘要框架,GranuSum。使用事件作为源文件的基本语义单元并通过它们的显著性对其进行排序,我们开发了一种模型,以给定事件作为锚点和提示来摘要输入文档,并且 GranuSum 能够以无监督的方式生成多粒度摘 - ICML锚定词互动主题建模
本文介绍了一种协议,它允许用户与锚定词进行交互以构建定制和可解释的主题模型,并提供了实验证据来证明我们方法的实用性。
- 降低复杂机器人软件的准入门槛:以 MoveIt! 为案例研究
降低使用机器人软件框架的门槛,通过使用 MoveIt! 框架的最佳实践,包括图形界面辅助配置、使用标准化机器人模型等,可以帮助用户快速获得基本运动规划功能,并自动化配置和优化组件,以及容易地定制其组件