SEGIC: 在上下文中释放出的新出现对应方法实现的分割
通过 In-Context Learning (ICL) 实现的 SegICL 是一种新颖的方法,它能够在无需训练或微调的情况下,利用文本引导分割和上下文学习来应对在分布之外的数据模态和任务上的新分割任务。实验结果表明,SegICL 能够有效地利用上下文信息来处理新的分割任务,并在在分布和分布之外的任务上展示出可比较的分割性能。
Mar, 2024
新的简单视觉上下文学习(ICL)方法 SimICL 结合被设计用于自监督学习的屏蔽图像建模(MIM)对配对图像进行视觉 ICL,成功地在具有有限注释的腕部超声数据集上验证,对于骨骼结构分割取得了非常高的 Dice 系数(DC)和 Jaccard 指数(IoU),并能减少图像标注需要的人工专家时间,提高超声图像分析中人工智能辅助的实际应用。
Feb, 2024
本研究提出了一种新的生成图像压缩方法:EGIC。该方法能够从单一模型有效地穿越失真 - 感知曲线,并提出了一种隐式编码的图像插值变体,通过预测均方误差优化和 GAN 优化解码器输出之间的残差来控制基于 GAN 的重建结果,性能优于多种以感知或失真为导向的比较方法,并几乎与失真端的 VTM-20.0 相媲美。EGIC 实现简单、非常轻量级,并具有出色的插值特性,是应用于低比特范围的实际应用中有很大潜力的候选方法。
Sep, 2023
通过引入 Point-In-Context(PIC)框架,利用 in-context learning 解决 3D 点云的任务,同时提出了增强版 PIC-S,通过动态上下文标签和额外的上下文对提高模型性能和泛化能力。
Apr, 2024
我们提出了一种称为 In-Context Translation (ICT) 的通用学习框架,用于统一视觉识别、图像处理和条件图像生成。ICT 通过统一减少了特定任务模型设计所带来的内在归纳偏差,并最大程度地增强了相似任务之间的相互促进。在实验中,ICT 统一了十个视觉任务,并在各自的基准测试中展示了令人印象深刻的性能。与其竞争对手(例如 Painter 和 PromptDiffusion)相比,仅使用 4 台 RTX 3090 GPU 对 ICT 进行训练的效率更高且成本更低。
Apr, 2024
SegGPT 是一个通用的模型,通过将各种分割任务转换为图像格式,将多个分割任务统一为一个框架,并通过随机颜色映射的上下文涂色问题进行训练。该模型可以在图像或视频分类下进行任意分割任务,并在各种任务中表现出强大的能力,包括少样本语义分割、视频对象分割、语义分割和全景分割。
Apr, 2023
我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架,通过将文本和视觉提示量化和嵌入到统一的表示空间中,并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明,我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言,我们的研究在统一多模态上下文学习方面迈出了进一步的一步。
Dec, 2023
通过对现代视频对象分割技术的可视化上下文学习方法进行改进,我们提出了一种用于图像分割的上下文学习方法,并通过在支持集大小和不同分割数据集上进行评估,验证了该方法在效果上超越现有技术,并在包含训练集未遇到的类别的数据上表现出色,另外我们还提出了一种支持集选择技术,通过选择最相关的图像来提高各种测试方法的性能,而无需进行额外的训练或提示调整。
Dec, 2023
通过上下文学习来进行骨架序列建模是一种新的视觉与自然语言处理多任务建模方法,本文提出了一种名为 Skeleton-in-Context (SiC) 的有效框架用于骨架序列的上下文建模,实现了多种基于骨架的任务的同时执行,并且可以根据给定提示进一步推广到新的未见任务。
Dec, 2023
本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg,通过无需密集标注的方式,利用网络上自然存在的图像和文本数据,学习到能够直接分割任意开放世界类别对象的能力,实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。
Jul, 2022