BriefGPT.xyz
大模型
Ask
alpha
关键词
visual tokenizer
搜索结果 - 3
语言模型领先于扩散 - 分词器是视觉生成的关键
通过引入 MAGVIT-v2 作为视觉分词器,本文展示了大型语言模型(LLMs)在图像和视频生成上优于扩散模型,并超越以前在视频压缩和动作识别任务中表现最佳的视频分词器。
PDF
9 months ago
动态离散视觉标记的统一语言 - 视觉预训练
最近,大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言,突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散
→
PDF
10 months ago
iBOT: 在线分词的图像 BERT 预训练
本研究研究了掩蔽图像建模,并指出在使用语义上有意义的视觉分词器时的优势和挑战,提出了一种自我监督的框架 iBOT,可以使用在线分词器执行掩蔽预测。研究表明,iBOT 可以获得显着的结果,并在图像分类和下游任务中获得领先的结果。
PDF
3 years ago
Prev
Next