太一扩散・记者：运用大型视觉语言模型推进双语文本到图像生成

Jan, 2024

太一扩散・记者：运用大型视觉语言模型推进双语文本到图像生成

Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support

Xiaojun Wu, Dixiang Zhang, Ruyi Gan, Junyu Lu, Ziwei Wu...

TL;DR通过扩展 CLIP 和 Stable-Diffusion-XL 的能力，我们开发了一种新的中英双语文本到图像模型 Taiyi-Diffusion-XL，该模型在中英双语图文检索和图像生成方面都表现优异，填补了开源模型领域中对双语或中文支持的重要缺口。

Abstract

Recent advancements in text-to-image models have significantly enhanced image generation capabilities, yet a notable gap of open-source models persists in bilingual or →

text-to-image models bilingual chinese language support taiyi-diffusion-xl image generation

发现论文，激发创造

AltDiffusion: 多语言文本到图像扩散模型

AltDiffusion 是一种新颖的多语种 T2I 扩散模型，它支持 18 种不同语言，并且在生成高质量图像方面优于现有的 T2I 模型，尤其是在理解文化特定概念方面。

Aug, 2023

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024

CLIP-VQDiffusion: 基于 CLIP 和向量量化扩散模型的无语言训练文本生成图像

本文提出了利用预训练的 CLIP 模型来实现多模态文本 - 图像表示和强大的图像生成能力的 CLIP-VQDiffusion 模型，在 FFHQ 数据集上，该模型的 Clipscore 得分超过了之前最先进的方法 4.4%，并且即使在分布内外的情况下，生成的图像也非常逼真。

Mar, 2024

Taiyi: 一个用于多样化生物医学任务的双语精调大型语言模型

通过在不同语言中进行精细调整的 Taiyi 模型，在多样化生物医学任务中表现出卓越性能，包括命名实体识别、关系抽取、文本分类和问答任务。

Nov, 2023

iDesigner: 高分辨率复杂提示下的文本到图像扩散模型的室内设计

我们在设计领域收集和优化文本 - 图像数据，并在开源 CLIP 模型的基础上进行中英文训练。我们还提出了一种利用课程学习和基于 CLIP 反馈的强化学习的精细调整策略，以提高我们方法的提示追随能力，从而改善图像生成的质量。根据收集的数据集进行的实验结果表明所提出的方法的有效性，其取得了令人印象深刻的结果，并且胜过了强基准模型。

Dec, 2023

Ziya-VL: 多任务指导微调的双语大型视觉语言模型

通过引入视觉语义，将大规模的视觉 - 语言模型 (LVLMs) 融合到多模态对话中，Ziya-VL 在英语和汉语多模态场景中展现出了具有竞争力的图片 - 文本生成和理解能力。

Oct, 2023

信息丰富的扩散模型的段落到图像生成

介绍了一种信息丰富的扩散模型，名为 ParaDiffusion，用于段落到图像生成任务，通过利用大型语言模型来提升图像生成模型的语义理解能力，并在长文本语义对齐训练方面取得了优异结果。

Nov, 2023

在 CLIP 中通过持续语言学习拥抱语言包容性和多样性

通过连续语言学习 (CL) 扩展视觉 - 语言预训练模型 (VL-PTMs) 的语言能力，并提出了 CLL-CLIP 模型，其通过仅训练标记嵌入来改善内存稳定性，并通过跨模态和跨语言目标进行优化以学习图像和多语种文本之间的对齐关系，实验证明该方法在多语言图像 - 文本检索性能上具有有效性。

Jan, 2024

PAI-Diffusion：基于云计算构建和提供一系列开放的中文扩散模型用于文本到图像合成

中文图像生成中的文本到图像合成存在独特的挑战，本文介绍了一个全面框架 PAI-Diffusion，它通过整合通用和领域特定的中文扩散模型解决了现有模型在处理中文时忽略领域上下文和不稳定性的问题，实现了上下文相关图像的生成。

Sep, 2023

通过基于翻译的对齐实现参数高效的跨语言视觉与语言模型转移

本文提出一种新的参数高效的跨语言转移学习框架，利用基于翻译的对齐方法来缓解多语言差异，并探索参数高效的微调方法，经过广泛的实验表明，我们的框架显著减少了语言之间的多语言差异，并在跨语言转移方面取得了改进，尤其在低资源场景中，同时只保留和微调极少量的参数与全模型相比（例如，我们的框架对于每种语言只需要全模型的 0.16% 的额外参数，在 few-shot 学习场景下）。

May, 2023