文本到图像生成：不让任何语言掉队

Aug, 2022

文本到图像生成：不让任何语言掉队

Text to Image Generation: Leaving no Language Behind

Pedro Reviriego, Elena Merino-Gómez

TL;DR本文初步探索了三种常用的文本到图像生成模型在不同语言下的性能表现，并指出使用非英语语言时性能会有显著的下降，特别是对于不常用的语言。作者讨论了不同的方式来改进模型，以确保模型在不同语言下的性能保持一致，以实现跨语言的应用和维护语言多样性。

Abstract

One of the latest applications of artificial intelligence (AI) is to generate images from natural language descriptions. These generators are now becoming available and achieve impressive results that have been u

artificial intelligence natural language processing text-to-image generation language performance degradation

发现论文，激发创造

AI 文本到图像和 AI 文本到视频生成器的调查

通过调研文献并分析各项研究方法，该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法，包括数据预处理技术、神经网络类型以及评估指标。此外，论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言，这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。

Nov, 2023

文本到图像生成的感知与现实

本文研究了人们对于生成式人工智能中的文本到图像生成技术的看法和担忧，发现尽管参与者意识到技术所带来的风险与危险，却只有少数人认为技术对个人的风险，风险对于其他人来说更容易认识，而且参与者尤其认为艺术家是处于风险中的人群，未尝试过这项技术的参与者对其未来重要性的评价要低于尝试过的参与者，说明许多人仍然未察觉生成式人工智能的潜在个人风险及其所带来的社会变革。

Jun, 2023

多语言文本生成图像放大了性别刻板印象，工程处理可能无助于您

文本到图像生成模型在图像质量、灵活性和文本对齐方面取得了惊人的成果，并因此在越来越多的应用中得到了应用。然而，多语言模型与单语言模型一样存在（性别）偏见。此外，这些模型将在不同语言中提供相似的结果是一种自然预期，但事实并非如此，并存在语言之间的重要差异。因此，我们提出了一个名为 MAGBIG 的新型基准，旨在促进无性别偏见的多语言模型研究。我们通过 MAGBIG 研究多语言 T2I 模型是否放大了性别偏见。为此，我们使用多语言提示来请求某个职业或特征的人物肖像图像（使用形容词）。我们的结果不仅显示模型偏离了每个性别应具有相等生成机会的规范假设，而且在不同语言之间存在很大差异。此外，我们还研究了提示工程策略，即使用间接、中性的表述，作为这些偏见的可能补救措施。不幸的是，它们只在有限程度上有所帮助，并导致更差的文本到图像对齐。因此，这项工作呼吁在图像生成中对跨语言的多样化表示进行更多研究。

Jan, 2024

利用人工生成的词汇控制多语种图像字幕生成

该研究提出了使用人工令牌控制语言，从而创建一个跨语言图像描述模型的简单技术，并使用神经字幕架构能够学习切换两种不同语言的单一模型。

Jun, 2017

RenAIssance: 大型模型时代的 AI 文字到图像生成调查

文本到图像生成使用神经网络和扩展模型规模的创新模型架构与预测增强技术相结合的方法，提供了几种不同的方法并对其进行了详细比较和评价，为未来的工作提供了改进的可能路径。

Sep, 2023

语言不仅仅是描述：论文本到图像模型中缺乏的比喻性语言

当前的文本到图像扩散模型表现出的卓越能力促进了关于艺术定义的讨论，然而，这些模型使用的文本数据缺乏主观评价，因此需要对元素和图片风格进行严格描述，建议在培训过程中加入主观信息，以发挥其真正的艺术创造力。

Oct, 2022

文本到图像生成的培育实践

这篇研究论文探讨了人工智能生成图像的创作方式以及弊端，如训练数据的偏见、合成数据常态化可能导致未来图像生成系统的质量下降，以及文本生成图像对人们想象力、抱负和发展的潜在长期影响。

Jun, 2023

自动人工智能互动文本生成

本教程关注于文本生成，这是一类自然语言生成任务，它以一段文本作为输入，然后生成一篇按照某些特定标准（如可读性或语言风格）改进的修订版本，同时保留原版文本的大部分含义和长度。

Oct, 2023

利用文本生成图像技术进行建筑设计构思

研究探讨文本到图像生成技术在建筑设计早期阶段支持创意的潜力以及其在设计师教育中的应用，发现生成工具支持探索想法和丰富设计过程，但也存在挑战，需要软件开发者和教育者支持创意和设计师的想象力。

Apr, 2023

探讨 AI 生成文本检测的可能性与不可能性：一项调查

通过综述当前研究的展望和限制，本文对大型语言模型的滥用、人工智能生成文本的检测框架以及相关的开放问题进行了全面的讨论和概述。

Oct, 2023