通过调研文献并分析各项研究方法,该篇论文综述了文本到图像和文本到视频 AI 生成的前沿方法,包括数据预处理技术、神经网络类型以及评估指标。此外,论文还讨论了文本到图像和文本到视频 AI 生成的挑战、限制以及未来研究方向。总体而言,这些模型在视频制作、内容创作和数字营销等广泛应用领域具有巨大潜力。
Nov, 2023
本文研究了人们对于生成式人工智能中的文本到图像生成技术的看法和担忧,发现尽管参与者意识到技术所带来的风险与危险,却只有少数人认为技术对个人的风险,风险对于其他人来说更容易认识,而且参与者尤其认为艺术家是处于风险中的人群,未尝试过这项技术的参与者对其未来重要性的评价要低于尝试过的参与者,说明许多人仍然未察觉生成式人工智能的潜在个人风险及其所带来的社会变革。
Jun, 2023
文本到图像生成模型在图像质量、灵活性和文本对齐方面取得了惊人的成果,并因此在越来越多的应用中得到了应用。然而,多语言模型与单语言模型一样存在(性别)偏见。此外,这些模型将在不同语言中提供相似的结果是一种自然预期,但事实并非如此,并存在语言之间的重要差异。因此,我们提出了一个名为 MAGBIG 的新型基准,旨在促进无性别偏见的多语言模型研究。我们通过 MAGBIG 研究多语言 T2I 模型是否放大了性别偏见。为此,我们使用多语言提示来请求某个职业或特征的人物肖像图像(使用形容词)。我们的结果不仅显示模型偏离了每个性别应具有相等生成机会的规范假设,而且在不同语言之间存在很大差异。此外,我们还研究了提示工程策略,即使用间接、中性的表述,作为这些偏见的可能补救措施。不幸的是,它们只在有限程度上有所帮助,并导致更差的文本到图像对齐。因此,这项工作呼吁在图像生成中对跨语言的多样化表示进行更多研究。
Jan, 2024
该研究提出了使用人工令牌控制语言,从而创建一个跨语言图像描述模型的简单技术,并使用神经字幕架构能够学习切换两种不同语言的单一模型。
Jun, 2017
文本到图像生成使用神经网络和扩展模型规模的创新模型架构与预测增强技术相结合的方法,提供了几种不同的方法并对其进行了详细比较和评价,为未来的工作提供了改进的可能路径。
Sep, 2023
当前的文本到图像扩散模型表现出的卓越能力促进了关于艺术定义的讨论,然而,这些模型使用的文本数据缺乏主观评价,因此需要对元素和图片风格进行严格描述,建议在培训过程中加入主观信息,以发挥其真正的艺术创造力。
Oct, 2022
这篇研究论文探讨了人工智能生成图像的创作方式以及弊端,如训练数据的偏见、合成数据常态化可能导致未来图像生成系统的质量下降,以及文本生成图像对人们想象力、抱负和发展的潜在长期影响。
本教程关注于文本生成,这是一类自然语言生成任务,它以一段文本作为输入,然后生成一篇按照某些特定标准(如可读性或语言风格)改进的修订版本,同时保留原版文本的大部分含义和长度。
Oct, 2023
研究探讨文本到图像生成技术在建筑设计早期阶段支持创意的潜力以及其在设计师教育中的应用,发现生成工具支持探索想法和丰富设计过程,但也存在挑战,需要软件开发者和教育者支持创意和设计师的想象力。
Apr, 2023
通过综述当前研究的展望和限制,本文对大型语言模型的滥用、人工智能生成文本的检测框架以及相关的开放问题进行了全面的讨论和概述。