具备大型语言模型的版面生成代理
LayoutGPT 是一种利用 LLMS 生成样式表语言的方法,能够生成多个视觉域中的可信布局,包括三维室内场景;当与下游图像生成模型相结合时,比文本到图像模型系统表现更好,并可在正确性方面与人类用户进行比较,同时在 3D 室内场景合成方面也与监督方法实现相当的性能。
May, 2023
基于 3D-GPT 的指令驱动的 3D 建模框架,利用语言模型实现了高效的自动内容创作,简化初始场景描述并从文本中提取参数值,与 3D 软件无缝集成,为未来场景生成和动画的进一步发展提供了基础。
Oct, 2023
该研究提出了一种基于大型语言模型(LLMs)的 LI3D 系统,它集成了 LLMs 作为 3D 布局解释器到现有的布局生成模型中,使用户能够灵活且交互式地生成 3D 场景并且验证其有效性和性能。
May, 2023
传统制造业面临适应动态环境和快速响应制造变化的挑战。多智能体系统的使用提高了适应性和协调能力,但需要进一步发展快速理解人类指令、操作适应性和自然语言整合的能力。大型语言模型如 GPT-3.5 和 GPT-4 通过使智能体能够用自然语言进行沟通并解释人类指令来增强多智能体制造系统,从而使其更具适应性,并能够处理特定上下文的指令。一项案例研究展示了该框架的实际应用,显示智能体可以有效地沟通、理解任务和执行制造过程,包括智能体之间精确的 G 代码分配。研究结果凸显了将大型语言模型不断整合到多智能体制造系统中以及开发复杂智能体通信协议的重要性,以实现更灵活的制造系统。
Jun, 2024
该论文探讨了将大型语言模型(如生成式预训练变换器 GPT)整合到人机合作环境中,通过口头人机交流手段促进可变自主性的快速发展的数字景观中,介绍了一种基于 Unity 虚拟现实(VR)环境的 GPT 驱动多机器人测试平台的创新框架。用户研究表明,用户对于与机器人对话的预设期望较高,却很少尝试探索机器人合作伙伴的实际语言和认知能力,但那些进行探索的用户能从更自然的沟通和人类式的双向交流中受益。我们提供了一组对未来研究和类似系统的技术实施的经验教训。
Dec, 2023
LLplace 是一种基于轻量级精细调整的开源 LLM Llama3 的新颖的 3D 室内场景布局设计工具,通过用户输入指定房间类型和所需对象来有效生成和编辑 3D 室内布局,并在提供高质量的 3D 设计解决方案方面优于现有方法。
Jun, 2024
本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列,通过实证表明,结合一定的视觉信息和上下文语境,GPT-2 模型能够成功地生成金标准语句执行序列,为基于语言的虚拟代理提供了强大的视觉语义规划模块。
Sep, 2020
该研究展示如何使用 LLMs 来生成名为 Metavoidal 的游戏的二维游戏房间,通过人为干预微调的方法,可以从仅 60 个手动设计的房间中生成 37% 的可玩新颖关卡,以适应 Procedural Content Generation(PCG)的全局和局部约束。
May, 2023
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
Nov, 2023
通过提出一个框架,使用户能够无缝地探索、评估和综合多种响应,并通过 Luminate 互动系统与 8 名专业作家的用户研究展示了这个框架的可行性和有用性,我们推进了与大型语言模型的创造性任务互动的方式,引入了一种利用大型语言模型的创造潜力的方法。
Oct, 2023