具备大型语言模型的版面生成代理

May, 2024

具备大型语言模型的版面生成代理

Layout Generation Agents with Large Language Models

Yuichi Sasazawa, Yasuhiro Sogawa

TL;DR研究了使用 GPT-4V 多模态大语言模型的基于代理的布局生成系统，通过顺序放置对象在虚拟空间中生成反映用户指令的布局，实验证实该方法能以高成功率生成反映用户指令的虚拟空间，并通过消融研究成功地确定了对行为生成性能改善做出贡献的要素。

Abstract

In recent years, there has been an increasing demand for customizable 3D virtual spaces. Due to the significant human effort required to create these virtual spaces, there is a need for efficiency in virtual space creation. While existing studies have proposed methods for automatically

customizable 3d virtual spaces efficiency layout generation system gpt-4v behavior generation performance

发现论文，激发创造

LayoutGPT：大型语言模型的构成性可视化规划与生成

LayoutGPT 是一种利用 LLMS 生成样式表语言的方法，能够生成多个视觉域中的可信布局，包括三维室内场景；当与下游图像生成模型相结合时，比文本到图像模型系统表现更好，并可在正确性方面与人类用户进行比较，同时在 3D 室内场景合成方面也与监督方法实现相当的性能。

May, 2023

3D-GPT：利用大型语言模型进行程序化 3D 建模

基于 3D-GPT 的指令驱动的 3D 建模框架，利用语言模型实现了高效的自动内容创作，简化初始场景描述并从文本中提取参数值，与 3D 软件无缝集成，为未来场景生成和动画的进一步发展提供了基础。

Oct, 2023

面向语言引导的交互式 3D 生成：LLMs 作为布局解释器与生成反馈

该研究提出了一种基于大型语言模型（LLMs）的 LI3D 系统，它集成了 LLMs 作为 3D 布局解释器到现有的布局生成模型中，使用户能够灵活且交互式地生成 3D 场景并且验证其有效性和性能。

May, 2023

基于大型语言模型的多智能体制造系统

传统制造业面临适应动态环境和快速响应制造变化的挑战。多智能体系统的使用提高了适应性和协调能力，但需要进一步发展快速理解人类指令、操作适应性和自然语言整合的能力。大型语言模型如 GPT-3.5 和 GPT-4 通过使智能体能够用自然语言进行沟通并解释人类指令来增强多智能体制造系统，从而使其更具适应性，并能够处理特定上下文的指令。一项案例研究展示了该框架的实际应用，显示智能体可以有效地沟通、理解任务和执行制造过程，包括智能体之间精确的 G 代码分配。研究结果凸显了将大型语言模型不断整合到多智能体制造系统中以及开发复杂智能体通信协议的重要性，以实现更灵活的制造系统。

Jun, 2024

探索大型语言模型用于实现人机协作的可变自主性

该论文探讨了将大型语言模型（如生成式预训练变换器 GPT）整合到人机合作环境中，通过口头人机交流手段促进可变自主性的快速发展的数字景观中，介绍了一种基于 Unity 虚拟现实（VR）环境的 GPT 驱动多机器人测试平台的创新框架。用户研究表明，用户对于与机器人对话的预设期望较高，却很少尝试探索机器人合作伙伴的实际语言和认知能力，但那些进行探索的用户能从更自然的沟通和人类式的双向交流中受益。我们提供了一组对未来研究和类似系统的技术实施的经验教训。

Dec, 2023

LLplace：基于大型语言模型的三维室内场景布局生成与编辑

LLplace 是一种基于轻量级精细调整的开源 LLM Llama3 的新颖的 3D 室内场景布局设计工具，通过用户输入指定房间类型和所需对象来有效生成和编辑 3D 室内布局，并在提供高质量的 3D 设计解决方案方面优于现有方法。

Jun, 2024

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

基于大语言模型的实用 PCG

该研究展示如何使用 LLMs 来生成名为 Metavoidal 的游戏的二维游戏房间，通过人为干预微调的方法，可以从仅 60 个手动设计的房间中生成 37% 的可玩新颖关卡，以适应 Procedural Content Generation（PCG）的全局和局部约束。

May, 2023

推导出您的布局：从大型语言模型中归纳出用于文本到图像合成的布局模式

利用大型语言模型作为布局生成器，改进了文本到图像生成模型，通过生成合理的对象布局来增强图像的构图和空间准确性，从而提高了图像质量。

Nov, 2023

利用大型语言模型进行结构化设计空间的生成和探索，用于人机共创

通过提出一个框架，使用户能够无缝地探索、评估和综合多种响应，并通过 Luminate 互动系统与 8 名专业作家的用户研究展示了这个框架的可行性和有用性，我们推进了与大型语言模型的创造性任务互动的方式，引入了一种利用大型语言模型的创造潜力的方法。

Oct, 2023