来源:DeepTech深科技
被无数人喜爱的乐高(LEGO)也有自己的 GPT AI 模型了,它的名字就叫 LEGOGPT,其由美国卡内基梅隆大学助理教授朱俊彦团队打造而来。
据了解,这是首个根据文本提示生成物理上稳定的 LEGO 积木模型的成果,也是首次将物理感知约束纳入基于文本的 LEGO 生成的成果。
利用 LEGOGPT,研究团队做出了日式滑动书柜。
视频 | 用 LEGOGPT 打造的日式滑动书柜(来源:LegoGPT/)
也做出了赛博朋克风格的紫色沙发。
视频| 用 LEGOGPT 打造的赛博朋克风格紫色沙发(来源:LegoGPT/)
以及做出了一把吉他。
视频 | 用 LEGOGPT 打造的一把吉他(来源:LegoGPT/)
LEGOGPT 既能设计出与文本描述相匹配的 LEGO 结构,还能确保这些结构在现实世界中可以通过手工或机器人辅助实现逐块搭建。
不同于以往人们尝试的 LEGO 自主建模,LEGOGPT 能够生成构建 LEGO 作品的详细步骤说明,并且这些作品不会散架。
LEGOGPT 的工作原理是首先生成一序列位置精确的 LEGO 积木,对于序列中的每一块新积木,系统都会确保它不会与现有的积木发生碰撞,并且能够放入搭建空间之内。完成设计之后,LEGOGPT 会使用数学模型来验证积木能否直立而不倒塌。
如果积木会在现实世界中倒塌,系统会识别出第一块不稳定的积木并加以回溯,进而将它和所有后续积木移除,然后再尝试不同的方法。这种“基于物理的回溯”方法至关重要,没有它的时候只有 24% 的设计能保持站立,而有它的时候保持站立的比例高达 98.8%。
为了证明本次设计在现实生活中的可行性,研究人员让机器臂组装了由 AI 创建的 LEGO 模型。他们使用一个带有力传感器的双机器人手臂系统,根据 AI 生成的指令来拾取和放置 LEGO 积木。
视频 | 由 LEGOGPT 生成的 LEGO 结构能在现实世界中实现逐块搭建(来源:LegoGPT/)
参加实验的真人测试者也以手动方式构建了一些积木,这表明 AI 能够生成真正可构建的模型。
该团队在论文中指出:“我们的实验表明,LEGOGPT 能够生成稳定、多样且美观的 LEGO 设计,这些设计与输入的文本提示高度一致。”其还证明本次方法优于已有的大模型骨干模型,也优于几种最新的“文本到 3D”的生成方法。
在打造 LEGOGPT 的过程中,研究团队构建了一个大规模、物理稳定的 LEGO 设计数据集,并提供了与之相关的说明文字。同时,他们还训练了一个自回归大模型,通过预测下一个 token 来预测下一块要添加的积木。
为了提高设计的稳定性,他们在自回归推理过程中采用有效性检查和物理感知回退机制,利用物理定律和拼装约束来剔除不可行的 token 预测。
目前,该团队已经公布了数据集 StableText2Lego,其中包含超过 47,000 个 LEGO 结构,这些结构由超过 28,000 个独特的 3D 对象组成,并附有详细的说明文字。同时,代码和模型已在 GitHub 上发布(LegoGPT/)。
另据悉,除了朱俊彦是论文作者之外,相关论文中也有多位华人作者。
| 朱俊彦(来源:~junyanz/)
| 论文作者中包含多名华人作者(来源:arXiv)
能由真人或机器人实现逐块拼装
众所周知,LEGO 已被广泛用于娱乐、教育和艺术创作。由于所有标准组件均可被随时获取,因此它也可以作为一个可复现的研究基准。
由于手动设计需要耗费较大精力,故曾有人通过开发自动化算法来简化流程并生成了不错的结果。然而,此前方法主要基于给定的 3D 对象来创建 LEGO 设计,或者仅仅关注于单一的对象类别。
基于此,该团队希望开发一种能够直接根据文本提示生成 LEGO 设计、同时在设计上兼具物理稳定性和可搭建性的方法。
因此,他们认为需要训练一个生成模型,并让该模型能够生成以下设计方案:首先,要具备物理稳定性,即基于 LEGO 基板构建出来的结构完整性强、无悬空或坍塌。其次,要具备可搭建性,即可以和标准 LEGO 积木兼容,并能由真人或机器人实现逐块拼装。
LEGOGPT 的核心思想是将原本用于下一个 token 预测的自回归大模型重新用于下一个积木预测。研究团队将 LEGO 设计问题表述为自回归文本生成任务,其中下一块积木的尺寸和摆放位置以简单的文本格式指定。
为了确保生成的结构既稳定又可构建,他们在训练过程和推理过程中都施加了考虑物理特性的拼装约束。
在自回归推理过程中,研究团队通过有效性检查和物理感知回退来确保可行性,以便确保最终的 token 符合物理定律和拼装约束。
实验表明,所生成的设计既稳定又多样,并且具有视觉吸引力,同时符合输入的文本提示。这种方法同时优于采用和不采用上下文学习的预训练大模型,也优于此前基于网格 3D 生成的方法。
arXiv)
大规模 LEGO 数据集:包含 47,000 多种 LEGO 结构
研究人员在论文中表示,一般来说这类工作包含三个步骤:第一步,使用文本到图像模型生成图像。第二步,将图像转换为体素。第三步,在不考虑物理约束的情况下,使用启发式方法创建物理 LEGO 积木模型。相比之下,在无需中间图像或体素表示的情况下,本次方法也能执行文本到 LEGO 积木的任务。
由于训练现代自回归模型需要大规模的数据集,为此研究团队推出了 StableText2Lego,这是一个全新的大规模 LEGO 数据集,包含 47,000 多种 LEGO 结构,涵盖 ShapeNetCore 数据集中 21 个常见物体类别的 28,000 多个独特 3D 物体。
研究中,他们选择具有多样性和独特性的 3D 物体类别,同时排除那些类似长方体的物体。每个结构都配有一组文本描述和一个稳定性评分,该评分能够衡量结构的物理稳定性和可建造性。
| 数据集的构建过程(来源:arXiv)
为了获取每个结构的说明文字,研究团队从 24 个不同的视角渲染 LEGO 玩具,并将其组合成一张多视角图像。然后,他们让 GPT-4o 为这些渲染图生成 5 种不同详细程度的描述。
据了解,预训练大模型在序列建模和自然语言理解方面表现十分出色,因此他们选择了这类大模型。利用大模型能够针对序列进行建模和理解文本的能力,研究团队针对预训练大模型进行了微调,以便用于 LEGO 生成任务。
而为了提高设计的稳定性和可构建性,他们在推理过程中采用了逐块拒绝采样和物理感知回退的方法。
arXiv)
与此同时,他们使用 LLaMA-3.2-1BInstruct 作为基础模型。该模型经过微调之后,能够针对指令提示给出连贯的答案,因此十分适用于基于文本的 LEGO 设计生成。同时,这一基础模型还能通过上下文学习生成类似 LEGO 的设计。
虽然本次研究的主要关注点是生成 LEGO 形状,但是在创意型 LEGO 设计中,颜色和纹理也发挥着至关重要的作用。因此,他们专门提出一种新方法,该方法既能让单个积木拥有细致 UV 纹理,也能让单个积木拥有统一的颜色。
兼具 UV 纹理和靓丽颜色
实验中,研究人员使用 LLaMAMesh、LGM、XCube 和 Hunyuan3D-2 来从每个提示生成网格,然后通过“LEGO 化”将这些网格转换为 LEGO 格式。
arXiv)
此外,他们将本次方法与预训练模型进行比较,并将这些模型以零样本和少样本的方式加以评估。对于少样本评估,研究团队为模型提供了 5 个稳定的 LEGO 设计示例以及说明文字,并计算了所生成设计方案中的“稳定有效结构”所占的比例。
同时,对于每个有效结构,研究团队都计算了其平均积木块稳定性和最小积木块稳定性得分。如下表所示,本次方法在这些指标上优于此前已有的基线方法。
arXiv)
在消融研究中,研究团队展示了拒绝采样和物理感知回退的重要性。如下图所示,拒绝采样消除了无效的积木,比如能够消除那些发生了碰撞的积木。而回退则有助于确保最终生成的积木具备物理稳定性。
arXiv)
如前所述,他们还使用机器人组装了这些由 AI 模型生成的 LEGO 设计。具体来说,机器人利用操纵策略和异步多智能体规划器来操纵 LEGO 积木并构建结构。而且这些由 AI 模型生成的 LEGO 结构还可以进行人工组装,因此它们在物理上确实是有效的。
| 使用双机器人臂系统进行自动组装的过程(来源:arXiv)
下图则展示了 LEGO 模型的 UV 纹理化和均匀着色结果,这证明本次方法能够在保留底层几何形状的同时生成多种风格。
arXiv)
尽管本次方法优于已有方法,但是仍然存在一些局限性。
首先,由于计算资源有限研究团队尚未探索最大的 3D 数据集,即本次方法仅限于在 21 个类别的 20×20×20 网格内生成设计。未来,他们将在更大、更多样化的数据集上扩大模型训练规模,以便提高对于分布外文本提示的泛化能力。
其次,本次成果目前仅仅支持一组固定的常用 LEGO 积木,未来他们计划扩展积木库,以便包含更广泛的尺寸和积木类型,从而实现更复杂更多样化的 LEGO 设计。
参考资料:
pdf/2505.05469
~junyanz/
in/avapun/?originalSubdomain=in
LegoGPT/
排版:初嘉实
0 条