乐高积木也有AI大模型！CMU华人团队研发LegoGPT，打造包含47000个乐高结构数据集

更新时间：2025-05-10 21:29:05 发布时间：3小时前评论：0

内容摘要来源：DeepTech深科技被无数人喜爱的乐高（LEGO）也有自己的 GPT AI 模型了，它的名字就叫 LEGOGPT，其由美国卡内基梅隆大学助理教授朱俊彦团队打造而来。据了解，这是首个根据文本提示生成物理上稳定的 LEGO 积木模型的成

来源：DeepTech深科技

被无数人喜爱的乐高（LEGO）也有自己的 GPT AI 模型了，它的名字就叫 LEGOGPT，其由美国卡内基梅隆大学助理教授朱俊彦团队打造而来。

据了解，这是首个根据文本提示生成物理上稳定的 LEGO 积木模型的成果，也是首次将物理感知约束纳入基于文本的 LEGO 生成的成果。

利用 LEGOGPT，研究团队做出了日式滑动书柜。

视频 | 用 LEGOGPT 打造的日式滑动书柜（来源：LegoGPT/）

也做出了赛博朋克风格的紫色沙发。

视频| 用 LEGOGPT 打造的赛博朋克风格紫色沙发（来源：LegoGPT/）

以及做出了一把吉他。

视频 | 用 LEGOGPT 打造的一把吉他（来源：LegoGPT/）

LEGOGPT 既能设计出与文本描述相匹配的 LEGO 结构，还能确保这些结构在现实世界中可以通过手工或机器人辅助实现逐块搭建。

不同于以往人们尝试的 LEGO 自主建模，LEGOGPT 能够生成构建 LEGO 作品的详细步骤说明，并且这些作品不会散架。

LEGOGPT 的工作原理是首先生成一序列位置精确的 LEGO 积木，对于序列中的每一块新积木，系统都会确保它不会与现有的积木发生碰撞，并且能够放入搭建空间之内。完成设计之后，LEGOGPT 会使用数学模型来验证积木能否直立而不倒塌。

如果积木会在现实世界中倒塌，系统会识别出第一块不稳定的积木并加以回溯，进而将它和所有后续积木移除，然后再尝试不同的方法。这种“基于物理的回溯”方法至关重要，没有它的时候只有 24% 的设计能保持站立，而有它的时候保持站立的比例高达 98.8%。

为了证明本次设计在现实生活中的可行性，研究人员让机器臂组装了由 AI 创建的 LEGO 模型。他们使用一个带有力传感器的双机器人手臂系统，根据 AI 生成的指令来拾取和放置 LEGO 积木。

视频 | 由 LEGOGPT 生成的 LEGO 结构能在现实世界中实现逐块搭建（来源：LegoGPT/）

参加实验的真人测试者也以手动方式构建了一些积木，这表明 AI 能够生成真正可构建的模型。

该团队在论文中指出：“我们的实验表明，LEGOGPT 能够生成稳定、多样且美观的 LEGO 设计，这些设计与输入的文本提示高度一致。”其还证明本次方法优于已有的大模型骨干模型，也优于几种最新的“文本到 3D”的生成方法。

在打造 LEGOGPT 的过程中，研究团队构建了一个大规模、物理稳定的 LEGO 设计数据集，并提供了与之相关的说明文字。同时，他们还训练了一个自回归大模型，通过预测下一个 token 来预测下一块要添加的积木。

为了提高设计的稳定性，他们在自回归推理过程中采用有效性检查和物理感知回退机制，利用物理定律和拼装约束来剔除不可行的 token 预测。

目前，该团队已经公布了数据集 StableText2Lego，其中包含超过 47,000 个 LEGO 结构，这些结构由超过 28,000 个独特的 3D 对象组成，并附有详细的说明文字。同时，代码和模型已在 GitHub 上发布（LegoGPT/）。

另据悉，除了朱俊彦是论文作者之外，相关论文中也有多位华人作者。

| 朱俊彦（来源：~junyanz/）

| 论文作者中包含多名华人作者（来源：arXiv）

能由真人或机器人实现逐块拼装

众所周知，LEGO 已被广泛用于娱乐、教育和艺术创作。由于所有标准组件均可被随时获取，因此它也可以作为一个可复现的研究基准。

由于手动设计需要耗费较大精力，故曾有人通过开发自动化算法来简化流程并生成了不错的结果。然而，此前方法主要基于给定的 3D 对象来创建 LEGO 设计，或者仅仅关注于单一的对象类别。

基于此，该团队希望开发一种能够直接根据文本提示生成 LEGO 设计、同时在设计上兼具物理稳定性和可搭建性的方法。

因此，他们认为需要训练一个生成模型，并让该模型能够生成以下设计方案：首先，要具备物理稳定性，即基于 LEGO 基板构建出来的结构完整性强、无悬空或坍塌。其次，要具备可搭建性，即可以和标准 LEGO 积木兼容，并能由真人或机器人实现逐块拼装。

LEGOGPT 的核心思想是将原本用于下一个 token 预测的自回归大模型重新用于下一个积木预测。研究团队将 LEGO 设计问题表述为自回归文本生成任务，其中下一块积木的尺寸和摆放位置以简单的文本格式指定。

为了确保生成的结构既稳定又可构建，他们在训练过程和推理过程中都施加了考虑物理特性的拼装约束。

在自回归推理过程中，研究团队通过有效性检查和物理感知回退来确保可行性，以便确保最终的 token 符合物理定律和拼装约束。

实验表明，所生成的设计既稳定又多样，并且具有视觉吸引力，同时符合输入的文本提示。这种方法同时优于采用和不采用上下文学习的预训练大模型，也优于此前基于网格 3D 生成的方法。

arXiv）

大规模 LEGO 数据集：包含 47,000 多种 LEGO 结构

研究人员在论文中表示，一般来说这类工作包含三个步骤：第一步，使用文本到图像模型生成图像。第二步，将图像转换为体素。第三步，在不考虑物理约束的情况下，使用启发式方法创建物理 LEGO 积木模型。相比之下，在无需中间图像或体素表示的情况下，本次方法也能执行文本到 LEGO 积木的任务。

由于训练现代自回归模型需要大规模的数据集，为此研究团队推出了 StableText2Lego，这是一个全新的大规模 LEGO 数据集，包含 47,000 多种 LEGO 结构，涵盖 ShapeNetCore 数据集中 21 个常见物体类别的 28,000 多个独特 3D 物体。

研究中，他们选择具有多样性和独特性的 3D 物体类别，同时排除那些类似长方体的物体。每个结构都配有一组文本描述和一个稳定性评分，该评分能够衡量结构的物理稳定性和可建造性。

| 数据集的构建过程（来源：arXiv）

为了获取每个结构的说明文字，研究团队从 24 个不同的视角渲染 LEGO 玩具，并将其组合成一张多视角图像。然后，他们让 GPT-4o 为这些渲染图生成 5 种不同详细程度的描述。

据了解，预训练大模型在序列建模和自然语言理解方面表现十分出色，因此他们选择了这类大模型。利用大模型能够针对序列进行建模和理解文本的能力，研究团队针对预训练大模型进行了微调，以便用于 LEGO 生成任务。

而为了提高设计的稳定性和可构建性，他们在推理过程中采用了逐块拒绝采样和物理感知回退的方法。

arXiv）

与此同时，他们使用 LLaMA-3.2-1BInstruct 作为基础模型。该模型经过微调之后，能够针对指令提示给出连贯的答案，因此十分适用于基于文本的 LEGO 设计生成。同时，这一基础模型还能通过上下文学习生成类似 LEGO 的设计。

虽然本次研究的主要关注点是生成 LEGO 形状，但是在创意型 LEGO 设计中，颜色和纹理也发挥着至关重要的作用。因此，他们专门提出一种新方法，该方法既能让单个积木拥有细致 UV 纹理，也能让单个积木拥有统一的颜色。

兼具 UV 纹理和靓丽颜色

实验中，研究人员使用 LLaMAMesh、LGM、XCube 和 Hunyuan3D-2 来从每个提示生成网格，然后通过“LEGO 化”将这些网格转换为 LEGO 格式。

arXiv）

此外，他们将本次方法与预训练模型进行比较，并将这些模型以零样本和少样本的方式加以评估。对于少样本评估，研究团队为模型提供了 5 个稳定的 LEGO 设计示例以及说明文字，并计算了所生成设计方案中的“稳定有效结构”所占的比例。

同时，对于每个有效结构，研究团队都计算了其平均积木块稳定性和最小积木块稳定性得分。如下表所示，本次方法在这些指标上优于此前已有的基线方法。

arXiv）

在消融研究中，研究团队展示了拒绝采样和物理感知回退的重要性。如下图所示，拒绝采样消除了无效的积木，比如能够消除那些发生了碰撞的积木。而回退则有助于确保最终生成的积木具备物理稳定性。

arXiv）

如前所述，他们还使用机器人组装了这些由 AI 模型生成的 LEGO 设计。具体来说，机器人利用操纵策略和异步多智能体规划器来操纵 LEGO 积木并构建结构。而且这些由 AI 模型生成的 LEGO 结构还可以进行人工组装，因此它们在物理上确实是有效的。

| 使用双机器人臂系统进行自动组装的过程（来源：arXiv）

下图则展示了 LEGO 模型的 UV 纹理化和均匀着色结果，这证明本次方法能够在保留底层几何形状的同时生成多种风格。

arXiv）

尽管本次方法优于已有方法，但是仍然存在一些局限性。

首先，由于计算资源有限研究团队尚未探索最大的 3D 数据集，即本次方法仅限于在 21 个类别的 20×20×20 网格内生成设计。未来，他们将在更大、更多样化的数据集上扩大模型训练规模，以便提高对于分布外文本提示的泛化能力。

其次，本次成果目前仅仅支持一组固定的常用 LEGO 积木，未来他们计划扩展积木库，以便包含更广泛的尺寸和积木类型，从而实现更复杂更多样化的 LEGO 设计。

参考资料：

pdf/2505.05469

~junyanz/

in/avapun/?originalSubdomain=in

LegoGPT/

排版：初嘉实

举报收藏打赏 评论 0

版权声明 本文仅代表作者观点，不代表本站立场。
如遇本文系为网络转载到本站发表，图片或文章有版权问题的请联系客服确认后会立即删除文章。
如遇本文系作者授权本站发表，未经许可，不得转载。

--结束END--

有问题投稿请发送至: 邮箱/

本文标题: 乐高积木也有AI大模型！CMU华人团队研发LegoGPT，打造包含47000个乐高结构数据集

本文链接: http://www.meilagrina.com/news/show-500770.html (转载时请保留)

0 条

与沪深300ETF同甘共苦13年，韩勇卸任华泰柏瑞总经理

科技 cshmhg ⋅ 4阅读量 ⋅ 0评论 ⋅ 21分钟前

2025-05-10
消息称 Meta 已规划第四代雷朋联名眼镜：可识别他人面孔，预计明年发售

科技 qjhbsb ⋅ 4阅读量 ⋅ 0评论 ⋅ 21分钟前

2025-05-10
殖民模拟游戏有哪些热门殖民模拟游戏排行榜

科技 anhongvip ⋅ 8阅读量 ⋅ 0评论 ⋅ 21分钟前

2025-05-10
第二款骁龙8 Elite平板！一加平板2 Pro开启预售

科技 dgyswj88 ⋅ 14阅读量 ⋅ 0评论 ⋅ 21分钟前

2025-05-10
解析中国移动光缆集采：1亿芯公里，少吗？

科技 ywmeishi2011 ⋅ 1阅读量 ⋅ 0评论 ⋅ 21分钟前

2025-05-10
轨道射击游戏大全人气高的轨道射击游戏排行榜前十

科技 gztymy88 ⋅ 18阅读量 ⋅ 0评论 ⋅ 21分钟前

2025-05-10
我国科学家实现基于主动光学强度干涉的合成孔径成像

科技 lzx8706 ⋅ 5阅读量 ⋅ 0评论 ⋅ 21分钟前

2025-05-10
动态记叙游戏哪个好玩 2024动态记叙游戏盘点

科技 huangxiaolongbaby ⋅ 1阅读量 ⋅ 0评论 ⋅ 21分钟前

2025-05-10
不跟风，敢造浪：良木道在全球贸易深水区打出的“中国答案”

科技 txykjgs ⋅ 11阅读量 ⋅ 0评论 ⋅ 21分钟前

2025-05-10
飞利浦新款24.5英寸显示器发布：原生360Hz高刷可超频至390Hz

科技 cyiner100 ⋅ 14阅读量 ⋅ 0评论 ⋅ 21分钟前

2025-05-10

今年要卖100万辆？吉利汽车范峻毅：只靠低价站不稳，坚持油电分网策略

行业 ⋅ 9阅读量 ⋅ 0评论 ⋅ 2分钟前

2025-05-10
崔东树：今年新车降价规模相对温和春季车市进入持续走强的良好状态

行业 ⋅ 2阅读量 ⋅ 0评论 ⋅ 2分钟前

2025-05-10
东三省造老银元价格（2025年05月09日）

行业 ⋅ 1阅读量 ⋅ 0评论 ⋅ 4分钟前

2025-05-10
纯电中大型轿车满意度TOP3出炉：小米SU7 Ultra夺亚军

行业 ⋅ 15阅读量 ⋅ 0评论 ⋅ 2小时前

2025-05-10
赠10支墨囊：得力可视墨量钢笔7.9元大促

行业 ⋅ 13阅读量 ⋅ 0评论 ⋅ 2小时前

2025-05-10
独立开关+过载保护：泰力1.8m六位30孔总控插排15.4元狂促

行业 ⋅ 4阅读量 ⋅ 0评论 ⋅ 2小时前

2025-05-10
中国生产100个包包不如欧美卖一个包的利润引热议：专家释疑

行业 ⋅ 11阅读量 ⋅ 0评论 ⋅ 2小时前

2025-05-10
大增16%！联发科4月营业额突破487.5亿元新台币

行业 ⋅ 17阅读量 ⋅ 0评论 ⋅ 2小时前

2025-05-10
小米SU7被评为质量倒数第一博主深扒有惊人发现



行业 ⋅ 20阅读量 ⋅ 0评论 ⋅ 2小时前

2025-05-10
北京一法拉利行驶中突然“砰砰”两声冒出白烟

行业 ⋅ 5阅读量 ⋅ 0评论 ⋅ 2小时前

2025-05-10

姜超个人资料：相亲20次娶胖妻，婚后住6平米小屋，余生不会辜负她



财运站长 ⋅ 3阅读量 ⋅ 0评论 ⋅ 2025-04-05 19:38

2025-04-05
王一博个人资料：毕业于哪所大学？

财运站长 ⋅ 20阅读量 ⋅ 0评论 ⋅ 2025-04-05 19:38

2025-04-05
应采儿个人资料：从“豪门准儿媳”到“大哥女人”，深得向太喜爱，凭什么



财运站长 ⋅ 15阅读量 ⋅ 0评论 ⋅ 2025-04-05 19:38

2025-04-05
少女时代成员郑秀妍个人资料



财运站长 ⋅ 15阅读量 ⋅ 0评论 ⋅ 2025-04-05 19:37

2025-04-05
网红——曲肖冰个人资料

财运站长 ⋅ 4阅读量 ⋅ 0评论 ⋅ 2025-04-05 19:37

2025-04-05
巴图个人资料：很小就失去了父亲，靠着母亲得以长大，遇见她我才算被治愈



财运站长 ⋅ 7阅读量 ⋅ 0评论 ⋅ 2025-04-05 19:36

2025-04-05
潘南奎个人资料：修长的身材，雅迷的风度，尤其那双眼睛，有种说不得魅



财运站长 ⋅ 13阅读量 ⋅ 0评论 ⋅ 2025-04-05 19:36

2025-04-05
娱乐圈少有的善良人汪苏泷个人资料



财运站长 ⋅ 15阅读量 ⋅ 0评论 ⋅ 2025-04-05 19:35

2025-04-05
韩国美女明星Gain孙佳仁个人资料



财运站长 ⋅ 17阅读量 ⋅ 0评论 ⋅ 2025-04-05 19:34

2025-04-05
孙安可的个人资料

财运站长 ⋅ 5阅读量 ⋅ 0评论 ⋅ 2025-04-05 19:34

2025-04-05

乐高积木也有AI大模型！CMU华人团队研发LegoGPT，打造包含47000个乐高结构数据集

科技 gzdebell ⋅ 8阅读量 ⋅ 0评论 ⋅ 3小时前

2025-05-10
大力传承老一辈科学家求真务实光荣传统

科技 gzdebell ⋅ 9阅读量 ⋅ 0评论 ⋅ 15小时前

2025-05-10
05月09日今日茯苓市场价格多少钱一斤查询

农村致富 gzdebell ⋅ 13阅读量 ⋅ 0评论 ⋅ 1天前

2025-05-09
（2025年5月9日）今日甘肃废铁回收价格查询

五金 gzdebell ⋅ 18阅读量 ⋅ 0评论 ⋅ 1天前

2025-05-09
语音查流量充话费、安全能力跃升，鸿蒙版中国电信首批适配鸿蒙电脑！

科技 gzdebell ⋅ 6阅读量 ⋅ 0评论 ⋅ 1天前

2025-05-09
长相完美听障女孩植入人工耳蜗：正进行语训康复

科技 gzdebell ⋅ 10阅读量 ⋅ 0评论 ⋅ 1天前

2025-05-09
5款配色可选：哈弗猛龙燃油版最新官图发布

科技 gzdebell ⋅ 17阅读量 ⋅ 0评论 ⋅ 1天前

2025-05-09
5月8日最新河北废铜回收价格查询

五金 gzdebell ⋅ 2阅读量 ⋅ 0评论 ⋅ 2天前

2025-05-08
今日山药价格行情查询（2025年5月8日）

农村致富 gzdebell ⋅ 6阅读量 ⋅ 0评论 ⋅ 2天前

2025-05-08
（2025年05月06日）今日二辛酯(DOP)价格行情查询

五金 gzdebell ⋅ 6阅读量 ⋅ 0评论 ⋅ 4天前

2025-05-06

李怡乐

去ta空间

24小时热闻

今日推荐