空间智能爆发只需24个月？群核科技首席科学家唐睿预言：具身智能才是AGI终极形态 | 万有引力

📅 发布时间：2026/7/6 6:44:44 👁️ 浏览次数：

对话 | 唐小引嘉宾 | 唐睿责编 | 梦依丹出品 | CSDNIDCSDNnews当大模型开始“看懂”空间、理解物理、做出行动人工智能的形态正在发生一次根本性变化——从“对话系统”走向“行动智能”。在这条路径上一个词被频繁提起空间智能。如果说 LLM 让机器拥有了像人类一样思考的大脑那么空间智能则试图赋予机器像人类一样观察、理解并在三维世界中行动的身体与感官。它并非凭空出现而是扎根于计算机图形学对几何、材质与光照的长期积累依托 GPU 并行计算对物理世界的高保真模拟通过“先模拟世界再理解智能”的路径逼近真实智能的边界。正是在这个被李飞飞等顶尖学者视为“通往 AGI 的关键拼图”的领域群核科技酷家乐首席科学家唐睿已经深耕多年。从浙江大学的“求是”精神到英国巴斯大学的“跨界”洗礼再到伴随群核科技走过十余年的技术长征唐睿的职业生涯本身就是一部从“图形学渲染”走向“空间智能体”的进化史。他曾面临一个终极的技术命题手握高性能计算资源我们究竟是用它来模拟物理世界的影像还是模拟具备智能的生命体左唐睿右唐小引在全球机器学校技术大会现场唐睿在与 CSDN 《万有引力》栏目的深度对话中不仅给出了他的答案更剖析了行业深处的痛点与机遇。以下是访谈中唐睿表达的一些观点提炼空间智能与具身智能的关系服务与被服务——空间智能是具身智能Embodied AI的基础设施。如果说具身智能是最终要在物理世界行动的“人”那么空间智能就是它的“眼睛”和“训练场”。空间智能通过生成 3D 场景和仿真数据解决具身智能训练数据严重不足的痛点解决“数据饥渴”的终极之道在硬件目前行业主要依靠“正向设计”如设计师使用软件创作和“合成数据”来弥补数据缺口。但唐睿认为这仍是“从蛋里孵蛋”。真正的终极解决方案在于感知硬件的普及——当眼镜、手机、手表都能无感采集空间数据时数据瓶颈将被彻底打破2D、视频与 3D 并非路线之争而是融合演进在构建世界模型的路径上视频生成2D与 3D 生成并非割裂。行业正在走向融合利用 3D 的结构稳定性来解决视频生成的“时空一致性”问题反之利用视频模型的多视角能力辅助 3D 重建。这是一个螺旋上升的过程未来预判硬件爆点将在 24 个月内到来——AI 开发 AI 的循环已经开启软件迭代速度极快。唐睿预测空间智能的下一个真正爆点将等待硬件的突破。当每个人都能低门槛地对现实空间进行捕获和还原时行业将迎来质变这个窗口期大约在两年24 个月左右。欢迎收听音频播客如有兴趣观看完整视频可在文末获取以下是对话的完整内容唐小引屏幕前的小伙伴们大家好欢迎收看《万有引力》。今天我们来到全球机器学习技术大会的现场特别邀请到了群核科技首席科学家唐睿老师和大家一起深入分享他的技术人生成长还有大家当前很关注的对于空间智能的整个思考、研究以及实践。欢迎我的本家唐老师可以给大家打个招呼然后做一下自我介绍。唐睿大家好我是来自群核科技的唐睿。我的主要研究领域是计算机图形学和人工智能也会涉及到一些具身智能、交互感知相关的工作。唐小引我想先理清一下概念具身智能和空间智能它们的关系和不同点是什么唐睿我觉得空间智能在某种层面无论是在算法还是交互层面是服务于具身智能的。因为如果我们说人类终极的 AGI是不仅能够观察、理解、思考这个世界甚至还应该能像人类一样去和这个世界交互。我们说的具身智能里的 AI就是要和这个世界进行交互的。所以至少我们现在在做的空间智能是关于 3D 世界或者说包括 2D 视频这类世界的生成方式。由于现在具身智能会考虑到数据不足的问题所以会需要基于一些 2D 的交互视频或者 3D 的可交互场景再加上仿真计算这样的方式去产生大量的数据用于具身智能未来和真实物理世界交互的训练甚至是验证。从 CG 到空间智能唐睿的技术启蒙之路唐小引您可以接着谈谈自己的故事是怎么从 CG 一步步走上空间智能之路的唐睿其实也不能算一步步走到空间智能这一步。CG 里面会涉及到我们称之为 Shape 或者 Geometry Analysis也就是空间几何的理解它其实本身也是一种智能。当我画出一个椅子的时候在计算机里如果你不告诉它这是一把椅子那它应该如何去理解这本身就是智能的一部分。除此之外CG 的另一大核心是大家玩游戏时很熟悉的“渲染”。渲染的本质是对光传播的模拟。比如我们看到一个金属质感的物体是因为光源照射到一个具备特定物理属性的表面光线反射后进入了相机或人眼。所以CG 的本质到底是什么我们董事长的博士导师——也是 CUDA 的鼻祖级人物——他们当年在美国交流时曾提出过一个终极命题我们掌握了像 GPU 这样高性能的并行计算能力究竟是该用它来模拟物理世界还是去模拟智能体最早在 2011 年的时候不管是我们董事长把这个命题带回国还是后来创业由于当时 AI 远没有现在普及大家对智能的理解也没那么深。所以最开始我们选择了前者——用并行计算去做传统渲染也就是“模拟物理世界”。转折点发生在 2017 年。一方面我个人博士期间研究的是 3D 人脸识别这恰好是 CG 与机器学习当时的概念的交叉领域但更重要的启发来自于 AlphaGo。AlphaGo 给我们的震撼在于它通过在虚拟棋盘上的仿真利用强化学习仅用极短的时间和算力就模拟了人类上千年甚至更久远的棋局演变。这让我们意识到“模拟智能”的时机到了。所以从 2017 年开始我们回归到了那个终极命题的另一面结合群核已有的海量空间数据开始尝试利用并行计算去模拟空间智能或者说去构建“空间智能体”。跨领域的求是创新贯穿中英的学术生涯唐小引好我们不妨把视角拉得更远一点聊聊您的个人经历。从国内的浙江大学到英国的巴斯大学再到现在投身群核科技您能分享一下这几个阶段的心路历程和核心收获吗唐睿在浙江大学的时期对我来说更像是从校园向社会的过渡——它虽然不完全是社会但已具备了社会的某种缩影。回顾浙大时光最大的收获莫过于校训中的“求是”二字。这也深刻塑造了我们现在的做事准则无论是在做产品、解决方案还是做基础科研首要原则就是遵循事实。以事实为本去推理、去创新。其实关于浙大除了官方校训私下里大家对竺可桢老校长的“两个问题”你来浙大做什么将来要做什么样的人还有一个略带戏谑的民间回答那就是——“混、混混”。以前大家可能觉得这是玩笑但现在我重新审视这个字“混”其实代表了一种发散性的思维一种打破边界的融合。这在本质上与校训里的“创新”是一脉相承的。非常巧合的是这种思维延续到了我下一段经历中。我在英国巴斯大学求学时我的导师是 Darren Cosker皇家工程院院士。他的治学风格非常“野”或者说非常不拘一格核心就是跨领域Cross-domain。举个例子我们在实验室里做人脸识别同时也有团队在做肢体的数字孪生Digital Twin和行为学习。Darren 会极力主张将这些技术与体育、健康甚至教育产业进行跨界结合。大家可能知道巴斯大学有“英国体校”之称很多英国奥运选手都出自这里。他们拥有一套非常科学的训练体系而这套体系的背后很大程度上依赖于我们的 CG 技术——即通过对人体姿态和肌肉行为的高精度仿真来辅助训练。在这个过程中我们也见证了数据价值的演变以前我们是做大数据分析而现在更多是通过智能数据Intelligent Data的方式去优化仿真模型。这种跨界研究最终催生了许多落地成果不仅是在体育界也包括影视表演领域比如电影《猩球崛起》就与我们实验室有过深度合作。所以回过头看这两段经历非常神奇。从浙大的“求是与跨界思维”到巴斯大学的“跨领域实践”它们共同构建并深刻影响了我现在的思维结构。总结起来就是跨领域的求是创新。唐小引我想进一步探讨一下中英培养体系的差异。今天很巧您和王佳楠老师两位演讲嘉宾都曾在英国深造。但我之前去欧洲与当地的 AI 从业者交流时听到一种声音是觉得英国的“AI 氛围”相对较弱。但我看着其实有很多的人是从英国接受了人工智能教育然后回来落地生根。唐睿我不确定王老师具体的留学时间但我是在 2014 年回国的。那个时间节点很有意思——2012 到 2013 年左右AlexNet 才刚刚横空出世那是深度学习爆发的起点。换句话说当时我们现在所定义的“AI”概念还没有被全社会广泛认知或接受。关于您提到的“氛围弱”我认为需要辩证地看。如果从产业影响力来看确实存在这种情况。因为中国和美国拥有全球最大的消费市场AI 的发展不仅取决于技术更取决于产业推广和应用场景的规模化效应。正是这种庞大的市场需求造就了 AI 产业应用最先在中美这两个大市场爆发。相比之下英国在“产业落地”的喧嚣度上可能确实不如中美。但如果从科研深度来看英国的底蕴非常深厚。据我所知我的导师 Darren 目前就任职于微软剑桥实验室而孕育了 AlphaGo 的 DeepMind当时就在 UCL伦敦大学学院隔壁。可以说英国汇聚了大量顶尖学者和核心算法的源头创新。所以英国的“强”在于学术研究的深度而中美的“强”更多体现在产业落地的广度和市场的速度。这就是为什么很多在那边接受了深层理论教育的人最终选择回到拥有更广阔应用土壤的国内来发展。十年群核路从 IC 到技术管理者的蜕变唐小引我们可以接着聊聊您现在在群核所做的事情。您是怎么加入群核的以及我看这几年您对外分享过智能体、仿真等方向的内容。您可以讲讲您在群核的故事以及不同时期的侧重点。唐睿我怎么加入群核的非常巧合这是我第一份工作。这份工作干了十多年也没去找别的。其实我刚去群核的时候并不知道这家公司是做什么的我就知道有很多 GPU这是硬件层面吸引我的地方。因为我之前也是做偏图形学的机器学习交叉领域GPU 本来就能做机器学习同时它天然就是为计算机图形学设计的这是硬件层面的吸引力。我面试群核花了两天时间。第一天是 12 月 23 号第二天是 12 月 24 号。第二天面试到晚上 11 点多是两天长时间的面试。面试从和程序员一起写代码到和三位创始人聊天每位创始人都聊了两到三个小时。我就感觉到了一种非常简单、开放的文化。最后一天是平安夜和 CEO 陈航聊到了十点多。我非常诧异我一个还没完全毕业的小伙子去实习跟我同龄的人已经是 CEO 了平安夜还不回家跟我在这聊技术还带我参观 GPU 机房和集群。我是被这样的基因或者文化吸引的。唐小引你有把这个问题抛给他吗唐睿问了他说创业就是这样的。唐小引这是属于刚刚加入的故事。接着这十几年里面您可以分几个阶段给我们讲一下。唐睿关于技术路线的阶段——从“模拟物理”到“模拟智能体”——刚才我已经谈过了。所以我想换个维度从职业身份的转变来聊聊即我如何从一个个人贡献者一步步蜕变为一名技术管理者。这中间我踩过不少坑也积累了很多感悟大致可以归纳为两个层面的挑战。第一个挑战是工作习惯的重塑尤其是从纯技术向管理的过渡。做 IC 时我只需要专注解决技术难题。但转型做 Team Leader 后最大的难点在于心态上很难“放下”——很难放下亲手写代码和啃论文的执念。但现实是你必须分出精力去把控团队方向、进行向上沟通、了解财务状况甚至洞察市场动态。在这个过程中我养成了一个关键习惯利用碎片化时间。哪怕只有半小时空档也要思考如何快速进入状态。即便这半小时不足以彻底解决一个复杂问题但你要能维持住思考的连贯性做好上下文的衔接。第二个挑战也是更深层的感悟是我所定义的“技术责任心”。这里的“责任心”本质上是对一线技术人员的一种保护机制。我们在工作中经常面临一个权衡一线技术人员到底需不需要具备深层次的产品、技术乃至业务价值的思考我的观点是如果他们具备这种视野那是锦上添花但如果他们暂时没有这绝不应成为他们的包袱这本该是我们 Team Leader 的天职。无论是描绘宏大的蓝图制定长期规划还是设定短期的 POC概念验证目标将技术语言转化为业务价值这是管理者必须承担的责任。这标志着我从单一的“技术思维”正式跨越到了融合“技术、产品与业务”的复合型思维模式。唐小引所以这十几年最关键的一点是学会了怎么去做好一个技术管理。唐睿对其实学会了 PUA 自己。唐小引这也是一个很好的技术人成长路线。当然这个我先不展开了因为时间关系再加上您本身现在选择的是技术管理的路线。唐睿对其实自己也还在写一些代码做一些科研。唐小引现在还在写代码唐睿每天会花一两个小时看论文利用碎片化时间去实现一些 GitHub 上新的模型。锚定空间智能机遇、挑战与“3D 界的 ImageNet”唐小引接着我们聊聊空间智能。锚定空间智能这个方向是从什么时候开始的节点是什么接着我很好奇今天看到很多以前做 CV 或者 AI 大佬都投身这个方向。这个方向为什么如此重要当前大家看到的机会和方向是什么面临的问题又是什么唐睿我们真正开始投身到空间智能起点应该是 2017 年。我们开始用自己的数据去塑造一些简单的空间智能体比如自动设计、自动打光、自动材质编辑等。那时候我们也是采用一种数据驱动的方式。因为我们发现自己本身已经收集了大量的数据可以拿这些数据去驱动一个……那时候不能叫大模型而是驱动一个辅助设计算法。在 2017 年这个辅助设计算法又能让我们的工具更高效、更智能从而形成一个飞轮。当时没意识到这是一个飞轮的概念但现在来看可以把它定义成一种飞轮。唐小引为什么是在这个时间点当时整个业内在 AlphaGo 席卷之下应该很多是往识别方向去做的。当时的一个契机是什么呢唐睿当时契机还是我们意识到 AlphaGo 之所以能打败人类围棋高手也是数据驱动的。当然在强化学习里它通过强化策略加上随机扰动能够产生大量的数据通过这种数据驱动的形式去产生新的智能体。所以我们当时没有完全 follow 强化学习的思路而是 follow 了一套数据驱动的范式。所以我们在 2018 年提出了 “3D-Internet”2019 年我们和中国科学技术大学的刘立刚老师团队在顶会上提出了数据驱动范式下的户型自动设计方案后面也把它应用到了我们的产品里。唐小引我看您前面说要做 3D 界的 ImageNet。到现在实现的成果是什么样的唐睿从商业化落地来看进展非常顺利。目前市面上许多头部做具身智能或者 3D 空间生成的团队都是我们开源数据集以及闭源商业化数据集的客户。由于签署了 NDA保密协议具体客户名单不便在这里公开。唐小引没关系我们理解保密需求。您只需分享那些可以公开的技术进展即可。唐睿撇开商业客户不谈从纯技术和学术合作的角度来看我们最近产出了大量成果。我们与字节跳动、Adobe、谷歌以及浙江大学等机构都有深度的论文合作核心都是基于数据驱动的方式去探索空间智能的不同维度。正如我这次演讲所提到的我们正在尝试对“3D 空间”进行解构。空间看似复杂但拆解到最基础的层级核心元素其实只有三样几何、物理材质和光。以现在的热门模型为例像腾讯的“混元 3D”这类大模型主要解决的是“生成空间内容”的问题也就是几何和材质的生成。但有了物体还不够这些几何体和材质需要通过特定的布局才能组合成一个有意义的空间。所以我们的研究重点主要分两块第一是空间内几何体和材质的高质量生成第二是研究空间内物体的合理摆放与布局。在此基础上我们与浙江大学的合作更进一步。除了物体我们还在研究“光的布局”——包括光线的摆放位置、照射方向。更极客一点的探索是我们是否能用 AI 大模型去拟合光线的物理传播过程也就是用 AI 来模拟传统物理渲染中的光照计算。数据难题与未来图景室内数据采集与硬件突破唐小引您在演讲中提到一个观点让我印象深刻相比室外自动驾驶场景室内空间的数据获取和标注难度反而更大。我作为外行可能会觉得室内环境相对封闭应该更容易为什么业内会有这样的判断难点究竟在哪里唐睿这是一个非常好的问题。我们可以对比一下室外自动驾驶的数据获取方式。像室外数据或者说自动驾驶行业它的数据获取方式就是车上搭着摄像头。唐小引它跑着跑着就有了我经常看到。唐睿对它就能收集数据了可能你跟一个市政府、区政府签一个许可就可以了。所以采集是一种产生数据的方式我们称之为逆向捕获重建。另一种是正向设计。像自动驾驶领域就会拿《GTA 5》作为一个仿真场景再让一辆虚拟的车在《GTA 5》的世界里开它也能够产生数据。所以自动驾驶使用这种方式现在的具身智能其实也一直在用这种方式。但是真实数据的采集第一它的许可很难获取或者在家里采集的话会涉及到用户隐私。当然像埃隆·马斯克这种不差钱的他们做 Optimus 的时候我记得是在德州做了一个很大的场馆每个馆里都有一个机器人还有人类操作员去给机器人下达任务然后机器人就去做抓取或者行动以此来产生数据。但这里面一方面是刚才提到的隐私问题。另一方面机器人任务可比车子复杂多了。车子操作的方式就是前后左右它唯一的目标就是不要碰到任何东西并且能从 A 点到 B 点。但对于机器人来说抓一个光滑的杯子和抓一个塑料的笔其实都是两种任务因为你接触到的物理属性、物理对象的大小和形状都不一样。圆形的杯子你可能是这么抓马克杯你可能勾住把手就行了。所以由于任务的多样化会导致数据的非集中化程度非常高成本就会出现问题。所以大家也是参照自动驾驶领域合成数据对于具身智能来说是非常关键的一种数据产生范式。唐小引对于空间智能而言下一步的进化形态会是什么样的比如过几年在我的室内环境里会发生哪些本质的升级唐睿要回答机器人的升级路径我们得回归本质。撇开具体的算法不谈机器人在空间中的核心链路一共分四步第一是空间感知第二是空间理解第三是空间推理与决策最后是空间行动。未来的升级也会沿着这四个维度逐层展开首先是“空间感知”的泛化。感知设备正在经历一场从“高冷”到“普及”的下沉。早期的空间扫描设备只出现在军工、航天或博物馆数字化等国家级项目中后来下放到了工厂和新能源车上如激光雷达随着硬件发展未来空间感知设备最终会普及到每个人手里甚至戴在眼睛上。虽然现在大众的目光主要聚焦在 ChatGPT、Agent 等软件层面上但其实硬件感知能力的进化速度是非常快的这块板子很快会补齐。其次是“空间理解”的质变。这正是我们在今年2025 年 3 月 GTC 大会上发布 Spatial-LM空间语言模型的初衷。它与传统的 ChatGPT 或图像理解模型最大的不同在于输入数据我们不再处理平面的文本符号或像素图片而是直接处理由感知设备采集的 3D 点云或 3D 高斯数据。在这个阶段AI 的任务不再是泛泛地识别而是要精准地感知几何目标。比如它不仅要知道“这是一把椅子”还要知道“这个空间的尺寸是否允许人类通行”。它需要反馈给我们非常精准的几何结构、颜色、光照乃至物理属性的信息。最后是“空间推理与交互”的智能化。这也是我们开源 Spatial-LM 也是希望呼吁整个社区关注的方向。到了这一步我们需要通过仿真和合成数据的方式去产生海量的高质量交互数据。只有这样我们的智能体才能真正学会如何在物理世界中顺滑地行动变得更加“聪明”。技术路线之争合成数据、2D 与 3D 的融合探索唐小引对仿真和合成数据。我最开始听黄仁勋本人就在强调这个。现在因为互联网数据耗尽的问题在直接的 AI 软件层面大家也在主攻这个方向。那相应地具身智能和空间智能也都在做这个方向从技术挑战上有什么不同点吗唐睿先讲不同点还是相同点。我觉得技术是 Application-Driven应用驱动的。唐小引我发现这是您的理念您在始终强调这个。唐睿对因为做技术管理者需要连接技术和应用。换句话说资源是有限的在有限的资源下怎么样创造最大的价值那就必须要把前面的应用场景考虑清楚。当我们谈论“空间智能”的合成数据时它的复杂度是随着应用场景的需求分层级递进的第一层是“视觉级”需求。比如做家装设计或空间渲染它的核心诉求是“看”。只要渲染得逼真、美观就足够了这是一个静态的维度。第二层是“游戏级”需求。如果是手机游戏或 VR 体验光“看”是不够的还需要基础交互。比如不能出现“穿模”——你不能直接穿过桌子或墙壁柜门要能打开物体要能被拿起来。但在这一层物理属性往往是简化的游戏引擎并不在乎你抓取一个物体用了多少牛顿的力只要逻辑通顺即可。第三层才是具身智能所需的“物理仿真级”需求我们称之为“Sim-Ready”。当你需要生成数据去训练机器人时对物理属性和交互准确度的要求会呈指数级上升。机器人需要知道物体的摩擦力、质量分布、形变属性等。所以我们的工作也是层层递进的首先构建一个静态场景然后通过数据增强赋予其物理属性使其变成动态的可交互场景最终达到“Sim-Ready”的标准即可以直接用于物理仿真训练的场景。目前我们团队的前沿研究正在主攻“Sim-Ready”方向而我们的核心业务则更多聚焦在空间设计应用层面。最后补充一点虽然物理仿真的合成数据对具身智能至关重要但这并非全部。空间智能主要解决的是“数据短缺”和“空间理解”的问题充当了机器人的“训练场”和“眼睛”。但具身智能作为一个集大成的领域还面临着机械硬件、电路、电池能源等硬科技的挑战。在我看来具身智能和太空探索一样都是人类技术的终极形态之一。唐小引您认为终极目标是具身智能而非空间智能就是说我们对于 AGI 的探索终极目标是落在具身智能上吗唐睿我觉得是在具身智能上。如果我自己来定义一个 AGI那它一定就是跟人一样。如果这个 AGI 只在屏幕空间里那它可能会考虑到空间智能这些事情。但真正走进物理世界具身智能是和屏幕空间对应的物理世界里的 AI那它可能更高级。唐小引我看到当前具身智能在构建世界模型空间智能也在做。有一个观点说空间智能是构建世界模型的前提然后通过世界模型才能到达 AGI。您对这个逻辑有什么看法或者可以分享一下您的观点。唐睿我的观点是这还是一个对 AGI 的定义问题。如果这个 AGI 是在屏幕空间里和人类对话的那他不需要空间智能。但如果他需要在屏幕空间里去创造 3D 世界甚至像具身智能一样走出屏幕空间那空间智能或者说世界模型就非常关键了。提到世界模型和空间智能的关系我觉得目前业界其实并没有一个统一的标准定义。如果我们将世界模型定义为“能够预测世界的下一个状态”或者“能够创造一个新世界”的能力那么鉴于人类本身是三维生物构建世界模型的路径自然分化为两派一派是基于视频生成另一派是基于 3D 结构构造。当然这两者的基座往往都离不开大语言模型。值得注意的是这两条技术路线并非割裂而在互相借鉴与融合。首先是“视频辅助 3D”比如我们在做前馈式的高斯生成时如果初始输入只有一张单图要重建出高质量的 3D 高斯体必须先有多视角的图像信息。这时我们就会借用 Video Diffusion 模型先生成多视角的视频帧作为中间素材再喂给 3D 算法进行重建。反过来是“3D 反哺视频”大家发现纯视频模型有一个致命弱点当时间线拉长后视频内容的一致性很难维持。比如你在视频里向前走了一段路再回头原来的物体可能变样甚至消失了。为了解决这个问题大家开始引入 3D 概念。尝试将 3D 表征或 3D 隐空间作为中间媒介。利用 3D 天然的结构稳定性来强制约束视频生成过程确保其在空间和时间维度上保持高度一致。所以这并不是谁是谁的前提更像是一个螺旋上升、互为支撑的过程。唐小引我听到对于空间智能技术路线的争议比如大家提到的空间一致性以及视频生成和 3D 场景生成的路线之争。您是 3D 这条路线的支持者是吧唐睿也不能算我两个都在做。唐小引都会用所以是融合派。唐睿是。其实不管我们做 2D 的 Diffusion还是做 Video Diffusion大家会发现你要把分辨率拉大或者把视频的长度拉长显存就不够了。我们做 3D 的时候也会出现这个问题。所以它其实还是一个资源限制导致我们现在必须以一种融合的方式去进行。未来如果 GPU 显存无限大或者我们有一种新的、不是 Transformer 这样的算法甚至我称之为一种 3D 的……如果我们定义一个 3D 的 Killer concept 出现那可能原来的基础算法就翻篇了。就像以前大家做图像会用 CNN当然 CNN 在某些领域还非常好用但是当 Transformer 出现以后原来大家用 CNN 甚至 RNN 的很多方法其实真的已经翻篇了。大家为什么现在还在融合或者说为什么还在探索其实也是在找一个 Killer concept 。唐小引那围绕空间智能还有哪些技术路线的争议吗我发现大家的各种讨论都还蛮有意思的。唐睿围绕空间智能我觉得不存在争议因为现在大家还在一条船上探索。唐小引那在探索中有什么共识和非共识吗在技术这个维度上。唐睿共识是数据都缺少。非共识我觉得也不能叫非共识因为这个领域还是比较前沿的你会发现还有很多论文在做这里面还有很多探索空间。当一个领域不怎么出现新论文时可能已经去泡沫化了。现在这里面还有泡沫就说明还有很多事情有价值不管是商业价值还是技术探索价值还能去做。唐小引您刚才说的都缺数据这是痛点。那相应地有什么解决方案这些方案因为本身也在摸索有什么是可行的有什么是可能是各执己见的唐睿可行的方案我觉得就是早上说的正向设计和逆向设计的方式。正向设计让设计师通过设计软件去创作一个 3D 空间或物体它的成本和代价还是比较高的。我们的做法是因为我们有室内空间设计这个业务设计师在我们平台去创造空间的时候它不仅仅是为 AI 训练产生价值它最主要、最直接的价值是服务于空间设计、空间展示、空间交互这样的需求。所以那部分价值已经在市场上浮现出来设计师也能够通过这个获得回报。我们所以有这个数据但我个人觉得从数据的角度来说它不是一个最高效的产生数据的方式。最高效的方式应该是就像我们戴手表或者用手机的时候你在日常生活的每一个行为、每一个动作都能产生数据那才是解决数据问题的最终之道。所以我们也在跟不同的硬件去生态合作。所以至少在空间智能领域我们是不会去忽视硬件发展的。当我的眼镜、手机甚至手表都能采集空间数据时这可能是解决空间数据不足的最终解决方案。这是我的一个认知。至于分歧如果说技术上有分歧那就是把 2D Diffusion 和3D Diffusion 哪个作为中间媒介来做。你用不同的中间媒介比如 3D 作为中间媒介那视频就是最终的成品如果你说 2D 作为中间媒介那 3D 就是最终的成品。开源的力量共建空间智能生态唐小引可以再谈谈开源。群核在开源方面做了很多可以讲讲吗比如您和公司管理层对于开源策略的思考以及群核开源策略的演进。唐睿我们也有点照猫画虎硅谷这边很流行开源文化。从我做技术的角度如果不谈技术国界和边界我们最希望的是开源。当然也要从商业化的角度去思考因为现在至少在世界模型或者空间智能这个角度还没有一个核心概念出现。在这种情况下我们选择把数据和模型开源出去本质上是抛砖引玉希望能集结整个社区的智慧共同探索和定义这个领域的未来标准。另一个角度开源和我们服务的生态定位有关。打个比方我们的三维空间数据大家也会拿来去训练 Embodied AI也会训练 3D 世界模型。那以 Embodied AI 为例我们会发现在市场上全球角度来说真正能够去训练机器人对空间理解、空间交互的团队是非常少的。但是又有很多小型团队希望参与到这个游戏里面来。这就是我们为什么去开源 Spatial-LM 这样一个空间理解模型的意义。你可能自己没办法去训练一个这样的模型但是我把 API 做好甚至我把我们已经训练好的模型先放出来然后你自己有一些数据以后也能够在我的模型基础上去微调出一个符合你业务场景的模型让更多的人参与到这个游戏里面来。这是我们在空间理解这块做的。就像空间生成其实我们也会在年底的时候发布一个跟空间生成相关的大模型出来。也是同样的逻辑并非一定要技术人员才能创业。我们希望更多的产品经理也能够跳出来用起来然后把商业模式……因为其实在 AI 时代技术很关键但是另外对产品的定义、对用户的定义以及用户数据和模型的飞轮其实也是一个 AI 企业尤其是 AI 初创企业能够成功的关键。唐小引最后总结一下。从空间智能的技术发展上来看比如数据、算力、模型这些方面在接下来的一段时间可以是短期或长期还会有哪些关键的突破这是技术发展。然后相应地体现到人回归到人身上。现在我理解空间智能开始被越来越多的开发者知道这可能核心得益于比如群核是杭州六小龙之一比如李飞飞这位知名的 AI 学者也在投身这个方向。但很多人可能刚从陌生到逐渐了解您有哪些思考和建议可以分享给希望投身空间智能领域的人唐睿这很难说。在前 AI 时代或者说再往前一两年都是人在开发 AI现在你已经能够看到……就像 xAI 他们已经在做的一些事情包括我觉得这可能也是 CSDN 在致力研究的一些事情就是 AI 真的是在参与到 AI 的开发过程里面去了。所以当这个循环转起来以后AI 的发展技术是非常可怕的。当然提到空间智能它的突破点我觉得等硬件。从软件的角度说AI 已经能开发 AI 了。算力不由我们决定我们搞不了芯片。然后从数据的角度来说如果要产生一个爆点这个爆点一定是在我们对现实的创作或者说我们创作 3D 空间的方式上。原来创作 3D 空间的方式刚才提到只能是设计师去设计。当每个人都可以对空间进行捕获、进行还原的时候它会是一个爆点。这个爆点我觉得应该两年可能 24 个月。第二个问题其实这也是我们团队里搞科研时会定义的一个态度。一个思维态度是Be Critical Be Creative就是用批判和创造性的态度去看问题。另外在能力角度不能光想想法本身不值钱你一定要去做实现。所以做空间智能的时候可能也跟我自身的经历有关我做过图形学。图形学里面我们不光是像 CV 里看到这个东西是蓝色就是蓝色当我这个灯换成一个红色的光时它照下来就是紫色了。所以把这种批判和创造性的理念放到多个领域里面去会有很大的帮助。唐小引所以我理解还是思维上的转变。唐睿其实也不是咱们科研工作者都得持续地保持这样一种说白了就是进取的态度。唐小引: 好的谢谢唐老师为我们带来的精彩分享。谢谢大家下次再见。投稿或寻求报道zhanghycsdn.net↓想要观看完整视频的小伙伴可戳~关于《万有引力》这是由 CSDN 《新程序员》执行总编唐小引主理的对话栏目。技术趋势多变一不留神总担心错过。正在发生的技术事件对于我们开发者意味着什么我们面临的诸多困惑从何寻找答案《万有引力》即志在于此直面事件与困惑抽丝剥茧解读技术真相。栏目定位一档面向开发者群体聚焦解读技术真相的对话栏目。视频观看平台CSDN 视频号、CSDN 网站 App多形式文章、视频、音频都会有持续关注 CSDN 公众号都可获取欢迎大家关注

相关新闻

最新新闻

日新闻

周新闻

月新闻