- 7.30 AM - 9.30 PM
- (001) 25465 258 369
李一鸣,一位曾在英伟达担任视觉与机器人领域研究员的前科学家,现任清华大学人工智能学院的助理教授,认为当前人工智能领域对“世界模型”的追逐存在一种普遍的焦虑。他将“世界模型”比作“一匹运送荔枝的马”,强调其本身并非目的,而是一种解决问题的技术手段,脱离了数据采集、模型研发、硬件部署等配套环节,将毫无价值。
他观察到,自2026年初回国后,国内AI领域对“世界模型”概念趋之若鹜,导致该赛道估值泡沫化。无论是视频模型、3D模型,还是视觉-语言-行动(VLA)的具身智能,只要与仿真或物理相关,便纷纷归入“世界模型”的范畴。然而,李一鸣认为,相比于界定“世界模型”的精确定义,更重要的是构建一套能让机器人在各种场景中实现泛化的系统。
为此,李一鸣团队提出了名为“Physical AI Infra”的解决方案,该方案由数据和物理双重驱动,包含两个核心自研组件:
- 数据管线:旨在将数据采集规模从行业平均的数十万小时迅速扩展至数百万至千万小时。
- 物理引擎:实现“真实到仿真再到真实”(Real-to-Sim-Real)的闭环,即利用真实世界数据构建仿真环境,供机器人进行物理世界的强化学习,最终在真实世界执行任务。
“世界模型”在这套系统中并非独立存在,而是贯穿于各个环节。它被用作数据采集后的预训练目标,并在后训练阶段充当机器人进行强化学习的仿真环境。该基础设施已成功训练机器人掌握切割、旋拧、插拔、搅拌、按压、捏取、穿引等精细操作技能,并能跨不同类型的灵巧手和机械臂进行部署,适用于生产制造、零售服务、酒店运营、餐饮备料、医疗辅助等多种场景。
基于这套技术方案,成立于2026年4月的初创公司“厘清智能”在短短两个月内完成了多轮融资。据《智能涌现》独家获悉,厘清智能的种子轮融资额高达数亿元,投资方包括顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND等风险投资机构,以及智元机器人、灵心巧手、世纪金源等多方产业资本。
厘清智能受到资本青睐的原因在于其稀缺性。一方面,公司汇聚了具备软硬一体化能力的复合型人才。李一鸣本人拥有空间感知、多模态推理、自动驾驶及具身智能等跨领域经验,曾与AMI Labs联合创始人谢赛宁合作发表具身视觉推理研究成果,并与英伟达联合发表多篇顶级会议论文。厘清智能的50余名团队成员多为清华学子,平均年龄23岁。
另一方面,厘清智能选择了“重”的技术路线,即从数据采集、模型训练到物理引擎,实现全栈自研。这种模式在国内较为少见,前期投入巨大且技术难度高,但李一鸣认为,只有打通所有环节,才能确保信息流畅,实现协同优化。
李一鸣规划,到2026年底,团队将发布可在B端场景中通用的“世界模型”;到2028年,实现解决方案的规模化交付。其最终目标是为客户提供一套软硬一体化的解决方案,跨越不同本体和场景,解决实际问题。
李一鸣在接受《智能涌现》采访时,分享了他对技术判断以及对“世界模型”和“Physical AI”的看法。
Physical AI 公司,不是本体公司,也不是模型公司
李一鸣强调,厘清智能构建的是一套系统,而非仅仅是“世界模型”。公司以解决实际问题为导向,训练“世界模型”的目的是为了解决Physical AI(物理AI)的难题,提升任务成功率。因此,重点在于如何整合数据、模型、硬件和基础设施,最终形成能在实际场景中工作的“世界模型”。“世界模型”被整合到预训练和后训练过程中,作为自监督训练目标或可交互的仿真环境。厘清智能提供的不仅仅是“世界模型”,而是包含数据管线、世界模型、物理引擎的完整系统。
他指出,新一代的Physical AI团队的核心特征是“全栈”。厘清智能从数据采集设备、数据管线,到可微物理引擎和模型训练,均自主研发。例如,自研的全掌触觉手套降低了数据采集成本,实现了百万小时级别的数据规模化;自研的可微物理引擎能够实现Real-to-Sim-Real闭环,高效处理复杂材质,并作为强化学习的后训练平台。基于广泛场景数据和物理引擎,其自研的“世界模型”操作系统能够快速泛化并实现跨本体能力。
李一鸣提出,新时代的具身公司应定位为“World Model as Service”公司,而非本体或模型公司。随着数据积累,公司能够实现快速的跨本体泛化,最终交付客户的是软硬一体的系统解决方案,该方案可根据落地场景和客户预算自动匹配最优硬件,即插即用。
对于Physical AI人才画像,他认为关键在于“软硬一体”,这与LLM人才需求不同。国内这类人才非常稀缺,厘清智能利用清华的平台优势,发掘和培养年轻人才,通过在优秀团队中的实践,他们能够快速成长。
不能只做数据采集,忽视物理规律
李一鸣认为,具身模型的参数量需要达到甚至超越语言模型,才能实现“智能涌现”。语言是压缩过的世界规则,而基于自然信号训练的具身模型需要更多数据和参数。
他认为,人类数据比真机数据更容易规模化,因为全球有数亿人在一线工作和生活中,相较于操纵机器人采集数据,真人采集数据的效率更高。厘清智能已与工厂、酒店、物业、商场、厨房等场景方合作,以快速积累数据。
李一鸣强调,构建Physical AI Infra不能仅依赖数据采集,还需要融入物理规律。现有数据量不足以支持Physical AI自主泛化到所有场景,而物理规律(如牛顿定律)具有通用性,可以弥补数据局限。
厘清智能设计了一套满足物理约束的“世界模型”方案,能够利用极少量(1%)的真机数据,通过对齐真机数据和物理世界模型的状态转移,并回传损失函数进行优化,使得机器人能在虚拟环境中自主学习。例如,机器人学习切苹果,只需真实切十次,其余练习可在物理世界模型中完成。
VLA、视频模型、JEPA,都不是「原生世界模型」
李一鸣区分了“世界模型”与“语言模型”的作用:世界模型负责机器与世界的交互,语言模型负责机器与人的交互。他认为,基于LLM的VLM和VLA模型与物理世界的适配性不强,因为语言模型是高度离散化的空间,充满偏差且无法完全表达世界。语言的本质是交流,是人机交互界面,而非世界本身。
他指出,世界模型的训练需要监督微调(SFT)和强化学习(RL)。物理世界的数据量不足,需要自行采集并建立标准。与LLM不同,世界模型必须遵循物理规律,因此厘清智能自研了可微物理引擎,确保后训练过程满足物理约束。因此,世界模型的训练是一个系统工程,需要联合预训练、后训练以及数据和硬件基础设施。
李一鸣定义“原生世界模型”为能够打通感知、推理、决策、动作输出,并专为机器与世界交互任务设计的模型。他认为VLA因其离散的语言表征而非真实世界,JEPA因只能预测状态而无法输出动作,以及视频生成模型因推理过程非原生且难以保证几何和物理一致性,都不是“原生世界模型”。
他认为,训练“原生世界模型”的关键在于高效地将物理世界“tokenization”(表征化)。多模态观测(视觉、触觉、力觉)如何被压缩为模型可理解的Token序列,决定了模型的理解能力。厘清智能是少数能够实现表征端tokenization的公司,其视觉tokenizer效果已优于Meta的DINOv3。
构建Physical AI Infra是训练世界模型的另一挑战,需要设计高效的物理引擎来建模复杂物体和流体的状态转移,以便机器人进行强化学习。真正的Physical AI Infra应能支持数据效率优化、复杂任务的训练效果提升,以及跨任务泛化部署。
2028 年会是 Physical AI 规模化落地的 milestone
李一鸣认为,轮臂(带轮子的机械臂)是适配多数操作场景的硬件形态,尽管人形机器人潜力巨大,但技术难度也高,如负载能力和精确建模问题。
他强调,前期需要积极与场景方合作,以实现数据的规模化和机器的后训练。公司采取“先ToB,后ToC”的模式,优先切入工业、物流及生活消费类场景,这些场景替代性和重复性强,客户有强烈的降本提效需求。尽管硬件成本低于人力成本需要过程,但铺开场景是关键,有助于优化模型性能和加速成本边际效应。
其终极目标是打造一款通用的“Physical AI Infra”,如同iOS之于移动应用,可规模化开发和部署各类物理操作任务。这套“荔枝系统”的核心能力来自于原生世界模型架构以及数据与物理双轮驱动的训练与评测基础设施。
他预测,2028年将是Physical AI规模化落地的里程碑,届时数据采集规模和电机密度将实现跃升,从而支持其方案的规模化落地。








世界杯赛程以世界杯直播为核心,带来高效便捷的体验。