人工智能3D生成赛道升温:影眸科技数亿元融资背后的“思考时代”与技术破局
图片来源:AI生成

在人工智能浪潮席卷各行各业的当下,3D生成模型赛道正经历一场从“观赏”到“生产”的质变。当大多数玩家还在追逐短视频、聊天机器人时,一支平均年龄不到25岁的团队——影眸科技,却用原生3D大模型和连续斩获计算机图形学顶会SIGGRAPH最佳论文的硬核实力,悄悄撬开了商业世界的大门。

近日,影眸科技宣布完成数亿元新一轮融资,由凯辉基金、上海国投先导领投,老股东持续跟投。此前,字节跳动、美团龙珠、红杉、蓝驰已相继押注。伴随融资,团队发布了Rodin Gen-2.5模型,首次将大语言模型的Test-time Scaling策略引入3D生成,让AI学会“思考后再创作”。这一轮AI融资不仅为技术迭代注入了弹药,更让外界开始重新审视3D生成赛道的商业化潜力。

从学术殿堂到商业战场:一支90后团队的AI 3D征途

影眸科技的故事始于2020年,创始人吴迪、CTO张启煊以及两位联合创始人张龙文、曾初啸均来自上海科技大学。团队约60人,平均年龄不到25岁,却已经在图形学顶级会议SIGGRAPH上连续数年斩获最佳论文及提名。不同于许多“学院派”团队在商业化上的举步维艰,影眸从第一天起就带着“生产就绪”的执念。

在早期,整个AI 3D行业几乎都沿着“2D升维3D”的技术路径——先生成物体的多视角图像,再重建为3D资产。这一模式存在不可逆的信息丢失,生成的模型难以直接用于游戏、工业设计等场景。影眸团队做出了一个反共识的决定:用真正的3D数据,从头训练原生3D模型。这条没人走过的路,被他们用CLAY框架走通了。

2024年,影眸提出全球首个产品化的3D原生大模型框架CLAY,其论文提名当年SIGGRAPH最佳论文。同年,基于CLAY架构的Rodin Gen-1发布,直接改变了行业主流技术路线,纷纷转向原生3D生成。这一突破吸引了包括字节跳动、Unity、Figma、Canva在内的头部客户,海外收入占比高达80%。可以说,这支年轻的AI创业公司,在B端市场已经站到了与“通用人工智能”同等重要的产业节点上。

值得一提的是,影眸团队并非只埋头技术。他们在预训练阶段就将可控性设计纳入模型底层,让生成结果从一开始就满足专业用户对“可控”的苛求。这种从源头解决问题的思路,正是他们区别于其他AI创业公司的关键。

人工智能3D生成赛道升温:影眸科技数亿元融资背后的“思考时代”与技术破局配图
图片来源:AI生成

数亿元融资背后:人工智能赛道为何押注“原生3D”?

本轮融资由凯辉基金、上海国投先导领投,老股东续投,影眸累计融资规模已稳坐国内3D生成赛道的头把交椅。此前,字节跳动、美团龙珠、红杉、蓝驰的连续押注,也反映出资本对“原生3D”技术路线的强烈信心。

为何在AI融资整体趋于理性的背景下,影眸能持续获得大额资金?原因或许在于其找到了一个不可替代的刚需场景:生产级3D资产。无论是电商的商品展示、游戏的虚拟物品、工业设计的原型验证,还是具身智能的训练数据,都需要高精度、可编辑、符合物理规律的3D模型。传统的2D升维方案根本无法满足这些要求,而影眸的原生3D模型则能直接输出千万面级的精细资产,配合自研的12K原生贴图,清晰度甚至超越实景扫描。

“我们研发出来的东西需要接入到后期的流程里使用,因此必须做Production-Ready的东西。”吴迪在采访中强调。这种对“可用性”近乎偏执的追求,让影眸在B端积累了超过所有竞品总和的客户数及收入。

同时,影眸也踩中了“世界模型”的风口。张启煊指出,世界模型的核心包括实时视频生成和可仿真环境两部分。影眸选择主攻“可仿真资产”,其产品已上线Sim-Ready功能,用户点击后可直接在英伟达仿真环境中进行物理仿真。具身智能公司纷纷将影眸的3D资产作为训练数据,用于构建黄金标准的仿真环境。可以说,AI融资的注入,正加速影眸从单一模型提供商向“3D基础设施”平台跃迁。

“先思考再生成”:Rodin Gen-2.5如何重塑3D生成范式?

最新发布的Rodin Gen-2.5模型,是影眸在技术上的又一次“升维”。它将大语言模型(LLM)中广泛使用的Test-time Scaling(测试时缩放)策略引入3D生成,让模型能像人一样“先思考再动手”。具体而言,用户可以选择五档思考深度,耗时从4秒到80秒不等,对应从快速草稿到高精度资产的生成模式。

在Extreme-High模式下,Rodin Gen-2.5能生成千万面数的模型,清晰还原皮肤微结构、纹理、毛孔等细节,甚至能保留Logo、文字等传统方法难以处理的元素。这是全球首个千万面级3D生成模型,也是首个12K精度的原生3D贴图模型。

“实现可控性的关键在于,在预训练阶段就将相关设计放进去,和模型底层一起长出来。”张启煊道出了技术差异的核心。从Rodin的第一个版本起,他们就引入了3D ControlNet,允许用户控制生成结果的长宽高和形状;最新版还支持局部自然语言编辑、自动分件、分件后继续分件等功能。这种“多层次可控”能力,让专业创作者告别了“抽卡”式的随机生成,转而拥有类似PS或Blender的精细操控体验。

值得一提的是,Rodin Gen-2.5还同步推出原生3D贴图模型,解决了传统投影法存在的颜色断层、浸染等问题,文字保留能力提升显著。从几何生成到贴图,最快仅需5秒。这一能力与AI图片生成领域的进展异曲同工,但面向的是更高维度的3D资产。

作为唯一连续多年获得SIGGRAPH最佳论文及提名的商业公司,影眸自2020年以来已在顶级学术会议发表30余篇论文,其中70%的科研成果落地产品。这种“学术-工程”的高效转化,正是其技术壁垒的核心。

可控性才是王道:影眸破解3D商用落地“最后一公里”

“从学术圈走出来的人容易有惯性,认为自己的技术和论文很厉害,为什么市场不用。但实际上,实验室研发出来的东西和真正能被使用的东西之间,存在巨大的鸿沟。”吴迪的这段话,道出了许多AI创业公司的通病。影眸的不同之处在于,他们从一开始就将“可控性”作为产品的北极星指标。

在影眸的平台上,用户可以通过自研的3D ControlNet精确控制生成物体的长宽高和形状;能对模型进行局部修改(支持自然语言指令);能自动将复杂的3D资产拆分成独立部件,拆件后还能继续拆件。这些功能看似增加了用户的操作流程,却恰恰是专业用户愿意付费的理由。

“我们对3D生成的用户群体有预估,大部分愿意付费的用户,刚好是那些对‘可控’有需求的群体。”张启煊说。3D生成的落地运用,已经从追求观赏质量,迈向了可控、效率与质量并重的“下半场”。影眸的产品设计成“生成过程中可逐步确认,满意后再付费”,这一模式本身就用对自身模型可用性的底气。

在商业应用场景上,影眸的B端客户覆盖游戏、电商、工业设计、具身智能、空间计算等高价值领域。值得一提的是,具身智能公司大量使用影眸的3D资产作为训练数据,因为“单纯用视频生成做世界模型,难以从视频中学习到真实的物理维度关系”,而3D模型能准确理解物品之间的位置关系、视角连续性好、能进行物理模拟。AI工具导航上也开始出现越来越多与3D生成集成的效率工具,进一步推动行业普及。

B端稳赢、C端反超:影眸的“双轮驱动”商业化逻辑

过去一年,企业级营收的质量与可持续性,正逐步取代消费级用户规模,成为衡量AI公司长期价值的核心维度——以Anthropic为代表的企业级路线被广泛视为模板。影眸走了一条类似的道路:其B端客户营收超过同赛道其他公司的总和,字节跳动、Unity、Figma等头部企业均是长期合作伙伴。

然而,Rodin Gen-2.5发布后,一个有趣的转折出现了:C端收入正在反超B端。订阅用户与ARR的环比增速均超过400%。这一数据背后,是影眸对“真正使用者”的精准定位——建模师、3D打印爱好者、产品设计师等Pro-C用户。这些用户对可控性和质量同样敏感,愿意为“省时省力”付费。

“未来3-5年,3D生成主要还是被专业用户使用。不管是语言模型、图像模型还是其他模型,都很难从绝对效果上完全区分出高下。对于3D生成赛道而言,大众真正的关注点是,模型厂商能否满足下游行业的需求。”吴迪认为,影眸的护城河不在于参数大小,而在于对产业需求的深度理解。

这种理解体现在产品细节中:比如支持将生成资产直接导出为游戏引擎、工业软件所需格式;提供Sim-Ready功能一键适配仿真环境;甚至允许用户对第三方模型进行二次编辑。AI网名生成等轻量工具虽然火爆,但影眸选择深耕重资产领域,反而走出了更稳健的商业闭环。

3D生成的下半场:与世界模型共舞

站在2026年的节点回望,3D生成赛道的格局正在收敛。吴迪判断:“收敛意味着,最终只有少数真正解决了产业问题的团队能留在牌桌上。”影眸的策略是在底层模型上持续精进,同时拓展编辑、Agent化等能力,让模型在专业领域越来越好用。

面对“世界模型”的热潮,影眸选择做“可仿真资产”这一细分角色。张启煊认为,世界模型背后需要两股力量:实时视频生成和可仿真的物理环境。视频生成很难学到真实的物理维度关系,而3D模型天然具备这一优势。未来的世界模型可能是“3D生成与视频生成混合的模式”。

影眸的下一个目标,是将模型训练效率再提升一个数量级。过去一年,由于算法架构上的积累,影眸训练同级别模型的效率远高于同行。随着Agent技术的发展,3D生成有望像AI诗词创作那样,从专业工具演变为大众可用的创意引擎。

在影眸看来,3D生成会是游戏、影视、工业设计乃至物理世界智能化都绕不开的底层能力。“我们服务最专业的用户,解决最真实的生产问题,这个选择决定了我们今天的领先,也决定了我们未来要去定义、而不只是参与下一代3D生产工具的规则。”