随着计算能力的提升,随着人工智能技术变革,很多行业正在进入到被颠覆的过程。在工作过程当中,我们跟很多来自测绘院的“老兵”交流,他们看到“书生·天际”以后,真切感觉整个行业的变革就要来临,以前他们拿着一些很专业的仪器进行长时间测绘,未来只需要操作无人机,在整个城市飞一圈,就能够实时高清地构建一个城市甚至一个更大范围区域的实景三维模型。
“书生·天际”是全球首个基于人工智能技术的城市级实景三维大模型,这是人工智能给不同行业带来变革的其中一个侧面。
它的灵感,最早来自几年前谷歌发表的一篇论文,主题围绕神经辐射场展开。这篇论文对于三维重建提出革命性方法,只需要围绕一个物体拍摄几百张照片,融汇到一个人工智能的神经网络里,就能够以非常精细的方式,构建出整个物体非常逼真的三维模型。
这篇论文提出的方法风靡全球,主要用途是重建小物体,但实用性功能没有被发掘出来。我们团队认为,这种方法真正的用武之地应当是大场景,比如城市。基于这样的想法,我们启动了“书生·天际”的技术研发项目。
经过一年多的努力,我们研发出了真正能把人工智能神经辐射场技术用在城市级场景的三维建模。2023年世界人工智能大会上,我们发布了“书生·天际”1.0版本,它是一个拥有千亿参数的巨大神经辐射场模型,开创性地实现了对100平方公里范围进行城市级NeRF实景三维建模,并支持1K分辨率实时渲染及4K离线渲染。
在上海市测绘院的支持下,我们在徐汇滨江、世纪公园、朱家角等区域构建城市级三维模型,而且实现了4K精度细节的建模,这也是世界上首次实现这么大的实景三维模型。我们通过模型可以看到每一扇窗户、每一片树叶的细节,而且通过人工智能技术还能在模型上进行编辑,加以风格化,比如变换季节、穿插新建筑。
但是1.0版本的建模非常昂贵,对算力的要求非常高,所以2.0版本进行了优化。得益于算法的全面演进和对系统资源的高效利用,升级后的“书生·天际”2.0所需算力资源较上一代大幅降低,仅需单张消费级显卡即可高效完成大场景重建训练和实时渲染编辑。支持对场景的编辑和本地部署,将使用门槛大幅拉低,个人开发者也可藉此获得大范围场景复现能力,并根据使用场景灵活应用该模型。并且2.0版本的精度更高,可以以更低的成本实现更逼真的渲染和建模。
“书生·天际”2.0并不是整个故事的终止。我们更进一步的模型不仅是对整个场景进行建模,还要剖析每一个建筑的内部结构,通过机器学习的方法可以看到所有建筑的构成,具体到各个构件的原型。只需要把各个构件的元素全部挖掘出来进行重组,就能够构建出不一样的建筑。基于这样的技术,我们将构建一个新的MatrixCity数据集。
(作者系香港中文大学信息工程系副教授、上海人工智能实验室领军科学家)