遇到一个史上最强手机三维扫描APP

遇到一个史上最强手机三维扫描APP


之前在测试手机三维建模时,下载过两个APP,分别是PolyCam,RealityScan。但是这两个APP基本上只能在装有LiDAR(激光雷达)的iPhone或者iPad Pro上使用。

我也曾经详细测试过PolyCam,例如,对户外一个水池的建模,其实,操作,速度和效果都还是能够接受的。基本上就是拿着iPhone或者iPad Pro绕着场景走一圈,然后在APP里处理一分钟左右就可以了。

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416248-5752.gif

但是,对我的使用而言,还是很难成为主要的手段,从成像质量上看,虽然不错,但是跟我使用专业相机严谨拍摄后再上云建模比,画质还是不如的。而对于一些小物件的拍摄,例如以下场景,受限于激光雷达和镜头的最近距离,效果是很差的:精度远远不够,画质一塌糊涂,完全不可用。

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416231-9628.gif

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416302-6485.gif

当然,以上GIF动图也展示了一个标准的采集过程,刚开始采集时,所有区域都是蓝色阴影的,意味着没有得到足够的数据,当需要的区域蓝色阴影全部消失后,意味着采集完成,就可以进入建模过程。整个过程还是非常流畅的。

插一句,苹果在开发套件里加入了完整的ARKit,其中ObjectCapture库大概只需要几行代码就能完成一个利用iPhone或者iPad进行三维建模的过程。代码库先行,从来就是苹果的产品研发路径。是可以期待这些代码库在昨晚半小时内就抢光的Vision Pro上彻底释放软硬件结合的潜力的。

言归正传,客观上讲,这个Shargeek的充电宝是非常难扫描的,因为表面全是玻璃,反光严重,里面的电路板和电子元器件细节又非常足,照片都不太好拍,别说三维建模了。我也曾经使用刚到手未满月的Revopoint Miraco三维扫描仪进行了多次尝试,基本都是失败告终。

本来,在我的计划里,是准备尝试3D Gaussian Splatting(3D高斯飞溅?国内也有翻译成雪球飞溅,我觉得都不好听,但无所谓了,就这样吧,简称3DGS)的:用微距镜头采集足够的细节,然后上云端跑模型的。因为从相关论文的结果看,无论是在场景的完整性,表面材质的体现,还是透明反光物体的表现上,都是有巨大进步的。

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416322-7126.png

这个模型出来半年,我对后续变种进展也大概关注了半年,当然,这一两个月,我也发现国内自媒体对论文的“AI翻译及精选版”也都多了起来,却都是不求甚解(正在准备一篇完整的关于三维建模算法、模型、流程的介绍,下周可以出来)。

又跑题了,简单讲,3DGS模型是可以在一定程度上接近专业相机的照片效果的,当然,模型的使用范围还是非常受局限的。要跑起来,对模型环境也有比较高的要求。所以,讨论的不少,实际使用的很少,甚至,大量后续的论文也都是使用那几个同样的数据集,代码的灵活性也远远不够。

但是,这个情况被改变了,最近一个月出现两个重磅APP或者应用,一个是KIRI Engine,一个是Luma.AI。今天的主角就是KIRI Engine。大概一个月前KIRI宣布要支持3DGS模型的,而且不需要激光雷达,所以,我下载了,那时候3DGS还没开放,所以我只是试了一次就放在那里了。前两天,突然发现APP更新了,建模选项里赫然多了3DGS的Beta版本,如下。

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416228-5838.png

只是,习惯性的套路,APP下载免费,高级功能需要付费,本来我准备接受月费14.99美金,如果年付是一次性59.99美金(相当于每个月5美金,what?)的方案了,然后付款时居然多了新的选项:新手早鸟价,年付35.99美金(月费3美金),当然不犹豫了,顺利升级成Pro版本,解锁3DGS功能。

操作,就是点开【+】添加模型,然后选择【3DGS】,直接拍摄一段视频,或者从本地上传。我开始是使用直接拍摄,拍摄过程中,APP会有一些拍摄的提示,比如手机移动慢一点,还有就是容量提示(目前视频最长长度两分钟,对应大概处理上限就是200张照片)等等。但是试了几次后,我开始单独拍摄视频,然后上传,这样做的好处:一是画质会更好,二是可以选择闪光灯常亮,进一步提升画质。

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416245-5150.gif

当然,还有一大好处是:不挑设备,无论苹果还是安卓都可以。因为,其实,模型是跑在云端的。

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416225-4297.png

模型上传后,会先排队,然后利用云端资源跑模型,一段时间后可以查看。所以,一个好的方法应该是,睡觉前拍一批视频,上传,第二天起床后“收菜”。KIRI还有个优点是,同时提供的网页版,可以直接上传例如专业相机拍摄的照片,网页版账号权限跟APP同步,所以通过手机采集上传的模型也可以通过网页版浏览、简单编辑。

话不多说,我们先看同样的Shargeek充电宝的建模效果。

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416325-280.gif

实事求是讲,把这个模型拿出去做产品宣传,肯定一个都卖不出去,但这就是现在三维模型对于这类高难度物体建模的天花板了,或者说,“傻瓜化一键式”操作的天花板。但是,别忘了,这类模型是可以进到Unreal Engine、Unity、AutoCAD、Blender这类软件里面再进行精细调整的,在高水平人类设计师的调整下,最终出来的效果是会绝对惊艳的。

但是,即使这样的效果,我们也可以看到,玻璃反光的问题基本被克服,上面很多文字的部分清晰可辨,元器件清晰可辨,大小、材质质感基本正确。

有人问,这是AIGC吗?3DGS可以看作某种AIGC算法,但不是我们所谓的文生图,文生三维(顺便说一句,现在三维素材奇缺,文生三维说的再天花乱坠,大家看看就是了,至少2024年不会有太大进展)。

这个充电宝大概是最难的模型,那么其他呢?

比如,花,实际质量我非常满意,问题是,因为2分钟视频的限制,我无法高质量的绕着这盒花采集一圈。所以,是不是可以期待更高级的权限,例如可以十分钟视频?

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416279-4793.gif

再比如,同样来自Shargeek的氮化镓复古充电器。这个模型我没有进行裁剪,所以可以清晰的看到环境,以及因为录制视频时候难免出现的移动速度过快导致的blur现象。这是NeRF和3DGS模型(从根上讲,3DGS属于NeRF的变种)的通病,但是后期初期是可以解决的。同时,再安利一下Shargeek这个品牌,其实是中国设计,中国制造的,但是产品都是直接在海外销售的,每一个都是精品。

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416248-1253.gif

再比如,一些小摆件。

2024-01-20-遇到一个史上最强手机三维扫描app-1u0hgp-1772019416339-8065.gif

2023年四季度时候,我说过,2024年有这么几个看点:AGI、AI硬件、三维重建。

虽然实事求是的讲,三维重建要达到我们人眼接受的程度,还有一些距离要走,但是我们已经看到并且还会看到ChatGPT发布后各种模型的加加速进步;我们也要看到,现在的结果是纯靠计算出来的,后期,只需要高水平设计师适当的调整,对工作量的节省已经是难以估量了。

(对很多人来讲,这显然不是好事,硅谷的裁员潮蔓延的趋势看起来已经很难通过市场化的力量来减缓了。)

最后,如果想尝试的朋友,如正文中所说,KIRI Engine正在促销,年费35.99美金,约合人民币260元不到。当然,也可以用我的邀请码注册,说是可以有更多优惠,至少可以送一些模型导出的优惠券: https://www.kiriengine.app/share/Invitation?code=YN4NI5

KIRI Engine是KIRI Innov的公司推出的,感兴趣的可以搜一下相关资料,说不定会有惊喜。

← Back to Blog