一张图搞定3D视效!深度解读北大、港中文、腾讯等联合开源项目ViewCrafter_小9直播app_小九体育直播下载_小九体育直播在线观看

一张图搞定3D视效!深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

来源:小9直播app    发布时间:2024-10-25 11:53:24

碳粉成型机简介:

  ,可以从根据单张或稀疏输入图像生成精确相机可控的新视角视频,并支持场景级图生3D、文生3D和稀疏视角重建等应用。

  尽管NeRF和3D-GS等新视角生成办法能够生成高保真度的新视角,但他们依赖于密集的多视角训练数据,且不具备泛化能力,这限制了它们在训练资源受限场景下的应用。在实际应用中,一个更普适的问题场景是训练一个可范化的模型,在不需要训练或微调的情况下从稀疏视角图像甚至单张输入图像中生成新视角。解决这一个问题具有相当大的挑战性,因为它需要训练的模型对3D物理世界有全面的理解。为实现这个目标,我们提出ViewCrafter,一个能够对任意输入图像实现相机轨迹精确可控的新视角视频生成的视频扩散模型,并基于ViewCrafter探索了图像生成3D、文本生成3D和稀疏视角重建等应用。

  DUSt3R等快速多视图/单视图stereo技术的发展使得从单张或稀疏图像中快速重建点云表征成为可能。点云表征可提供3D场景的粗略信息,支持精确的相机位置控制以实现自由视角渲染。然而,由于点云的表示能力较弱,加之极其稀疏的输入图像只能提供有限的3D线索,重建出的点云存在大面积的遮挡和缺失区域,并可能面临几何形变和点云噪声。这样一些问题限制了其在新视角合成上的应用。

  在大规模视频数据集上训练的视频扩散模型能够深入理解3D物理世界,支持从单张图像或文本提示中生成符合物理规律和现实世界规则的视频内容。然而,现有的视频扩散模型缺乏显式的场景3D信息,因此在视频生成过程中难以实现精确的相机视角控制。

  我们提出将视频扩散模型的生成能力与点云表征提供的显式3D先验相结合,以实现相机精准可控的任意场景高保真度新视角视频生成。

  如图所示, 给定单张或稀疏视角输入图像,我们第一步用快速多视图stereo方法构建其点云表征,以实现精准地移动相机进行自由视角渲染。随后,未解决点云渲染结果中存在的大面积缺失区域、几何失真和点云伪影,我们训练了一个以点云渲染结果为控制信号的视频扩散模型作为增强渲染器,在粗糙的点云渲染结果的基础上进一步生成具有高保线D一致性的新视角。

  视频扩散模型主要由三个模块组成。我们采用一对继承自Stable Diffusion的VAE编码器和解码器对点云渲染结果进行压缩,以降低模型开销。此外,我们利用CLIP图像编码器处理参考图像,以使得模型获得对输入图像的语义关系的理解。模型的核心是一个去噪U-Net,他接受压缩后的点云渲染结果和噪声作为输入,将其逐步去噪成具有高保真度的新视角。在训练过程中,我们只训练去噪U-Net的权重,冻结其他模块的参数,并在RealEstate10K和DL3DV这两个大规模多视角数据集上进行训练。

  在推理过程中,通过结合点云提供的显式3D信息以及视频扩散模型的强大生成能力,我们的方法能够在视频生成过程中实现6自由度的精准相机位姿控制,并生成高保真度、一致性强的新视角视频。

  基于ViewCrafter和我们提出的迭代式新视角生成算法,我们大家可以从单张图像/稀疏视角甚至一段文字描述中进行3D高斯重建,以支持实时渲染和沉浸式3D体验。

  我们在Tanks-and-Temples,CO3D, RealEstate10K这三个真实世界数据集上与SOTA办法来进行了定量和定性比较,实验结果证明我们的方法在相机位姿控制的精准程度,以及生成新视角的视觉质量上都大幅超过对比方法

  我们在Tanks-and-Temples数据集上与稀疏视角重建领域的SOTA办法来进行了定量和定性比较,实验结果证明我们的方法在3D高斯重建渲染出的新视角的视觉质量上大幅超过对比方法

  一些同期工作采用普吕克坐标作为视频生成模型的控制信号,以实现相机可控的新视角生成。作为对比,为了验证点云控制信号的优越性,我们训练了一个以普吕克坐标为控制信号的新视角生成模型,并来控制变量实验,保证除了控制信号外其他模型结构与ViewCrafter一致。两个模型在新视角生成任务上对比结果如下所示:

  实验结果证明,不管是在新视角生成质量还是在相机控制的精准程度上,个人会使用的基于点云的控制信号都要优于基于普吕克坐标的控制信号。

  如图所示,对于作为控制信号的点云具有严重几何形变的情况,我们的模型依然能够有效地进行几何纠错和空洞修补。这证明了我们的方法对点云控制信号的鲁棒性。

  我们验证了ViewCrafter对于静态场景的强大新视角生成能力。在未来的工作中,我们将探索和单目视频深度估计方法结合,实现单目动态视频的新视角生成和4D重建。

  ) 。 社区上线+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

  我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

  或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还能关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

  将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科学技术创新企业,推动企业创新发展与产业升级。

  将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

  如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  上海男子傻眼:司机带我绕中环反方向狂奔!多付170余元,才到浦东机场...

  黎:与以进入“开放式清算之战”!以防长:将不惜代价完成作战目标!美国白宫最新发声

  94分钟绝杀!德甲史诗般逆转:从2-1到2-3到4-3,阿隆索创造奇迹

  AOC 冠捷推出星海 CG389 白色 M-ATX 海景房机箱,169 元

  技嘉注册共 45 款英特尔 B860、AMD B850 主板,为明年发布做准备