给定一个标题,DreamFusion生成具有高保真外观、深度和法线的可重定向3D对象。对象被表示为神经辐射场,并利用预先训练的文本到图像扩散。
官网摘要:
文本到图像合成的最新突破是由在数十亿图像-文本对上训练的扩散模型驱动的。将这种方法应用于3D合成将需要标记的3D资产的大规模数据集和用于对3D数据进行去噪的高效架构,这两者目前都不存在。在这项工作中,我们通过使用预训练的2D文本到图像扩散模型来执行文本到3D合成来规避这些限制。我们介绍了一种基于概率密度蒸馏的损失,使使用的2D扩散模型的参数化图像生成器的优化的先验。在类似DeepDream的过程中使用这种损失,我们通过梯度下降优化随机初始化的3D模型(神经辐射场,NeRF),以便其随机角度的2D渲染实现低损失。所得到的给定文本的3D模型可以从任何角度查看,通过任意照明重新照明,或合成到任何3D环境中。 我们的方法不需要3D训练数据,也不需要修改图像扩散模型,证明了预训练的图像扩散模型作为先验的有效性。
一款图表格式输出的GPT