区块链 >区块链 > 魔改 Stable Diffusion，开源创新“单目深度估计”模型

魔改 Stable Diffusion，开源创新“单目深度估计”模型

更新时间：2024-01-02 10:31:47

简介文章来源：AIGC开放社区图片来源：由无界AI生成单目深度估计一直是计算机视觉领域的难点。仅凭一张RGB图像，想要还原出场景的三维结构，在几何结构上非常不确定，必须依赖复杂的场景理解能力。即便使用更强大的深度学习模型来实现，也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。为了解决这些难题，苏黎世联邦理工学院的研究人员开发了Marigold模型...

文章来源：AIGC开放社区

图片来源：由无界 AI生成

单目深度估计一直是计算机视觉领域的难点。仅凭一张 RGB 图像，想要还原出场景的三维结构，在几何结构上非常不确定，必须依赖复杂的场景理解能力。

即便使用更强大的深度学习模型来实现，也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。

为了解决这些难题，苏黎世联邦理工学院的研究人员开发了Marigold模型。Marigold不需要从零开始训练，而是在Stable Diffusion（著名开源文生图模型）的基础上进行微调，只需要使用合成数据微调了中间的去噪网络,其他模块例如，编码/解码结构均保持原样,极大降低了训练成本。

实验数据显示，尽管Marigold从未直接学习过真实的深度信息，但在真实场景的测试中，其性能却超越了其他专门训练过的模型，并且迁移、兼容性非常强。

开源地址：https://github.com/prs-eth/Marigold

论文地址：https://arxiv.org/abs/2312.02145

Marigold的核心技术思路是，利用Stable Diffusion模型所捕获的丰富先验知识，来提升深度估计的泛化能力和性能。

简单来说，就是把Stable Diffusion当成一个图片查询数据库，只修改其去噪模块，就变成了可实现单目深度估计的全新模型。

Marigold的关键点在于保持预训练扩散模型的潜在空间，只对去噪U-Net进行修改和微调。

这种方法非常高效，无需实际深度图像的训练数据，就能在多个真实数据集上取得出色的性能表现。