区块链 >区块链 > 清华、斯坦福、加大开源，图片生成高精准3D模型

清华、斯坦福、加大开源，图片生成高精准3D模型

更新时间：2023-12-27 09:42:48

简介原文来源：AIGC开放社区图片来源：由无界AI生成随着ChatGPT的出现以及广泛应用，通过文本生成文本、视频、音频等内容，成为实现技术民主化的关键手段。在3D模型领域通过文本生成并不成熟，多数方法是通过图片。而该方法存在生成时间长、缺乏细节、难以匹配图像等缺点。加州大学、清华大学、斯坦福大学共同开发了全新模型“One-2-3-45++”并将其开源...

原文来源：AIGC开放社区

图片来源：由无界 AI生成

随着ChatGPT的出现以及广泛应用，通过文本生成文本、视频、音频等内容，成为实现技术民主化的关键手段。

在3D模型领域通过文本生成并不成熟，多数方法是通过图片。而该方法存在生成时间长、缺乏细节、难以匹配图像等缺点。

加州大学、清华大学、斯坦福大学共同开发了全新模型“One-2-3-45++”并将其开源。该模型仅通过图片，就能在1分钟内将一张RGB图像转换为高精准3D模型，这对于游戏开发、3D建模等领域，可以节省大量开发时间。

研究人员在包含1030个3D对象的GSO数据集上与多个基准方法进行了比较。测试数据显示，One-2-3-45++在几何相似度、CLIP相似度指标上均优于基准方法。

在包含50多名真实用户的评估数据显示,87.6%表示One-2-3-45++生成的结果，优于其他方法,质量更高、更符合输入图像。

开源地址：https://github.com/SUDO-AI-3D/One2345plus

论文地址：https://arxiv.org/abs/2311.07885

在线demo：https://www.sudo.ai/3dgen

One-2-3-45++的核心技术原理主要包括三大块：一致的多视角图像生成、基于多视角的3D重建以及纹理优化。

一致的多视角图像生成