2023 AI 编年史:文生 3D Text-to-3D 生成

2023 AI 编年史:文生 3D Text-to-3D | AI Timeline 2023: Text-to-3D Generation


一、背景 | Background

English

In December 2023, Text-to-3D generation — creating three-dimensional models from text descriptions — matured from research demos to usable tools. Google DeepMind’s DreamFusion (2022, popularized in 2023) pioneered Score Distillation Sampling (SDS), enabling 3D asset creation without any 3D training data. OpenAI’s Point-E and Shap-E, NVIDIA’s Magic3D, and Meta’s InstantMesh followed, building a rapidly evolving pipeline from text prompt to downloadable 3D mesh.

Text-to-3D extends the AIGC revolution from 2D images (Stable Diffusion, 2022) to 3D assets — with profound implications for game development, industrial design, AR/VR, and digital twins.

Key terms:

  • Text-to-3D: Generating 3D models (mesh, point cloud, NeRF) from natural language descriptions.
  • NeRF (Neural Radiance Fields): Neural network representing a 3D scene as a continuous volumetric function.
  • SDS (Score Distillation Sampling): Optimizing a 3D representation using gradients from a 2D diffusion model.
  • Mesh: Traditional 3D representation — vertices, edges, and faces (polygons).
  • Point Cloud: 3D representation as a set of points in 3D space with optional color/normal attributes.
  • Score Distillation: Using a pretrained 2D diffusion model’s “score” (gradient of log probability) to guide 3D optimization.

中文

2023 年 12 月文生 3D——从文本描述创建三维模型——从研究 Demo 成熟为可用工具。Google DeepMind 的 DreamFusion(2022 年发布,2023 年普及)开创 分数蒸馏采样(SDS),无需任何 3D 训练数据即可创建 3D 资产。OpenAI 的 Point-EShap-E、NVIDIA 的 Magic3D、Meta 的 InstantMesh 相继跟进,构建从文本 Prompt 到可下载 3D 网格的快速演进流水线。

文生 3D 将 AIGC 革命从 2D 图像(Stable Diffusion,2022)延伸至 3D 资产——对游戏开发、工业设计、AR/VR 与数字孪生具有深远影响。

关键词解释:

  • Text-to-3D(文生 3D):从自然语言描述生成 3D 模型(网格、点云、NeRF)。
  • NeRF(神经辐射场):将 3D 场景表示为连续体积函数的神经网络。
  • SDS(分数蒸馏采样):利用 2D 扩散模型梯度优化 3D 表示。
  • Mesh(网格):传统 3D 表示——顶点、边与面(多边形)。
  • Point Cloud(点云):三维空间中的点集表示,可选颜色/法线属性。
  • Score Distillation(分数蒸馏):用预训练 2D 扩散模型的「分数」引导 3D 优化。

二、架构 | Architecture

2.1 DreamFusion + SDS 核心架构 | DreamFusion + SDS Core Architecture

English

DreamFusion’s key insight: no 3D training data needed — distill knowledge from a 2D text-to-image diffusion model (Imagen):

1
2
3
4
5
6
7
8
9
10
11
12
Text Prompt: "a photo of a hamburger"

┌─── Optimization Loop(~1000 iterations)───┐
│ 1. NeRF MLP: (x, y, z, θ, φ) → (color, density) │
│ 2. Differentiable Renderer → 2D image from random camera │
│ 3. Imagen Diffusion Model → score (gradient) of image │
│ 4. SDS Loss: ∇_θ L_SDS = w(t)(σ_t/α_t)(ε_φ(z_t;y,t) - ε)│
│ 5. Backprop through NeRF → update 3D representation │
│ Loop until NeRF converges to 3D object │
└──────────────────────────────────────────────────────────┘

Extract Mesh(Marching Cubes)→ Textured 3D Asset

SDS mechanism: Instead of training a 3D model on 3D data, SDS uses the 2D diffusion model as a “critic” — at each optimization step, render the current 3D scene from a random viewpoint, add noise, ask the diffusion model “how should this image change to match the text?”, and backpropagate that gradient to the 3D representation.

中文

DreamFusion 的核心洞察:无需 3D 训练数据——从 2D 文生图扩散模型(Imagen)蒸馏知识。优化循环:NeRF MLP 预测颜色与密度 → 可微渲染器从随机视角渲染 2D 图像 → Imagen 扩散模型计算图像分数(梯度)→ SDS 损失反向传播更新 3D 表示 → 循环约 1000 次 → Marching Cubes 提取网格。

SDS 机制:不训练 3D 模型,而以 2D 扩散模型为「批评者」——每步从随机视角渲染当前 3D 场景,加噪,询问扩散模型「图像应如何变化以匹配文本」,将该梯度反向传播至 3D 表示。

2.2 2023 文生 3D 技术路线 | 2023 Text-to-3D Approaches

方法 Method 机构 Org 3D 表示 Representation 速度 Speed 质量 Quality
DreamFusion Google NeRF → Mesh ~1 hour Good
Magic3D NVIDIA Coarse NeRF → Fine Mesh ~40 min Better
Point-E OpenAI Point Cloud → Mesh ~1 min Moderate
Shap-E OpenAI Implicit Function ~10 sec Moderate
InstantMesh Meta/Tencent Sparse View → Mesh ~10 sec Good
MVDream ByteDance Multi-view Diffusion ~5 min High
TripoSR Stability/Tripo Single Image → 3D ~0.5 sec Good

2.3 两阶段流水线 | Two-Stage Pipeline

English

Most 2023 systems adopted a two-stage approach (following Magic3D):

1
2
3
4
5
6
7
8
Stage 1: Coarse Generation
Text → NeRF optimization(SDS, ~500 steps)
Output: rough 3D shape, low resolution

Stage 2: Fine Refinement
Coarse mesh → High-res texture optimization
OR: Multi-view diffusion → consistent textures
Output: textured, game-ready 3D asset

Alternative fast path (Point-E / Shap-E):

1
2
3
Text → Direct 3D prediction(single forward pass)
Trained on millions of (text, 3D) pairs
Faster but lower quality than optimization-based methods

中文

2023 年多数系统采用两阶段方案:Stage 1 粗生成(Text → NeRF SDS 优化,约 500 步,输出粗略 3D 形状)→ Stage 2 精细优化(粗网格 → 高分辨率纹理或多视角扩散一致纹理,输出游戏级 3D 资产)。替代快速路径(Point-E/Shap-E):Text → 单次前向预测 3D(更快但质量低于优化方法)。

2.4 3D 表示对比 | 3D Representation Comparison

表示 Representation 优点 Pros 缺点 Cons 工具 Tools
NeRF 高质量视图合成 慢,难编辑 DreamFusion, Instant-NGP
Mesh 游戏/工业标准 拓扑限制 Marching Cubes, Blender
Point Cloud 简单快速 无表面,难渲染 Point-E, Open3D
Gaussian Splatting 实时渲染(2023 末) 内存大 3DGS (Kerbl et al.)
Implicit Function 紧凑表示 提取网格慢 Shap-E, DeepSDF

English

2023 Text-to-3D trends:

  1. Speed revolution: From 1 hour (DreamFusion) to 0.5 seconds (TripoSR) in one year.
  2. 3D Gaussian Splatting (Aug 2023): Real-time radiance field rendering — accelerated Text-to-3D pipelines.
  3. Game engine integration: Unity and Unreal plugins for AI-generated assets.
  4. Multi-view consistency: MVDream, Zero123++ solved inconsistent texture problem.
  5. Commercial products: Meshy.ai, Tripo3D, Luma AI Genie launched consumer Text-to-3D tools.
  6. Open-source explosion: threestudio unified framework for Text-to-3D research.

中文

2023 年文生 3D 趋势:

  1. 速度革命:从 DreamFusion 的 1 小时到 TripoSR 的 0.5 秒,仅一年。
  2. 3D Gaussian Splatting(2023 年 8 月):实时辐射场渲染——加速文生 3D 流水线。
  3. 游戏引擎集成:Unity 与 Unreal 插件支持 AI 生成资产。
  4. 多视角一致性:MVDream、Zero123++ 解决纹理不一致问题。
  5. 商业产品:Meshy.ai、Tripo3D、Luma AI Genie 推出消费级文生 3D 工具。
  6. 开源爆发:threestudio 统一文生 3D 研究框架。

四、优缺点 | Pros and Cons

4.1 优点 | Advantages

  1. 零 3D 技能门槛 — 文本描述即可创建 3D 模型 / Zero 3D skill required
  2. 无需 3D 训练数据 — SDS 从 2D 模型蒸馏 / No 3D training data needed
  3. 快速原型 — 概念设计从数天缩短到数分钟 / Rapid prototyping
  4. 无限创意 — 不受现有 3D 资产库限制 / Unlimited creativity
  5. 成本降低 — 替代部分 3D 建模外包 / Cost reduction vs outsourcing

4.2 缺点 | Disadvantages

  1. 质量不稳定 — 复杂拓扑(手、文字)常失败 / Unstable quality
  2. Janus problem — 多面怪(多个头/脸)/ Janus problem — multi-faced objects
  3. 无精确尺寸控制 — 难以指定精确毫米数 / No precise dimension control
  4. 拓扑质量差 — 生成网格不适合动画绑定 / Poor topology for animation
  5. 计算仍昂贵 — 高质量优化需 GPU 数分钟到数小时 / Still computationally expensive
  6. 版权不确定 — 训练数据来源与生成物归属 / Copyright uncertainty

五、应用场景 | Use Cases

场景 Scenario 技术 Tech 中文说明
游戏资产原型 DreamFusion / Magic3D 快速生成概念道具与角色
电商 3D 展示 TripoSR / Shap-E 产品图 → 3D 模型 → AR 预览
建筑可视化 Text → NeRF → Mesh 概念建筑快速 3D 预览
AR/VR 内容 Point-E + Unity 文本描述 → AR 滤镜素材
3D 打印 Text → Mesh → STL 个性化定制物品 3D 打印
影视预可视化 Magic3D + Blender 场景道具快速预览
教育培训 Text-to-3D + 3D Viewer 解剖模型、分子结构可视化
数字孪生 NeRF + 传感器数据 工业设备 3D 重建

六、GitHub 与开源生态 | GitHub and Open Source

项目 Project 说明 Description
ashawkey/threestudio 统一 Text-to-3D 研究框架
openai/point-e OpenAI 点云 3D 生成
openai/shap-e OpenAI 隐式 3D 生成
NVIDIA/Magic3D NVIDIA 两阶段 3D 生成
VAST-AI-Research/TripoSR 0.5 秒单图 → 3D
graphdeco-inria/gaussian-splatting 3D Gaussian Splatting 实时渲染

七、总结 | Summary

中文:2023 年 12 月,文生 3D 以 DreamFusion 的 SDS 范式为起点,经 Magic3D、Point-E、Shap-E、InstantMesh 等快速演进,将 3D 内容创作从「专业技能」推向「文本描述」。尽管 Janus 问题、拓扑质量与精确控制等挑战仍存,文生 3D 已开启 AIGC 的下一个维度——从平面到立体,从 2D 资产到 3D 世界。

English: By December 2023, Text-to-3D evolved rapidly from DreamFusion’s SDS paradigm through Magic3D, Point-E, Shap-E, and InstantMesh — pushing 3D content creation from “professional skill” to “text description.” Despite Janus problems, topology quality, and precision control challenges, Text-to-3D opens AIGC’s next dimension — from flat to spatial, from 2D assets to 3D worlds.


参考链接 | References