返回

TRELLIS: 微软强大的文本/图像驱动3D模型生成器

AI

Star

Forks

Watch

Issues

TRELLIS 是一个大型的 3D 资产生成模型,它能够根据文本描述或图像输入生成高质量的 3D 模型。该项目由微软开发,它使用了独特的统一结构化潜变量 (SLAT) 表示法以及整流变换器技术,从而实现逼真的 3D 模型生成。

项目介绍

TRELLIS 的核心优势在于其庞大的训练数据集,其中包含 50 万个多样的 3D 对象。它基于此庞大数据集进行训练,拥有 20 亿的参数量,使它能够生成具有复杂细节的 3D 模型。

它能接受文本描述或图像作为输入,并且可以生成多种格式的输出,如辐射场(Radiance Fields)、3D 高斯(3D Gaussians)和网格(meshes),这为用户提供了高度的灵活性,便于根据不同的应用场景选择合适的格式。模型不仅仅是生成静态 3D 对象,还允许用户编辑生成的模型,例如创建同一物体的变体或对模型的特定区域进行修改。

image.png

优势分析

TRELLIS 的主要优势包括:

  • 生成质量高: TRELLIS 生成的 3D 模型具有高保真度和细节。它能够精确捕捉物体的几何结构和纹理,产出栩栩如生的 3D 模型。
  • 多样化的输入输出: TRELLIS 不仅支持文本输入,也可以接受图像输入,这种多模态的支持使得 TRELLIS 的应用范围更加广泛。它可以输出包括辐射场、3D 高斯以及网格等多种 3D 表达形式,满足不同需求。
  • 编辑的灵活性: 不同于其他 3D 模型生成器,TRELLIS 支持对模型进行编辑和修改, 从而使用户有更强的创作控制能力。
  • 易于使用: 项目提供了清晰的安装和使用指南,即使对 3D 模型生成不太熟悉的开发者也可以轻松上手。

使用方法

以下是如何快速上手 TRELLIS 的步骤:

  1. 环境准备: 首先需要配置运行 TRELLIS 的环境。 确保您的电脑拥有至少 16GB 显存的 NVIDIA 显卡。按照以下命令操作即可完成环境配置:
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS
. ./setup.sh --new-env --basic --xformers --flash-attn --diffoctreerast --spconv --mipgaussian --kaolin --nvdiffrast
  1. 模型加载: 从 Hugging Face 上加载预训练模型, 例如 TRELLIS-image-large 。 使用 Python 代码可以很轻松实现模型的加载:
from trellis.pipelines import TrellisImageTo3DPipeline
pipeline = TrellisImageTo3DPipeline.from_pretrained("JeffreyXiang/TRELLIS-image-large")
pipeline.cuda()
  1. 模型生成: 将输入图像送入模型,生成 3D 模型,下面的 Python 代码示例展示了如何实现这一过程,并且最终输出一个 mp4 文件。
import imageio
from PIL import Image
from trellis.utils import render_utils

image = Image.open("assets/example_image/T.png")
outputs = pipeline.run(image, seed=1)
video = render_utils.render_video(outputs['gaussian'][0])['color']
imageio.mimsave("sample_gs.mp4", video, fps=30)

执行完代码,将在当前目录下生成名为 “sample_gs.mp4” 的 3D 模型视频文件。

image.png

TRELLIS 项目在 GitHub 上拥有可观的 Star 数,并且有一个活跃的开发社区。社区成员通过 Issue 报告问题、提出改进建议、或者提交代码来共同推动项目的发展。开发者团队积极响应社区的反馈,不断发布新的特性和改进。 最近的项目动态显示,开发者团队在不断增加新功能,包括多图像条件输入功能和高斯导出选项等。未来,还计划发布基于文本的模型系列以及训练代码和数据。

总结

TRELLIS 提供了一种先进的、易于使用的 3D 内容生成方案。该项目具有高质量的 3D 模型生成能力、支持多样化的输入输出以及编辑灵活性,并具备活跃的开发社区。它使 3D 内容创建更加便捷高效。 随着未来基于文本的模型系列以及训练代码和数据的发布,该项目将会在游戏开发、动画制作以及虚拟现实等领域有着广泛的应用。TRELLIS 为开发者提供了一个强大的 3D 模型生成工具,值得深入研究和积极参与。