TRELLIS: 微软强大的文本/图像驱动3D模型生成器
Star
Forks
Watch
Issues
TRELLIS 是一个大型的 3D 资产生成模型,它能够根据文本描述或图像输入生成高质量的 3D 模型。该项目由微软开发,它使用了独特的统一结构化潜变量 (SLAT) 表示法以及整流变换器技术,从而实现逼真的 3D 模型生成。
项目介绍
TRELLIS 的核心优势在于其庞大的训练数据集,其中包含 50 万个多样的 3D 对象。它基于此庞大数据集进行训练,拥有 20 亿的参数量,使它能够生成具有复杂细节的 3D 模型。
它能接受文本描述或图像作为输入,并且可以生成多种格式的输出,如辐射场(Radiance Fields)、3D 高斯(3D Gaussians)和网格(meshes),这为用户提供了高度的灵活性,便于根据不同的应用场景选择合适的格式。模型不仅仅是生成静态 3D 对象,还允许用户编辑生成的模型,例如创建同一物体的变体或对模型的特定区域进行修改。
优势分析
TRELLIS 的主要优势包括:
- 生成质量高: TRELLIS 生成的 3D 模型具有高保真度和细节。它能够精确捕捉物体的几何结构和纹理,产出栩栩如生的 3D 模型。
- 多样化的输入输出: TRELLIS 不仅支持文本输入,也可以接受图像输入,这种多模态的支持使得 TRELLIS 的应用范围更加广泛。它可以输出包括辐射场、3D 高斯以及网格等多种 3D 表达形式,满足不同需求。
- 编辑的灵活性: 不同于其他 3D 模型生成器,TRELLIS 支持对模型进行编辑和修改, 从而使用户有更强的创作控制能力。
- 易于使用: 项目提供了清晰的安装和使用指南,即使对 3D 模型生成不太熟悉的开发者也可以轻松上手。
使用方法
以下是如何快速上手 TRELLIS 的步骤:
- 环境准备: 首先需要配置运行 TRELLIS 的环境。 确保您的电脑拥有至少 16GB 显存的 NVIDIA 显卡。按照以下命令操作即可完成环境配置:
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS
. ./setup.sh --new-env --basic --xformers --flash-attn --diffoctreerast --spconv --mipgaussian --kaolin --nvdiffrast
- 模型加载: 从 Hugging Face 上加载预训练模型, 例如
TRELLIS-image-large
。 使用 Python 代码可以很轻松实现模型的加载:
from trellis.pipelines import TrellisImageTo3DPipeline
pipeline = TrellisImageTo3DPipeline.from_pretrained("JeffreyXiang/TRELLIS-image-large")
pipeline.cuda()
- 模型生成: 将输入图像送入模型,生成 3D 模型,下面的 Python 代码示例展示了如何实现这一过程,并且最终输出一个 mp4 文件。
import imageio
from PIL import Image
from trellis.utils import render_utils
image = Image.open("assets/example_image/T.png")
outputs = pipeline.run(image, seed=1)
video = render_utils.render_video(outputs['gaussian'][0])['color']
imageio.mimsave("sample_gs.mp4", video, fps=30)
执行完代码,将在当前目录下生成名为 “sample_gs.mp4” 的 3D 模型视频文件。
TRELLIS 项目在 GitHub 上拥有可观的 Star 数,并且有一个活跃的开发社区。社区成员通过 Issue 报告问题、提出改进建议、或者提交代码来共同推动项目的发展。开发者团队积极响应社区的反馈,不断发布新的特性和改进。 最近的项目动态显示,开发者团队在不断增加新功能,包括多图像条件输入功能和高斯导出选项等。未来,还计划发布基于文本的模型系列以及训练代码和数据。
总结
TRELLIS 提供了一种先进的、易于使用的 3D 内容生成方案。该项目具有高质量的 3D 模型生成能力、支持多样化的输入输出以及编辑灵活性,并具备活跃的开发社区。它使 3D 内容创建更加便捷高效。 随着未来基于文本的模型系列以及训练代码和数据的发布,该项目将会在游戏开发、动画制作以及虚拟现实等领域有着广泛的应用。TRELLIS 为开发者提供了一个强大的 3D 模型生成工具,值得深入研究和积极参与。