文章目录

先说个真实的场景

你有没有这种感觉

手里有几张显卡 想跑个开源大模型

但是部署太麻烦了

要装 vLLM 配参数 要装 SGLang 调引擎

多卡并行更是噩梦

GPUStack 就是来解决这个问题的

它是一个开源的 GPU 集群管理器

用 Python 写的

帮你把多张显卡统一管理起来

然后在上面跑各种推理引擎

比如 vLLM SGLang TensorRT-LLM

全都不需要你手动配置

说实话 我之前觉得这类工具都太企业级了

中小企业根本用不上

但 GPUStack 不一样

它支持的单机部署体验非常顺滑

一个命令就起来 然后 Web UI 全搞定

而且它支持的 GPU 种类特别多

不只是 NVIDIA AMD 也支持

还有华为昇腾 海光 DCU 沐曦 比特大陆

这就很有意思了

国产 GPU 的生态一直比较碎片化

有了 GPUStack 相当于有了一个统一入口

不管你用哪家显卡 都能用同一套方式跑模型

另外它还有个亮点是 Day 0 模型支持

什么意思呢

就是新模型发布的当天 就能部署

不用等社区适配

这对追新党来说太重要了

GPUStack 的定位是开源 GPU 集群管理

专注于 AI 模型推理部署

它的核心能力包括多集群 GPU 管理

支持本地服务器 Kubernetes 和云厂商

然后是可插拔的推理引擎

自动配置 vLLM SGLang TensorRT-LLM

也可以接入自定义引擎

性能方面做了深度优化

内置低延迟和高吞吐两种模式

还支持 LMCache HiCache 等扩展 KV 缓存

减少 TTFT 首 token 时间

投机解码支持 EAGLE3 MTP N-grams

企业级功能包括故障自动恢复

负载均衡 监控 认证 访问控制

架构图显示一个 GPUStack 服务器

可以管理多个集群

跨本地和云端环境

调度器自动分配 GPU 资源

选择最优推理引擎

支持标准 API

LLM 语音 图片 视频模型都可以

内置 Prometheus Grafana 监控

场景一 个人开发者或者小团队私有部署

你有一台或者几台带 GPU 的服务器

想跑开源模型给团队用

不想用 OpenAI 的付费 API

GPUStack 五分钟就能搭起来

比手动配 vLLM 简单太多了

场景二 AI 应用开发商做模型服务

你需要给不同客户部署不同模型

而且要保证隔离和稳定性

GPUStack 的多租户和访问控制

正好能解决这个问题

场景三 国产 GPU 适配需求

你的客户要求用华为昇腾或者国产芯片

但大多数开源推理工具只支持 NVIDIA

GPUStack 对昇腾和 DCU 都有官方支持

这是其他工具很难替代的优势

第一步 安装 Docker

GPUStack 支持 Docker 部署 最简单

在 Linux 机器上装好 Docker

第二步 安装 GPUStack Server

curl -sfL https://get.gpustack.ai | sh -

这一步会在本机起一个 Web UI

默认端口 6749

第三步 访问 Web UI 添加 Worker

打开浏览器输入 服务器IP:6749

首次登录设置管理员账号

然后在 Workers 页面添加你的 GPU 机器

第四步 部署模型

在 Models 页面选择要跑的模型

支持从魔搭社区 HuggingFace 下载

也可以手动指定本地路径

选好引擎 vLLM 或 SGLang

点部署 等待下载和启动

整个过程都有进度条

不用盯日志看

第五步 调用 API

部署完成后

GPUStack 会暴露 OpenAI 兼容的 API

直接用任何支持 OpenAI SDK 的代码调用

把 base_url 换成 GPUStack 的地址就行

亮点一 推理引擎自动选型

你不需要懂 vLLM 和 SGLang 的区别

GPUStack 会根据你的显卡型号和模型大小

自动推荐最优引擎

并且设置最佳参数

官方 benchmark 显示

A100 单卡场景下

比默认 vLLM 配置吞吐量提升明显

亮点二 多集群统一调度

不管你的 GPU 分布在哪些地方

本地机房几台 云厂商几台

GPUStack 统一调度

自动选择空闲卡和最优引擎

负载均衡 内置了

亮点三 监控和计量

Grafana 和 Prometheus 集成

GPU 利用率 显存 温度

Token 使用量 API 请求量

全都能看到

方便做成本核算和性能优化

5,094 Stars | 540 Forks | 574 Open Issues

支持 NVIDIA AMD 昇腾 DCU 沐曦 比特大陆 天数智芯 寒武纪 阿里平头哥

说实话 这个支持列表真的很夸张

比很多商业产品都全

对标的是 vLLM SGLang 这类纯推理引擎

它们只管跑模型

GPUStack 是它们的上层编排

帮你决定用哪个引擎

以及怎么分配 GPU 资源

另一个对比是 Ray Serve

Ray 是通用分布式计算框架

做 AI 推理需要自己搭很多东西

GPUStack 专注 AI 推理

开箱即用程度高很多

Issue #808 有个 Windows 用户遇到

Inference server exited with code 0 的错误

在魔搭社区下载模型后

隔一段时间推理服务就退出了

查不到日志

这个 issue 有 36 条评论

说明官方响应挺快的

这里有个坑要提醒大家

Worker 节点只支持 Linux

Windows/macOS 只能跑 Server

如果你的 GPU 是 Windows 机器

需要装 Linux 双系统或者用虚拟机

Issue #4381 是一个 benchmark 工具的需求

想做标准化的推理性能测试

官方给了一个第三方工具链接 guidellm-box

说明生态在慢慢完善

Issue #4411 是公开 MaaS 的功能请求

即 Model as a Service 对外提供 API 服务

这类需求说明很多人在往生产环境用

坑一 Worker 节点必须是 Linux

这是官方明确说明的

我看到很多新手在 GitHub Issues 里问

为什么 Windows 上看不到 GPU

答案就是不支持

如果你只有 Windows 机器

可以考虑 WSL2 或者虚拟机

但性能会有损失

坑二 NVIDIA 驱动和容器工具版本

Worker 节点需要装 NVIDIA 驱动

Docker 和 NVIDIA Container Toolkit

版本不对会导致 GPU 识别失败

官方文档有详细版本要求

建议严格按照文档来

不要用最新的 测试不一定充分

坑三 模型下载超时

大模型文件好几个 G

从 HuggingFace 下载经常超时

建议提前用 huggingface-cli 下载好

然后指定本地路径

或者用国内镜像源

场景一 GPU 算力租赁平台

你有闲置显卡 怎么变现

可以用 GPUStack 搭一个私有模型服务

然后对内或者对外提供 API 调用

按 Token 或者按调用次数收费

GPUStack 自带计量功能

方便做结算

这个适合手里有几张卡的技术人

场景二 行业垂直 AI 服务

比如医疗 法律 金融行业

有开源垂类模型 但部署门槛高

你可以用 GPUStack 帮他们一键部署

收部署费和服务费

这类客户通常预算充足

而且愿意为省心付溢价

场景三 AI 应用 SaaS

用 GPUStack 做底层推理

上面套一层应用层

做成订阅制的 AI 工具

比如 AI 写作助手 代码生成工具

用户按月付费 你提供稳定服务

GPUStack 的多租户隔离

正好能保证多用户体验

GPUStack 是一个很实在的工具

不玩虚的 就是帮你把 GPU 跑起来

把模型部署好

把 API 暴露出来

剩下的业务逻辑你自己写

它的定位很清晰

就是做 AI 推理的底层基础设施

对于想私有化部署开源模型的人来说

这是一个值得关注的选项

特别是需要多卡管理

或者要用国产 GPU 的场景

好了 今天就到这里

感兴趣的去 GitHub 看看

文档写得挺详细的

有问题可以先搜 Issues 很多坑都有人踩过了

GitHub 仓库

@gpustack

更多 GitHub 热门开源项目:AI & Machine Learning