跳到主要内容

DeepSeek-V4 推理服务部署指南

版本: v1.0 发布日期: 2026-04-30 适用环境: MUSA S5000 系列 GPU


前置条件

  • 已安装 Docker 服务(推荐版本 27.5.1+)
  • 已安装 Python 环境(用于模型下载)
  • 已获取 MUSA 驱动及容器运行时
  • 存储空间要求:建议预留充足空间(模型为 FP8 量化版本)

部署步骤

步骤一:下载模型权重

下载 DeepSeek-V4-Flash-FP8 模型权重文件:

方法一:ModelScope(国内推荐)

# 安装 ModelScope SDK
pip install modelscope

# 下载模型(下载路径可自定义)
modelscope download --model sgl-project/DeepSeek-V4-Flash-FP8 \
--local_dir /data/models/DeepSeek-V4-Flash-FP8

方法二:Hugging Face(海外用户)

# 安装 huggingface_hub
pip install huggingface_hub

# 下载模型(下载路径可自定义)
huggingface-cli download sgl-project/DeepSeek-V4-Flash-FP8 \
--local-dir /data/models/DeepSeek-V4-Flash-FP8 \
--local-dir-use-symlinks False

说明:FP8 量化版本模型体积显著减小,便于部署。国内用户推荐使用 ModelScope 以获得更快的下载速度。下载时间取决于网络带宽,建议预留充足时间。


步骤二:创建 Docker 容器

执行以下命令创建推理服务容器:

docker run -itd \
--privileged \
--net host \
--name=mthreads-dsv4 \
-w /workspace \
-v /data/:/data/ \
--env MTHREADS_VISIBLE_DEVICES=all \
--shm-size=80g \
registry.mthreads.com/mcconline/inference/sglang:deepseek-v4-s5000-4.3.5-torch2.9.0-20260430 \
/bin/bash

说明/data/ 为示例映射路径,请确保与模型下载路径一致。容器启动后模型路径应为 /data/models/DeepSeek-V4-Flash-FP8

参数说明

参数说明
--privileged授权容器访问主机设备
--net host使用主机网络模式,便于服务端口访问
--shm-size=80g共享内存大小,大模型推理需要较大共享内存
MTHREADS_VISIBLE_DEVICES=all指定可见 GPU 设备

步骤三:启动推理服务

进入容器并启动 SGLang 推理服务:

# 进入容器
docker exec -it mthreads-dsv4 bash

# 切换至工作目录
cd /workspace/code

# 启动服务(模型路径以实际下载路径为准)
bash start_server.sh /data/models/DeepSeek-V4-Flash-FP8/

注意start_server.sh 脚本参数为模型权重路径,请确保与 Docker 挂载路径一致。