DeepSeek-V4 推理服务部署指南

版本: v1.0 发布日期: 2026-04-30 适用环境: MUSA S5000 系列 GPU

前置条件

已安装 Docker 服务（推荐版本 27.5.1+）
已安装 Python 环境（用于模型下载）
已获取 MUSA 驱动及容器运行时
存储空间要求：建议预留充足空间（模型为 FP8 量化版本）

部署步骤

步骤一：下载模型权重

下载 DeepSeek-V4-Flash-FP8 模型权重文件：

方法一：ModelScope（国内推荐）

# 安装 ModelScope SDK
pip install modelscope

# 下载模型（下载路径可自定义）
modelscope download --model sgl-project/DeepSeek-V4-Flash-FP8 \
    --local_dir /data/models/DeepSeek-V4-Flash-FP8

方法二：Hugging Face（海外用户）

# 安装 huggingface_hub
pip install huggingface_hub

# 下载模型（下载路径可自定义）
huggingface-cli download sgl-project/DeepSeek-V4-Flash-FP8 \
    --local-dir /data/models/DeepSeek-V4-Flash-FP8 \
    --local-dir-use-symlinks False

说明：FP8 量化版本模型体积显著减小，便于部署。国内用户推荐使用 ModelScope 以获得更快的下载速度。下载时间取决于网络带宽，建议预留充足时间。

步骤二：创建 Docker 容器

执行以下命令创建推理服务容器：

docker run -itd \
    --privileged \
    --net host \
    --name=mthreads-dsv4 \
    -w /workspace \
    -v /data/:/data/ \
    --env MTHREADS_VISIBLE_DEVICES=all \
    --shm-size=80g \
    registry.mthreads.com/mcconline/inference/sglang:deepseek-v4-s5000-4.3.5-torch2.9.0-20260430 \
    /bin/bash

说明：/data/ 为示例映射路径，请确保与模型下载路径一致。容器启动后模型路径应为 /data/models/DeepSeek-V4-Flash-FP8。

参数说明：

参数	说明
`--privileged`	授权容器访问主机设备
`--net host`	使用主机网络模式，便于服务端口访问
`--shm-size=80g`	共享内存大小，大模型推理需要较大共享内存
`MTHREADS_VISIBLE_DEVICES=all`	指定可见 GPU 设备

步骤三：启动推理服务

进入容器并启动 SGLang 推理服务：

# 进入容器
docker exec -it mthreads-dsv4 bash

# 切换至工作目录
cd /workspace/code

# 启动服务（模型路径以实际下载路径为准）
bash start_server.sh /data/models/DeepSeek-V4-Flash-FP8/

注意：start_server.sh 脚本参数为模型权重路径，请确保与 Docker 挂载路径一致。

DeepSeek-V4 推理服务部署指南

前置条件​

部署步骤​

步骤一：下载模型权重​

方法一：ModelScope（国内推荐）​

方法二：Hugging Face（海外用户）​

步骤二：创建 Docker 容器​

步骤三：启动推理服务​

前置条件

部署步骤

步骤一：下载模型权重

方法一：ModelScope（国内推荐）

方法二：Hugging Face（海外用户）

步骤二：创建 Docker 容器

步骤三：启动推理服务