1 篇文档带有标签「AI推理和服务」

基于 MUSA 的大语言模型推理和服务框架 vLLM

vLLM是一个高性能且内存高效的大语言模型推理和服务框架。本文主要介绍如何在摩尔线程GPU上快速部署vLLM框架。