使用 GPUStack 纳管摩尔线程 GPU 进行大语言模型和文生图模型的推理
本文主要介绍了如何在摩尔线程 GPU 上通过 GPUStack 进行大语言模型和文生图模型的推理。GPUStack 是一个开源的 GPU 集群管理器,支持多种硬件和模型,提供了分布式推理和 OpenAI 兼容 API 服务。本文详细介绍了如何配置 GPUStack、部署模型以及运行大语言模型和文生图模型的步骤。
本文主要介绍了如何在摩尔线程 GPU 上通过 GPUStack 进行大语言模型和文生图模型的推理。GPUStack 是一个开源的 GPU 集群管理器,支持多种硬件和模型,提供了分布式推理和 OpenAI 兼容 API 服务。本文详细介绍了如何配置 GPUStack、部署模型以及运行大语言模型和文生图模型的步骤。
本文主要介绍了如何在摩尔线程 GPU 上通过 Ollama 和 Open WebUI 搭建 On-Premises RAG(检索增强生成)服务的详细指南。本文涵盖了 RAG 的概念,解释了如何使用 Ollama 和 Open WebUI 来在本地环境中部署和管理大语言模型。通过 Docker 容器的支持,你可以轻松启动和配置 Ollama 和 Open WebUI,下载并加载模型,将知识库导入,并实现基于知识库的精准推理,适用于各种本地化场景和安全需求。
本文主要介绍了如何在摩尔线程 MTT S80/S3000/S4000 GPU 上使用 llama.cpp 进行大语言模型 (LLM) 推理。文章详细描述了 llama.cpp 项目的背景、关键特点、支持的模型以及在 MUSA 架构上的优化。通过提供具体的操作步骤和 Docker 镜像,读者可以轻松在本地设备上运行 LLaMA 等大模型,实现高效的端侧推理。文章还包含了演示视频,展示了在 MTT S80 GPU 上运行 llama.cpp 的实际效果。
本文主要介绍了推测解码算法在MT GPU的相关实践。本文首先介绍推 测解码的概念及其原理,接着基于MTT S4000,完成在7B和14B模型下的EAGLE模型在中文数据集上的训练和推理,并测试其推理加速结果。
MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。依托摩尔线程夸娥(KUAE)智算平台,MooER大模型仅用38小时便完成了5000小时音频数据和伪标签的训练,这一成就得益于自研的创新算法和高效计算资源的结合。