5 篇文档带有标签「量化」

使用 GPUStack 纳管摩尔线程 GPU 进行大语言模型和文生图模型的推理

本文主要介绍了如何在摩尔线程 GPU 上通过 GPUStack 进行大语言模型和文生图模型的推理。GPUStack 是一个开源的 GPU 集群管理器，支持多种硬件和模型，提供了分布式推理和 OpenAI 兼容 API 服务。本文详细介绍了如何配置 GPUStack、部署模型以及运行大语言模型和文生图模型的步骤。

使用摩尔线程 GPU 搭建个人 RAG 推理服务

本文主要介绍了如何在摩尔线程 GPU 上通过 Ollama 和 Open WebUI 搭建 On-Premises RAG（检索增强生成）服务的详细指南。本文涵盖了 RAG 的概念，解释了如何使用 Ollama 和 Open WebUI 来在本地环境中部署和管理大语言模型。通过 Docker 容器的支持，你可以轻松启动和配置 Ollama 和 Open WebUI，下载并加载模型，将知识库导入，并实现基于知识库的精准推理，适用于各种本地化场景和安全需求。

在 M1000 进行 DeepSeek R1 蒸馏系列模型部署

本文主要介绍了如何在 M1000 上通过 vllm+mtt 进行 **DeepSeek R1**蒸馏系列模型、**Qwen 2.5**系列模型、**QwQ-32B**模型的推理。

在摩尔线程 GPU 上使用 llama.cpp 推理

本文主要介绍了如何在摩尔线程 MTT S80/S3000/S4000 GPU 上使用 llama.cpp 进行大语言模型 (LLM) 推理。文章详细描述了 llama.cpp 项目的背景、关键特点、支持的模型以及在 MUSA 架构上的优化。通过提供具体的操作步骤和 Docker 镜像，读者可以轻松在本地设备上运行 LLaMA 等大模型，实现高效的端侧推理。文章还包含了演示视频，展示了在 MTT S80 GPU 上运行 llama.cpp 的实际效果。

在摩尔线程 MTT S80 上使用 Ollama 进行 DeepSeek R1 蒸馏版模型推理

本文主要介绍了如何在摩尔线程 MTT S80 上通过 Ollama 快速完成DeepSeek R1 蒸馏系列模型的推理。