跳到主要内容

5 篇文档带有标签「量化」

查看所有标签

使用 GPUStack 纳管摩尔线程 GPU 进行大语言模型和文生图模型的推理

本文主要介绍了如何在摩尔线程 GPU 上通过 GPUStack 进行大语言模型和文生图模型的推理。GPUStack 是一个开源的 GPU 集群管理器,支持多种硬件和模型,提供了分布式推理和 OpenAI 兼容 API 服务。本文详细介绍了如何配置 GPUStack、部署模型以及运行大语言模型和文生图模型的步骤。

使用摩尔线程 GPU 搭建个人 RAG 推理服务

本文主要介绍了如何在摩尔线程 GPU 上通过 Ollama 和 Open WebUI 搭建 On-Premises RAG(检索增强生成)服务的详细指南。本文涵盖了 RAG 的概念,解释了如何使用 Ollama 和 Open WebUI 来在本地环境中部署和管理大语言模型。通过 Docker 容器的支持,你可以轻松启动和配置 Ollama 和 Open WebUI,下载并加载模型,将知识库导入,并实现基于知识库的精准推理,适用于各种本地化场景和安全需求。

在摩尔线程 GPU 上使用 llama.cpp 推理

本文主要介绍了如何在摩尔线程 MTT S80/S3000/S4000 GPU 上使用 llama.cpp 进行大语言模型 (LLM) 推理。文章详细描述了 llama.cpp 项目的背景、关键特点、支持的模型以及在 MUSA 架构上的优化。通过提供具体的操作步骤和 Docker 镜像,读者可以轻松在本地设备上运行 LLaMA 等大模型,实现高效的端侧推理。文章还包含了演示视频,展示了在 MTT S80 GPU 上运行 llama.cpp 的实际效果。