5 篇文档带有标签「KUAE」

使用 GPUStack 纳管摩尔线程 GPU 进行大语言模型和文生图模型的推理

本文主要介绍了如何在摩尔线程 GPU 上通过 GPUStack 进行大语言模型和文生图模型的推理。GPUStack 是一个开源的 GPU 集群管理器，支持多种硬件和模型，提供了分布式推理和 OpenAI 兼容 API 服务。本文详细介绍了如何配置 GPUStack、部署模型以及运行大语言模型和文生图模型的步骤。

使用摩尔线程 GPU 搭建个人 RAG 推理服务

本文主要介绍了如何在摩尔线程 GPU 上通过 Ollama 和 Open WebUI 搭建 On-Premises RAG（检索增强生成）服务的详细指南。本文涵盖了 RAG 的概念，解释了如何使用 Ollama 和 Open WebUI 来在本地环境中部署和管理大语言模型。通过 Docker 容器的支持，你可以轻松启动和配置 Ollama 和 Open WebUI，下载并加载模型，将知识库导入，并实现基于知识库的精准推理，适用于各种本地化场景和安全需求。

在摩尔线程 GPU 上使用 llama.cpp 推理

本文主要介绍了如何在摩尔线程 MTT S80/S3000/S4000 GPU 上使用 llama.cpp 进行大语言模型 (LLM) 推理。文章详细描述了 llama.cpp 项目的背景、关键特点、支持的模型以及在 MUSA 架构上的优化。通过提供具体的操作步骤和 Docker 镜像，读者可以轻松在本地设备上运行 LLaMA 等大模型，实现高效的端侧推理。文章还包含了演示视频，展示了在 MTT S80 GPU 上运行 llama.cpp 的实际效果。

推测解码算法在 MTT GPU 的应用实践

本文主要介绍了推测解码算法在MT GPU的相关实践。本文首先介绍推测解码的概念及其原理，接着基于MTT S4000，完成在7B和14B模型下的EAGLE模型在中文数据集上的训练和推理，并测试其推理加速结果。

摩尔线程正式开源音频理解大模型MooER

MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。依托摩尔线程夸娥（KUAE）智算平台，MooER大模型仅用38小时便完成了5000小时音频数据和伪标签的训练，这一成就得益于自研的创新算法和高效计算资源的结合。