跳到主要内容

4 篇文档带有标签「KUAE」

查看所有标签

使用摩尔线程 GPU 搭建个人 RAG 推理服务

本文主要介绍了如何在摩尔线程 GPU 上通过 Ollama 和 Open WebUI 搭建 On-Premises RAG(检索增强生成)服务的详细指南。本文涵盖了 RAG 的概念,解释了如何使用 Ollama 和 Open WebUI 来在本地环境中部署和管理大语言模型。通过 Docker 容器的支持,你可以轻松启动和配置 Ollama 和 Open WebUI,下载并加载模型,将知识库导入,并实现基于知识库的精准推理,适用于各种本地化场景和安全需求。

在摩尔线程 GPU 上使用 llama.cpp 推理

本文主要介绍了如何在摩尔线程 MTT S80/S3000/S4000 GPU 上使用 llama.cpp 进行大语言模型 (LLM) 推理。文章详细描述了 llama.cpp 项目的背景、关键特点、支持的模型以及在 MUSA 架构上的优化。通过提供具体的操作步骤和 Docker 镜像,读者可以轻松在本地设备上运行 LLaMA 等大模型,实现高效的端侧推理。文章还包含了演示视频,展示了在 MTT S80 GPU 上运行 llama.cpp 的实际效果。

推测解码算法在 MTT GPU 的应用实践

本文主要介绍了推测解码算法在MT GPU的相关实践。本文首先介绍推测解码的概念及其原理,接着基于MTT S4000,完成在7B和14B模型下的EAGLE模型在中文数据集上的训练和推理,并测试其推理加速结果。

摩尔线程正式开源音频理解大模型MooER

MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。依托摩尔线程夸娥(KUAE)智算平台,MooER大模型仅用38小时便完成了5000小时音频数据和伪标签的训练,这一成就得益于自研的创新算法和高效计算资源的结合。