跳到主要内容

4 篇文档带有标签「LLM」

查看所有标签

使用摩尔线程 GPU 搭建个人 RAG 推理服务

本文主要介绍了如何在摩尔线程 GPU 上通过 Ollama 和 Open WebUI 搭建 On-Premises RAG(检索增强生成)服务的详细指南。本文涵盖了 RAG 的概念,解释了如何使用 Ollama 和 Open WebUI 来在本地环境中部署和管理大语言模型。通过 Docker 容器的支持,你可以轻松启动和配置 Ollama 和 Open WebUI,下载并加载模型,将知识库导入,并实现基于知识库的精准推理,适用于各种本地化场景和安全需求。

在摩尔线程 GPU 上使用 llama.cpp 推理

本文主要介绍了如何在摩尔线程 MTT S80/S3000/S4000 GPU 上使用 llama.cpp 进行大语言模型 (LLM) 推理。文章详细描述了 llama.cpp 项目的背景、关键特点、支持的模型以及在 MUSA 架构上的优化。通过提供具体的操作步骤和 Docker 镜像,读者可以轻松在本地设备上运行 LLaMA 等大模型,实现高效的端侧推理。文章还包含了演示视频,展示了在 MTT S80 GPU 上运行 llama.cpp 的实际效果。

推测解码算法在 MTT GPU 的应用实践

本文主要介绍了推测解码算法在MT GPU的相关实践。本文首先介绍推测解码的概念及其原理,接着基于MTT S4000,完成在7B和14B模型下的EAGLE模型在中文数据集上的训练和推理,并测试其推理加速结果。