【AI大模型】【部署】----本地部署Qwen3+Ollama + MCP初体验（保姆级教程）

张

张建站

2026/5/28 4:42:59

10分钟阅读

【AI大模型】【部署】----本地部署Qwen3+Ollama + MCP初体验（保姆级教程）

文章目录Qwen3Ollama本地部署MCP初体验前言知识点Qwen3Ollama主要特点安装和使用步骤相关资源Ollama安装Qwen3Open WebUIOpen WebUI支持MCP总结Qwen3Ollama本地部署MCP初体验原创于 2025-06-07 17:14:56 发布1k 阅读前言小伙伴们端午快乐鸭Qwen3已经发布一段时间了热度依然不减端午期间笔者尝试在本地体验Qwen3的能力将所有过程分享给大家大家一起动手试一试一起玩转Qwen3;当然除了本地这种模式也可以选择云端的API这里就不赘述了。知识点通过本文大家需要掌握以下知识点Qwen3 相关知识OllamaOpen WebUI (一个和ChatGPT类似的聊天的Web页面,支持ollama)MCP 相关知识MCP相关知识可以看这里 xxxxQwen3阿里推出 Qwen3这是 Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比表现出极具竞争力的结果。此外小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%表现更胜一筹甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。开源了两个 MoE 模型的权重Qwen3-235B-A22B一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型以及Qwen3-30B-A3B一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。此外六个 Dense 模型也已开源包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B均在 Apache 2.0 许可下开源。ModelsLayersHeads (Q / KV)Tie EmbeddingContext LengthQwen3-0.6B2816 / 8Yes32KQwen3-1.7B2816 / 8Yes32KQwen3-4B3632 / 8Yes32KQwen3-8B3632 / 8No128KQwen3-14B4040 / 8No128KQwen3-32B6464 / 8No128KModelsLayersHeads (Q / KV)# Experts (Total / Activated)Context LengthQwen3-30B-A3B4832 / 4128 / 8128KQwen3-235B-A22B9464 / 4128 / 828K经过后训练的模型例如 Qwen3-30B-A3B以及它们的预训练基座模型如 Qwen3-30B-A3B-Base现已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。对于部署我们推荐使用 SGLang 和 vLLM 等框架而对于本地使用像Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 这样的工具也非常值得推荐。这些选项确保用户可以轻松将 Qwen3 集成到他们的工作流程中无论是用于研究、开发还是生产环境。官网地址https://qwenlm.github.io/zh/blog/qwen3/ 下文将使用Ollama进行Qwen3本地化OllamaOllama 是一个轻量级、用户友好的框架旨在让用户在本地运行开源大型语言模型如 Llama 3、DeepSeek-R1、Gemma、Mistral、Qwen 等。它通过 Modelfile 将模型权重、配置和数据打包成一个统一包类似于 Docker 镜像的概念优化了模型的设置和 GPU 使用。Ollama 的核心优势在于隐私性、灵活性和离线可用性特别适合对数据安全有高要求的场景。主要特点本地运行所有数据处理都在本地进行无需将敏感数据发送到云端保障隐私和安全。支持离线使用无需互联网连接即可运行模型适合无网络环境下的应用。广泛的模型支持支持多种开源模型包括 Llama 3.2、Gemma 2、Mistral、Codestral 等适用于文本生成、代码生成、翻译等任务。用户可从官方模型库拉取预训练模型或通过 Modelfile 创建自定义模型。跨平台兼容性支持 macOS、Linux 和 WindowsWindows 支持为预览版。可在本地设备或虚拟专用服务器VPS上运行适合个人项目或团队协作。用户友好的接口主要通过命令行界面CLI操作适合技术用户快速拉取、运行和管理模型。支持第三方图形用户界面如 Open WebUI提供更直观的操作体验。API 集成提供 REST API支持 Python、JavaScript 等编程语言集成。与 LangChain、LlamaIndex 等框架无缝集成方便构建复杂 AI 应用。安装和使用步骤下载和安装访问 Ollama 官网或 GitHub 页面下载适用于您操作系统的安装包。 Linux 和 macOS 用户可通过以下命令快速安装curl -fsSL https://ollama.com/install.sh | shWindows 用户需下载安装程序并按提示操作。拉取模型使用 CLI 拉取所需模型例如ollama pull llama3.2可从 Ollama 模型库查看可用模型。运行模型通过命令运行模型并直接交互ollama run llama3.2输入提示如“解释机器学习基础”模型将生成响应。API 调用启动 Ollama 服务器ollama serve使用 cURL 或编程语言调用 API例如curl http://localhost:11434/api/generate -d {model: llama3.2, prompt: Why is the http sky blue?}相关资源官方网站https://ollama.com/GitHub 仓库https://github.com/ollama/ollama模型库https://ollama.com/library社区支持Ollama 的 Discord 社区或 GitHub Issues 页面Ollama 是一个强大的工具通过简化本地运行大型语言模型的流程为用户提供了隐私、安全和灵活的 AI 解决方案。无论您是想开发 AI 应用、进行研究还是仅想探索开源模型的潜力Ollama 都是一个值得尝试的平台。通过其 CLI、API 和丰富的模型支持您可以轻松将尖端 AI 技术带到本地设备上。Ollama安装Qwen3通过对ollama的学习我们已经知道如何通过它安装模型以下是安装Qwen3的命令ollama run qwen3:14b在ollama官网 Qwen3提供了0.6b1.7b4b8b14b30b32b235b笔者的运行情况如下当然你要运行其他模型可以在这里查找 https://ollama.com/searchOpen WebUIOpen WebUI 是一个自托管的 Web 界面旨在简化与大型语言模型的交互。它通过直观的 GUI 提供对模型的管理、配置和使用支持特别适合希望在本地或私有环境中运行 AI 的用户。Open WebUI 支持多种模型运行器如 Ollama和 OpenAI 兼容的 API并内置了检索增强生成RAG功能可通过文档或网页增强模型的响应质量。它的核心优势包括完全离线运行、强大的扩展性和社区驱动的开发模式。这里我本地运行qwen3:14已经能正常显示可以用这个模型进行沟通对话Open WebUI 的设计目标是“将 AI 技术普及化”通过降低技术门槛让非技术用户也能轻松使用尖端 AI 模型同时为开发者提供灵活的定制选项。Github地址https://github.com/open-webui/open-webui它提供了Docker等安装方式笔者因为之前用过使用的是本地源码运行故之类不展示如何运行更多资料参考官网地址。Open WebUI支持MCP最新版本的Open WebUI已支持MCPOpen WebUI开放了mcpo代理服务器全称为MCP-to-OpenAPI proxy server该协议允许你通过标准的 REST/OpenAPI 接口直接使用基于 MCPModel Context Protocol模型上下文协议实现的工具服务器——无需处理陌生或复杂的自定义协议。如果你是终端用户或应用开发者这意味着你可以通过熟悉的 REST 风格接口轻松地与强大的 MCP 工具进行交互。我们按照官方示例运行如下代码uvx mcpo --port 8010-- uvx mcp-server-time --local-timezone-America/New_York这段代码的意思在本地起一个时间转换的MCP服务可以通过Open WebUI直接调用这个服务为用户进行服务如果你想自定义MCP服务请参考这里 https://docs.openwebui.com/openapi-servers/mcp/在Open WebUI配置在web页面的设置中选择“tools” 配置上面启动的地址端口就行在配置好大模型选择Qwen3模型后在聊天框中会出现工具图标点击该图标显示如下这表明我们基于MCP的工具服务已连接成功。在Open WebUI进行对话如下从上述的对话中可以看到大模型调用了基于MCP的get_current_time工具并给出了正确回复。总结通过将 Qwen3 与 Ollama 结合进行本地部署我成功体验了 MCP模型-计算-平台架构的强大潜力。这一过程不仅让我深入了解了 Qwen3 作为开源大型语言模型的卓越性能还展示了 Ollama 在简化本地模型运行方面的便捷性和灵活性。从安装 Ollama、拉取 Qwen3 模型到优化硬件配置整个部署流程清晰且高效尤其适合注重数据隐私的开发者与企业用户。在实际使用中Qwen3 展现了出色的自然语言处理能力无论是文本生成、问答还是代码补全都表现得游刃有余。Ollama 的命令行界面和 API 支持让模型管理与集成变得简单而其对 GPU 加速的优化显著提升了推理速度。通过 Open WebUI 的图形界面我进一步体验了用户友好的交互方式RAG 功能更是为定制化知识查询提供了便利。然而本地部署也面临一些挑战例如硬件要求较高推荐 16GB RAM 和独立 GPU以及模型文件占用较大存储空间。对于初学者配置环境和调试可能需要一定学习成本但 Ollama 的文档和活跃社区提供了充足支持。总的来说Qwen3 与 Ollama 的组合为本地 AI 部署提供了高效、隐私安全的解决方案。无论是用于开发、研究还是个人探索这一初体验让我对本地化 AI 应用的未来充满期待。未来我计划进一步探索 Qwen3 的微调功能并结合更复杂的 RAG 场景为实际项目打造更强大的 AI 能力。

企业开始用 AI 后，最容易被忽略的其实是这件事！

这两年，越来越多企业开始尝试把 AI 用到日常办公中。从写邮件、整理纪要，到查询知识库、生成文档，AI 正在从个人工具变成企业工作的一部分。但很多企业在推进 AI 时，首先关注的往往是功能和效率，比如“能不能写”“能不…...

2026/5/12 3:34:23 阅读更多 →

Ollama部署granite-4.0-h-350m：3步在树莓派上搭建你的本地AI助手

Ollama部署granite-4.0-h-350m：3步在树莓派上搭建你的本地AI助手 1. 为什么选择granite-4.0-h-350m 1.1 轻量级模型的优势 granite-4.0-h-350m是一款仅有3.5亿参数的轻量级指令模型，专为资源受限环境设计。相比动辄数十亿参数的大模型，它具…...

2026/5/14 2:21:44 阅读更多 →

千问3.5-2B在智能硬件中的应用：嵌入式设备截图理解+语音播报内容生成联动

千问3.5-2B在智能硬件中的应用：嵌入式设备截图理解语音播报内容生成联动 1. 项目背景与价值在智能硬件领域，嵌入式设备通常需要处理大量屏幕截图和用户交互信息。传统方案需要分别部署图像识别、文字识别和语音合成等多个模块，不仅系统复杂…...

2026/4/6 22:45:28 阅读更多 →

ML模型监控工具：监控和维护机器学习模型的性能

ML模型监控工具：监控和维护机器学习模型的性能一、ML模型监控工具概述 1.1 ML模型监控工具的定义 ML模型监控工具是指用于监控和维护机器学习模型性能的软件工具。它通过收集模型的预测数据、性能指标和数据质量，帮助用户了解模型的状态，及时…...

2026/5/26 19:26:34 阅读更多 →

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略引言在 AI 技术快速发展的今天，越来越多的 AI 工具涌现出来，帮助开发者提高工作效率。但对于许多开发者来说，面对众多的 AI 产品和服务，往往感到困惑：这…...

2026/5/28 3:57:35 阅读更多 →

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 还在…...

2026/5/27 13:51:25 阅读更多 →

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案【免费下载链接】Bifrost Cross-platform tool for downloading Samsung mobile device firmware. 项目地址: https://gitcode.com/gh_mirrors/sa/Bifrost 还在为三星设备固件下载而烦恼吗&#xff…...

2026/5/26 4:45:11 阅读更多 →