Phi-3-mini-128k-instruct实战教程：vLLM API对接微信公众号实现AI自动回复

张

张建站

2026/4/20 5:44:32

10分钟阅读

Phi-3-mini-128k-instruct实战教程vLLM API对接微信公众号实现AI自动回复想给你的微信公众号装上一个聪明的大脑让它能自动、智能地回复粉丝的消息吗今天我们就来手把手教你如何用轻量又强大的Phi-3-mini-128k-instruct模型结合vLLM部署和Chainlit前端打造一个专属的AI客服机器人。整个过程就像搭积木一样简单不需要你懂复杂的AI算法跟着步骤走半天时间就能让你的公众号“活”起来。无论是回答产品咨询、处理常见问题还是和粉丝进行趣味互动这个AI助手都能轻松胜任。1. 项目准备理解我们的“工具箱”在开始动手之前我们先快速了解一下要用到的几个核心“工具”这样后面操作起来心里更有底。1.1 主角Phi-3-mini-128k-instruct模型你可以把它理解为一个经过专门训练的“大脑”。它有几个突出的特点身材小巧能力不俗虽然只有38亿参数相比动辄千亿的大模型非常轻量但在多项测试中表现优异尤其在常识、逻辑推理和代码理解上。“记忆力”超群名字里的“128k”意味着它能处理非常长的对话或文档约10万字适合用来进行多轮、深入的聊天。听话又好用它经过了“指令微调”能更好地理解你的要求并给出符合预期的回答而且内置了安全机制避免生成有害内容。简单说我们选它就是因为它在保持高性能的同时对电脑配置要求不高部署和运行起来又快又省资源。1.2 引擎vLLM推理服务模型这个“大脑”需要在一个高效的环境里运行。vLLM就像一个为这类模型量身定做的“超级引擎”它的作用是让推理飞起来采用了一种叫PagedAttention的技术能极大地提升模型生成文本的速度减少你等待回复的时间。轻松提供API部署好后它会开放出一个标准的HTTP接口。我们的微信公众号后台程序只需要像访问普通网页一样向这个接口发送请求就能拿到AI生成的回复。1.3 控制台与桥梁Chainlit前端与微信公众号Chainlit这是一个开源的聊天界面框架。在教程前半部分我们会用它来快速验证我们的模型服务是否正常工作就像给引擎装上一个简易的“仪表盘”和“方向盘”方便我们测试。微信公众号后台这是我们最终要对接的平台。我们需要在它的开发者设置中配置一个“消息服务器”。当粉丝在公众号发送消息时微信服务器会把消息转发到我们的服务器我们的程序处理完调用AI后再把回复传回给微信服务器最终显示给粉丝。整个流程的蓝图是这样的粉丝发消息 - 微信服务器 - 我们的后端程序 - vLLM API (Phi-3模型) - 生成回复 - 我们的后端程序 - 微信服务器 - 粉丝。2. 基础环境搭建与验证首先我们需要确保Phi-3模型已经通过vLLM成功部署并且能够正常工作。这里假设你已经有一个可以运行模型的服务器环境例如使用了预置的Docker镜像。2.1 验证模型服务状态模型部署通常需要一些时间加载。首先我们检查服务是否已经启动并运行正常。连接到你的服务器查看部署日志cat /root/workspace/llm.log如果看到日志中显示模型加载完成、vLLM服务成功启动通常会在某个端口如8000监听并且没有报错信息就说明模型引擎已经就绪。2.2 使用Chainlit进行快速测试在直接对接复杂的微信公众号之前我们先用一个简单的网页聊天界面来测试模型确保这个“大脑”反应正常。1. 启动Chainlit前端通常预置环境会提供一键启动Chainlit的脚本或方式。你可能需要在工作目录下找到一个chainlit相关的命令或通过Web界面打开一个链接。启动后你会看到一个简洁的聊天网页界面。2. 进行对话测试在Chainlit的输入框里尝试问几个问题。例如“你好介绍一下你自己。”“用Python写一个计算斐波那契数列的函数。”“周末去露营需要准备什么”观察回复是否流畅、相关且合理。这一步的目的是确认vLLM API接口是可用的。Phi-3模型能够正确理解指令并生成高质量回复。整个服务链路是通畅的。如果测试成功恭喜你最核心的AI服务部分已经搞定。接下来我们要搭建连接微信和这个AI服务的“桥梁”。3. 构建微信消息处理后端现在我们需要创建一个Python程序它扮演两个角色一是接收微信服务器转发的粉丝消息二是去调用我们刚刚测试好的vLLM API获取AI回复。3.1 创建项目与安装依赖在你的服务器上创建一个新的工作目录例如wechat_ai_bot。mkdir wechat_ai_bot cd wechat_ai_bot然后创建一个Python虚拟环境并安装必要的库。我们主要需要Flask一个轻量的Web框架来构建HTTP服务以及requests库来调用vLLM API。python -m venv venv source venv/bin/activate # Linux/Mac # 或者 venv\Scripts\activate # Windows pip install flask requests3.2 编写核心后端服务创建一个名为app.py的文件这是我们后端服务的核心代码。#!/usr/bin/env python3 # -*- coding: utf-8 -*- 微信公众号AI自动回复后端核心功能验证微信服务器、接收消息、调用Phi-3模型、返回回复 from flask import Flask, request, make_response import hashlib import time import requests import json app Flask(__name__) # 配置信息 - 需要你根据实际情况修改 CONFIG { token: your_wechat_token, # 在微信公众号后台设置的Token vllm_api_url: http://localhost:8000/v1/completions, # vLLM服务的API地址 } def check_signature(token, timestamp, nonce, signature): 验证消息是否来自微信服务器 tmp_list [token, timestamp, nonce] tmp_list.sort() tmp_str .join(tmp_list).encode(utf-8) tmp_hash hashlib.sha1(tmp_str).hexdigest() return tmp_hash signature def call_phi3_model(prompt): 调用部署好的Phi-3-mini模型生成回复 api_url CONFIG[vllm_api_url] # 构建符合vLLM API格式的请求数据 payload { model: phi-3-mini-128k-instruct, # 模型名称需与部署时一致 prompt: prompt, max_tokens: 512, # 生成回复的最大长度 temperature: 0.7, # 创造性程度0-1之间越高越随机 stream: False } headers { Content-Type: application/json } try: response requests.post(api_url, jsonpayload, headersheaders, timeout30) response.raise_for_status() # 如果请求失败则抛出异常 result response.json() # 从响应中提取生成的文本 generated_text result[choices][0][text].strip() return generated_text except requests.exceptions.RequestException as e: print(f调用vLLM API失败: {e}) return 抱歉AI助手正在思考中请稍后再试。 except (KeyError, IndexError) as e: print(f解析API响应失败: {e}) return AI助手回复解析出错。 def process_wechat_message(user_msg): 处理微信消息构建给模型的提示词 # 这里可以添加一些逻辑来处理不同的消息类型或上下文 # 例如可以维护一个简单的对话历史注意128K上下文很长但实际使用需考虑性能 # 基础提示词让模型以助手身份回复 # 你可以根据需要调整这个提示词来改变AI的回复风格 system_prompt 你是一个 helpful assistant. full_prompt f{system_prompt}\n\nUser: {user_msg}\nAssistant: return full_prompt app.route(/wechat, methods[GET, POST]) def wechat_handler(): 处理微信服务器所有请求的入口函数 if request.method GET: # 微信服务器首次验证 signature request.args.get(signature, ) timestamp request.args.get(timestamp, ) nonce request.args.get(nonce, ) echostr request.args.get(echostr, ) if check_signature(CONFIG[token], timestamp, nonce, signature): return echostr else: return 验证失败, 403 elif request.method POST: # 接收用户消息 xml_data request.data try: # 解析微信XML消息这里简化处理实际生产环境建议用xml.etree.ElementTree # 假设是文本消息 xml_str xml_data.decode(utf-8) # 简单提取用户ID和消息内容这是一个简化示例你需要根据微信XML格式完善解析逻辑 # 例如找到Content标签内的内容 start_idx xml_str.find(Content![CDATA[) len(Content![CDATA[) end_idx xml_str.find(]]/Content) if start_idx ! -1 and end_idx ! -1: user_message xml_str[start_idx:end_idx] from_user xml_str.split(FromUserName![CDATA[)[1].split(]]/FromUserName)[0] to_user xml_str.split(ToUserName![CDATA[)[1].split(]]/ToUserName)[0] print(f收到用户 {from_user} 的消息: {user_message}) # 处理消息调用AI模型 prompt_for_ai process_wechat_message(user_message) ai_reply call_phi3_model(prompt_for_ai) print(fAI回复内容: {ai_reply}) # 构建返回给微信的XML消息 reply_xml f xml ToUserName![CDATA[{from_user}]]/ToUserName FromUserName![CDATA[{to_user}]]/FromUserName CreateTime{int(time.time())}/CreateTime MsgType![CDATA[text]]/MsgType Content![CDATA[{ai_reply}]]/Content /xml response make_response(reply_xml) response.content_type application/xml return response else: # 非文本消息或格式不符返回空或处理其他类型消息 return success except Exception as e: print(f处理消息时发生错误: {e}) # 即使出错也返回success避免微信服务器重试 return success if __name__ __main__: # 注意生产环境应使用Gunicorn等WSGI服务器并设置安全配置 app.run(host0.0.0.0, port5000, debugFalse)代码关键点解释验证签名 (check_signature)这是微信要求的安全机制确保请求确实来自微信服务器而不是他人伪造。调用AI模型 (call_phi3_model)这个函数构建一个HTTP请求发送到我们之前部署的vLLM服务。prompt参数是经过我们组装的对话文本。消息处理 (process_wechat_message)这里我们把用户的原始消息包装成一个更适合模型理解的格式。你可以在这里发挥创意比如给AI设定不同的人设或者添加上下文记忆。主路由 (/wechat)GET请求用于微信服务器首次验证。POST请求用于接收用户消息解析后调用AI再组装成XML格式返回。3.3 本地测试后端服务在对接微信之前我们先在本地测试一下这个后端服务是否能跑通。修改配置在app.py中将CONFIG字典里的token改为你打算在微信后台设置的Token可以是一串随机字母数字确保vllm_api_url指向正确的vLLM服务地址如果vLLM运行在同一台机器localhost:8000通常是对的。运行服务python app.py如果看到类似* Running on http://0.0.0.0:5000的输出说明你的后端服务已经在本地的5000端口启动了。简单功能测试你可以使用curl命令或Postman等工具模拟微信服务器发送一个POST请求到http://你的服务器IP:5000/wechat看看程序是否能正常响应虽然可能因为XML解析问题不能完全测试但可以看服务是否存活。4. 配置微信公众号后台这是连接微信生态的关键一步。你需要有一个已认证的微信公众号订阅号或服务号并开启开发者模式。1. 获取服务器公网地址你的app.py服务需要部署在一个能从外网访问的服务器上并有一个公网IP或域名。假设你的公网域名是https://your-domain.com。2. 登录微信公众平台进入 mp.weixin.qq.com在左侧菜单找到【设置与开发】- 【基本配置】。3. 启用服务器配置点击【修改配置】。URL填写你的后端服务地址例如https://your-domain.com/wechat。这个地址必须能通过HTTP GET和POST访问。Token填写你在app.py中设置的your_wechat_token。这个Token用于签名验证两边必须一致。EncodingAESKey可以随机生成也可以手动填写。如果选择“安全模式”消息会加密后端需要解密本例为简化选择“明文模式”即可。消息加解密方式初次测试建议选择“明文模式”更简单。填写后点击【提交】。微信服务器会立即向你的URL发送一个GET请求进行验证。如果你的后端服务正在运行且check_signature函数正确验证将成功。4. 启用服务验证成功后在下方点击【启用】。这样你的公众号就正式接管了消息处理权限所有粉丝发送的消息都会转发到你的服务器。5. 高级功能与优化建议基础功能跑通后你可以考虑以下优化让机器人更智能、更稳定。5.1 完善消息解析与处理上面的示例代码对微信XML消息的解析非常简化。在实际使用中你需要处理多种消息类型文本、图片、语音、事件等。建议使用现成的微信SDK例如WeRoBot或werobot它们能帮你省去解析XML的麻烦。# 使用WeRoBot的示例思路 import werobot robot werobot.WeRoBot(tokenyour_token) robot.text def reply_text(message): user_msg message.content ai_reply call_phi3_model(fUser: {user_msg}\nAssistant:) return ai_reply # 其他事件和消息类型的处理...5.2 添加对话上下文记忆为了让AI能进行连贯的多轮对话你需要维护一个简单的上下文缓存。可以为每个用户通过FromUserName识别保存最近几轮的对话历史并在构建提示词时附加上去。# 简单的上下文缓存示例生产环境建议用Redis等 from collections import deque import hashlib user_contexts {} def get_context(user_id, max_turns5): 获取或创建用户的对话上下文 if user_id not in user_contexts: user_contexts[user_id] deque(maxlenmax_turns*2) # 存user和assistant的发言 return user_contexts[user_id] def process_message_with_context(user_id, new_user_msg): 结合上下文处理新消息 context get_context(user_id) # 将上下文中的历史对话组装成提示词 history_prompt \n.join(list(context)) # 构建本次对话的完整提示 full_prompt f以下是对话历史\n{history_prompt}\n\n用户新消息{new_user_msg}\n请根据以上历史进行回复 ai_reply call_phi3_model(full_prompt) # 将本轮对话加入上下文 context.append(fUser: {new_user_msg}) context.append(fAssistant: {ai_reply}) return ai_reply5.3 提升服务稳定性与性能使用生产级WSGI服务器不要用Flask自带的开发服务器app.run。改用Gunicorn或uWSGI。pip install gunicorn gunicorn -w 4 -b 0.0.0.0:5000 app:app设置超时与重试在调用vLLM API时设置合理的超时时间并考虑增加重试逻辑。添加日志记录将重要的操作收到消息、调用API、返回结果记录到文件方便排查问题。敏感词过滤在将AI回复返回给用户前可以增加一层内容安全过滤确保符合平台规范。5.4 处理vLLM API的流式响应如果希望实现像ChatGPT那样的打字机效果逐字输出vLLM API支持流式响应stream: true。你需要修改后端使用Server-Sent Events (SSE) 或WebSocket将token流式推送到前端。不过微信官方回复接口目前是同步的这个效果更适用于你自己的网页应用。6. 总结至此我们已经完成了一个从零到一的微信公众号AI自动回复机器人的搭建。让我们回顾一下关键步骤部署与验证AI核心使用vLLM成功部署Phi-3-mini-128k-instruct模型并通过Chainlit验证其对话能力。搭建消息桥梁用Python Flask编写了一个后端服务它负责接收微信消息、调用vLLM API、并返回AI生成的回复。连接微信生态在微信公众号后台配置服务器地址完成验证将消息处理权交给我们的自建服务。优化与扩展提出了添加上下文记忆、使用SDK、提升稳定性等进阶方向让你的机器人更聪明、更可靠。这个方案的优点非常明显自主可控、成本低廉、高度定制化。你可以随时调整提示词来改变AI的回复风格可以针对你的业务领域做微调也可以集成其他功能如查询数据库、调用外部API。最后的重要提示在正式对公众提供服务前请务必进行充分测试特别是内容安全性和回复质量。AI的生成具有不确定性建议设置审核机制或限制敏感话题确保符合相关法律法规和平台规定。现在去启动你的服务让公众号的粉丝们体验一下与AI即时对话的乐趣吧获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。