Open-AutoGLM智能助理实战自动回复微信、刷短视频、点外卖教程1. 项目简介与核心能力Open-AutoGLM是一个基于视觉语言模型的AI手机智能助理框架它能像真人一样操作你的手机。想象一下你只需要说帮我点个外卖或者刷10个搞笑短视频它就能自动完成所有操作完全不需要你动手点击屏幕。这个框架的核心能力包括屏幕理解能看懂手机屏幕上显示的内容就像人类一样识别图标、文字和按钮自然语言交互直接用日常语言下达指令比如打开微信回复老板好的自动化操作通过ADB(Android调试桥)模拟真实的手指操作完成点击、滑动、输入等动作任务规划复杂任务自动拆解成多个步骤比如点外卖会分解为打开美团→搜索餐厅→选择菜品→下单支付2. 环境准备与设备连接2.1 硬件与软件要求在开始之前请确保准备好以下条件电脑端要求操作系统Windows 10/11或macOS 10.15Python环境3.10或更高版本ADB工具Android调试桥(包含在Android SDK中)手机端要求Android 7.0或更高版本开发者选项已开启USB调试模式已启用2.2 手机设置步骤开启开发者模式进入手机设置 → 关于手机 → 连续点击版本号7次看到您现在是开发者的提示后返回设置启用USB调试进入设置 → 开发者选项找到USB调试并开启同时开启USB安装和USB调试(安全设置)安装ADB键盘下载ADB Keyboard APK并安装进入设置 → 系统 → 语言和输入法 → 默认键盘 → 选择ADB键盘2.3 电脑端环境配置Windows系统配置下载platform-tools并解压右键此电脑 → 属性 → 高级系统设置 → 环境变量在系统变量Path中添加platform-tools的路径打开CMD输入adb version验证是否成功macOS系统配置# 假设解压到Downloads目录 export PATH$PATH:~/Downloads/platform-tools3. 安装与启动Open-AutoGLM3.1 获取控制端代码在电脑上打开终端执行以下命令# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖包 pip install -r requirements.txt pip install -e .3.2 连接手机设备USB连接方式用数据线连接手机和电脑在手机上允许USB调试请求终端输入adb devices应该能看到你的设备IDWiFi无线连接# 先用USB连接执行 adb tcpip 5555 # 断开USB后连接手机IP adb connect 192.168.x.x:55554. 实战案例演示4.1 自动回复微信消息假设你想让AI自动回复微信消息可以这样操作python main.py \ --device-id 你的设备ID \ --base-url http://服务器IP:8000/v1 \ --model autoglm-phone-9b \ 打开微信找到老板的聊天窗口回复好的我马上处理执行过程AI会先解锁手机屏幕找到并打开微信应用识别出老板的聊天窗口点击输入框用虚拟键盘输入指定内容点击发送按钮4.2 自动刷短视频想让AI帮你刷10个抖音短视频python main.py \ --device-id 你的设备ID \ --base-url http://服务器IP:8000/v1 \ --model autoglm-phone-9b \ 打开抖音向上滑动10次执行细节每次滑动后会等待视频播放几秒能识别出点赞和评论按钮的位置遇到直播会自动跳过4.3 智能点外卖最实用的场景之一——自动点外卖python main.py \ --device-id 你的设备ID \ --base-url http://服务器IP:8000/v1 \ --model autoglm-phone-9b \ 打开美团外卖搜索牛肉面选择评分4.5以上的最近商家点一份招牌牛肉面用默认地址和支付方式下单任务分解打开美团外卖APP在搜索框输入牛肉面筛选符合条件的商家进入店铺选择指定菜品自动填写收货地址完成支付流程5. 进阶使用与Python API5.1 使用Python脚本控制对于开发者可以使用Python API实现更灵活的控制from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型连接 model_config ModelConfig( base_urlhttp://localhost:8000/v1, model_nameautoglm-phone-9b, ) # 创建代理实例 agent PhoneAgent(model_configmodel_config) # 执行复杂任务 task 1. 打开微信 2. 找到家人群聊 3. 发送今晚我不回家吃饭了 4. 然后打开饿了么点一份黄焖鸡米饭 result agent.run(task) print(任务执行结果:, result)5.2 任务链与条件判断可以组合多个任务并添加简单逻辑# 根据时间执行不同操作 task 如果现在时间是18:00-20:00 打开美团点晚餐 否则如果时间是12:00-13:30 打开饿了么点午餐 否则 打开微信读书看30分钟书 agent.run(task)6. 常见问题排查6.1 连接问题ADB设备未识别检查USB线是否正常工作确认手机已开启USB调试尝试adb kill-server adb start-serverWiFi连接不稳定确保手机和电脑在同一网络检查防火墙是否阻止了5555端口尝试重新执行adb tcpip 55556.2 执行问题AI无法识别界面元素确保屏幕亮度足够检查是否有悬浮窗遮挡尝试简化指令或分步执行输入内容错误确认ADB键盘已设为默认输入法检查是否有特殊字符需要转义尝试用英文指令测试6.3 性能优化响应速度慢关闭手机上的后台应用降低屏幕分辨率确保网络连接稳定内存不足减少并发任务数量增加--max-model-len参数定期重启服务7. 总结与进阶建议Open-AutoGLM为手机自动化带来了革命性的改变通过本教程你已经掌握了基础环境搭建和设备连接方法三种典型场景的自动化实现Python API的进阶使用技巧常见问题的解决方案下一步学习建议尝试更复杂的任务组合比如每天早上8点打卡并发送工作报告探索框架的二次开发接口定制专属功能加入用户社区分享你的自动化脚本安全提示敏感操作如支付、登录等建议人工确认不要将设备长时间交给AI控制定期检查自动化任务的执行记录获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。