盲人出行辅助系统原型

张

张建站

2026/5/20 7:11:03

10分钟阅读

我做了一个很有意义的盲人出行辅助系统原型主要是结合现有导航OSRM/高德实时感知前方潜在危险目标辅助视障人士出行。持续优化中20260519欢迎大家尝试有一些想法也可以提出来。开源地址https://github.com/Lii-sir/Eye-Guide.git1. 项目背景对于视障人群来说日常出行可以通过高德等等进行路线导航但是在到达过程中最困难的是持续感知环境风险。传统导航软件可以告诉用户“往哪里走”但是没法告诉用户“前方是否有行人、障碍物、台阶或者车辆”。而纯视觉系统虽然能识别环境却缺少路径导航和实时位置联动功能。针对以上问题我做了一个原型项目EyeGuide。这个系统通将摄像头视觉感知、地图导航、GPS定位和语音播报串成一条完整链路让系统不仅能“规划路线”还能“观察前方环境实时提醒用户”。这个项目更偏向一个工程原型和技术验证系统终点不是做成商业的最终产品如果要商用后面可以嵌入开发板。但是嵌入之前还有一些工作需要做比如功能的完善、推理加速等等这些内容我还在持续优化中。2. 项目目标项目核心目标实时感知用户前方环境识别潜在危险目标。支持步行导航并结合当前GPS定位实时推进导航。通过语音播报把环境信息和导航信息及时传递给用户。3. 系统主要功能界面目前比较简单还请忽略我这个太草率了。后面功能完善之后会优化界面。3.1 自由探索模式在自由探索模式下程序会调用摄像头实时读取画面并进行目标识别。系统会重点关注以下几类对象行人、汽车、摩托车、台阶/高度变化区域。对于靠近用户、存在风险的目标系统会进行语音提示比如“注意正前方行人1.0米”3.2 路线导航模式在路线导航模式下用户输入起点和终点后系统会调用地图服务生成步行路线并在导航过程中实时播报当前导航步骤以及前方的危险目标。项目目前支持两类导航来源OSM基于Nominatim OSRM高德基于高德Web服务API3.3 GPS定位接入为了实现边走边导航项目支持接入USB/NMEA GPS模块读取串口中的定位信息。如果没有外接GPS系统会尝试调用Windows自带定位服务作为补充。这样可以实现获取当前位置、自动将当前位置填入导航起点、根据实时位置动态推进路线步骤。4. 核心技术方案4.1 视觉感知YOLO 与 OpenCV双路径检测在视觉感知部分项目优先采用 Ultralytics YOLO 进行目标检测与目标跟踪用于识别行人、车辆、自行车、障碍物等目标在深度模型可用时再结合 Depth Anything V2 对目标距离进行估计。与此同时系统并不完全依赖 YOLO。为了保证在依赖不完整、模型不可用或部署环境受限时仍能运行项目还实现了一套基于 OpenCV 的启发式检测方案主要包括行人检测地面障碍物检测台阶/高度变化风险检测目前 YOLO 检测用的还是开源权重后面可能会爬一些数据针对盲人出行常会遇到的障碍再进行微调训练。4.2 深度估计Depth Anything V2仅仅知道前面有什么肯定不够所有引入了深度估计进行单目深度估计用来辅助计算目标和用户之间的大致距离。这里的距离并不是激光雷达那种严格物理测距而是基于深度模型对单帧图像做推理得到的近似值。这里的距离也会用于风险等级评估比如估计距离为0.8m以内那这个风险等级就比较高。4.3 方位判断方位判断目前采用的是比较直接但很实用的方法根据目标框中心点在画面中的横向位置把目标划分成几个区域左侧、左前方、正前方、右前方、右侧。这样系统就可以播报更具体的提示比如“左前方行人1.2米”。4.4 地图导航导航采用了两种实现路线。OSM路线使用 Nominatim 做地理编码与地点搜索使用 OSRM 的 foot 模式做步行路线规划高德路线使用高德的 POI 搜索、地理编码和步行导航接口更适合中文地址场景尤其是国内地点检索此外为了避免地址模糊匹配错误系统对候选地点做了多结果展示让用户自己确认终点而不是强行只用第一条结果。4.5 语音播报机制语音播报使用 Windows 下的 SAPI / pyttsx3 作为输出后端。为了避免播报过于频繁和混乱系统在语音层做了几项处理去重冷却时间控制优先级控制队列替换策略这样可以尽量减少“同一目标每一帧都播报一次”的问题让播报更接近真实辅助场景。5. 项目整体架构整个系统大体可以分成四层感知层负责摄像头读取、YOLO 检测、深度估计、障碍物识别与方位判断。定位与导航层负责 GPS 接入、当前位置更新、地址解析、路线规划和自动导航推进。播报层负责把检测事件与导航事件统一送入语音队列再根据优先级和冷却策略进行播报。界面层使用桌面 GUI 展示控制面板同时显示视频窗口、导航信息和运行日志。6. 当前存在的问题这个项目目前仍然是原型系统还存在不少问题单目深度估计的距离误差仍然比较明显复杂场景下目标检测稳定性还有提升空间语音播报策略还需要继续优化避免漏报或重复播报导航与视觉提示的融合逻辑还不够细腻打包部署体积较大依赖项较重这些问题也说明视障辅助出行系统并不是单一模型就能解决的而是一个需要持续工程优化和多模块协同的复杂系统。7. 后续优化方向持续优化中后续我计划继续完善优化 YOLO 与深度估计的推理效率进一步减少语音播报重复和队列冲突增强对台阶、坑洞、盲道、路沿等关键场景的识别能力提升路线跟踪与自动重规划能力做更轻量的部署方案降低安装包体积进一步适配新电脑开箱即用的安装流程8. 展示高清视频https://live.csdn.net/v/527244https://live.csdn.net/v/527244

Gemini 多语言测评：中文/英文的语义保真与表达差异

这次测评我重点看 Gemini 在中文和英文之间切换时的表现，尤其是语义是否保真、表达是否自然，以及面对技术内容时会不会出现信息偏移。对 CSDN 用户来说，多语言能力并不是简单翻译，更多会出现在英文文档阅读、技术博客改写、API 说…...

2026/5/20 7:03:33 阅读更多 →

Figma 设计稿直转可运行代码：Vibe Coding 联动 Cursor 的 4 步自动化工作流

1. Figma 设计稿不是“图片”，而是可执行的代码契约大多数人把 Figma 当作 Photoshop 的替代品——拖个按钮、调个阴影、导出 PNG。我试过三次用这种方式对接前端开发，每次都在「这个圆角到底是 4px 还是 6px」、「文字行高是 1.4 还是 1.5」、「深色模式下这个 icon 是用 …...

2026/5/20 7:03:05 阅读更多 →