Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill效果对比:在健康问答中医学术语准确性专项评测
Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill效果对比在健康问答中医学术语准确性专项评测1. 评测背景与模型介绍在医疗健康领域AI模型的术语准确性和专业度至关重要。本次评测聚焦Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill模型以下简称Qwen3-4B-Distill在中医健康问答场景中的表现。该模型基于5440万个由Gemini 2.5 Flash生成的token训练而成特别针对健康领域1720条提示进行了知识提炼。训练目标是准确复现Gemini-2.5 Flash的推理轨迹和知识表达能力。评测使用vllm部署的模型服务通过chainlit前端进行交互测试重点关注中医专业术语的使用准确性和上下文理解能力。2. 评测方法与测试设计2.1 测试数据集构建我们从三个维度构建了中医健康问答测试集基础术语测试30题单味药材、穴位名称等基础概念方剂配伍测试20题经典方剂组成与功效辨证施治测试20题症状描述与治疗建议2.2 评估指标采用三级评分标准评分标准描述3分术语完全准确解释专业到位2分术语基本正确解释存在小瑕疵1分术语错误或解释不专业3. 关键评测结果分析3.1 基础术语测试表现模型在基础中医术语识别方面表现优异药材识别30种测试药材全部正确识别100%准确率穴位定位准确描述14个主要穴位位置93.3%准确率经典理论能准确解释阴阳五行等基础概念典型示例用户问请解释足三里穴位的定位和功效 模型答足三里位于小腿前外侧犊鼻下3寸距胫骨前嵴一横指处。主要功效是健脾和胃、扶正培元常用于治疗胃肠疾病和增强免疫力。3.2 方剂配伍测试表现在经典方剂测试中模型展现出良好的知识掌握方剂名称组成准确度功效描述准确度四君子汤完全正确完全正确六味地黄丸完全正确完全正确桂枝汤完全正确功效描述少1项值得注意的细节是模型能准确区分君、臣、佐、使的组方原则并能说明各药材的配伍关系。3.3 辨证施治测试表现在辨证测试中模型展现出临床思维症状归纳能准确从描述中提取关键症状辨证分型能正确进行八纲辨证治疗建议推荐方剂基本合理示例对话用户描述经常感到疲劳食欲不振大便溏稀舌淡苔白 模型分析符合脾虚湿困证候建议参考参苓白术散加减并注意饮食调养...4. 典型问题与改进建议4.1 发现的主要问题部分冷门术语如络却穴等较少用穴位识别不准剂量细节方剂中个别药材用量描述不够精确方言表述对上火等民间表述的学术转化有待加强4.2 优化建议增加中医经典著作的训练数据比例强化药材剂量和配伍禁忌的专项训练建立中医术语标准化词库5. 总结与结论本次专项评测表明Qwen3-4B-Distill模型在中医健康问答场景中展现出核心术语准确率达92%以上方剂知识掌握系统全面辨证思维基本符合临床逻辑该模型特别适合作为中医知识科普助手中医药学习辅助工具健康咨询前置筛选对于专业中医师而言可作为参考资料查询工具但复杂病例仍需专业判断。后续可通过领域微调进一步提升专业深度。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。