影刀RPA新手教程HTML标签与属性速查——前端知识在RPA中的实用清单不需要成为前端工程师但需要认识页面上的几类标签和属性。因为这些标签就是XPath的素材库——class、id、href、src、data-*全是用来定位元素的锚点。不认得这些标签XPath写到哪算哪。认得了看一眼开发者工具就知道怎么定位。一、HTML基本结构——一段代码看懂dividproduct-cardclassgoods-itemdata-skuSKU001ahref/product/12345.htmlimgsrchttps://img.example.com/product.jpgalt连衣裙//ah3classtitle2026夏季新款连衣裙 法式收腰显瘦/h3spanclasspriceem¥/em128.00/spanspanclasssales已拼em10万/em件/span/div标签之间的关系div是父容器最外层的盒子a、h3、span是它的直接子元素em是span的子元素是div的孙子元素二、影刀RPA必须认识的HTML标签标签中文名影刀采集中常用于div块容器页面区域的父容器99%的元素都包在div里a链接提取商品链接、跳转URL用获取元素属性取hrefspan行内文本价格、销量、标签等小段文本img图片提取图片地址用获取元素属性取srcinput输入框输入文本的目标元素button按钮点击操作的目标元素h1~h6标题商品名称、文章标题ul/li列表导航栏、分类列表table/tr/td表格后台管理系统的数据表格iframe内嵌页面嵌套网页需要先切换框架三、电影RPRPA定位最常用的6种属性拼多多店群自动化上架方案1. id —— 最理想的定位锚点dividsearch-input-wrapper# XPath中通过id定位最稳定id理论上是唯一的//*[idsearch-input-wrapper]优势id在一个页面里是唯一的定位最精确。劣势很多现代网站不写id了或者用动态id。2. class —— 最常用的定位锚点spanclassprice-value red¥128.00/span# 精确匹配class//span[classprice-value]# 部分匹配推荐因为class可能包含多个值//span[contains(class,price)]注意classprice-value red是用空格分隔的两个class名。如果写classprice-value是匹配不到的。所以推荐用contains。3. href —— 链接地址ahref/product/12345.html商品详情/a# 定位特定链接//a[href/product/12345.html]# 定位href包含某个关键词的链接//a[contains(href,/product/)]4. src —— 图片地址imgsrchttps://img.example.com/abc.jpg/# 获取图片URL用获取元素属性指令属性名填src获取元素属性(商品图片元素,src)5.>divdata-spmgoodsdata-id12345678data-trackitem# data属性一般不随改版变化比class更稳定//div[data-id12345678]# 用data属性过滤//div[contains(data-track,item)]data属性是业务开发为了埋点和数据追踪写的电商页面改了CSS样式也不会改data属性。所以用data属性定位比class更稳。6. text() —— 文本内容button下一页/button# 通过文本内容定位//button[text()下一页]# 部分匹配文本//button[contains(text(),下一)]# 通过文本定位兄弟元素参照物定位//span[text()价格]/following-sibling::span[1]四、Chrome开发者工具怎么看HTML按下F12打开目标页面 → 按F12或右键→检查→ 出现开发者工具。Elements面板左侧就是页面的HTML结构。鼠标在HTML上移动页面上对应区域会高亮。怎么找到你要的元素的代码TEMU店群如何管理运营最方便的方式在页面上右键你要的元素 → 检查。开发者工具直接跳转到对应代码。从这里提取XPath定位的关键信息看这个元素的标签名、class、id、data属性。用来构造XPath。!-- 示例淘宝的搜索输入框 --inputidqclasssearch-combobox-inputplaceholder搜索 淘宝aria-label搜索/从这段代码可以写出多种XPath//input[idq]# 用id//input[contains(class,search)]# 用class//input[placeholder搜索 淘宝]# 用placeholder//input[aria-label搜索]# 用aria-label推荐用ididq因为最不容易变。五、RPA中常用的CSS概念不需要学CSS但理解两个概念能帮你判断元素状态display:none 元素在DOM里但看不见。影响相似元素列表的计数。# 排除隐藏元素//div[classcardandnot(contains(style,display:none))]disabled 按钮变灰不可点击。# 只匹配可点击的下一页按钮//a[classnextandnot(disabled)]六、速查从我要做什么到查什么属性我想提取看哪个标签取哪个属性XPath示例商品标题文本h3, div, span文本内容innerText//h3[classtitle]价格span文本内容//span[contains(class,price)]商品链接ahref//a[contains(class,link)]/href图片地址imgsrc//img[contains(class,pic)]/src商品IDdiv, lidata-id 或>