数据标注数据标注大模型类似一个什么都不懂的小孩, 需要我们通过大量的 数据 , 教会他 什么东西是什么东西例如: 教会大模型什么是猫,那我们就通过大量的猫的图片和大量非猫的图片,这些图片就是答案 , 教给大模型 , 让大模型在无数次的学习中掌握 猫的特征 , 从而学会分辨什么是猫, 什么不是猫. 而数据标注, 就是制作答案 , 能让大模型用来学习,知道什么是对错的答案为什么要进行数据标注现在的 AI 大多采用监督学习, 没有高质量的标注数据, 那么AI会越学越脑瘫.建立真理:给Ai建立标准,告诉ai什么是对的什么是错的提高AI的智商: 数据标注的质量,直接就能决定训练出来的AI有多聪明提高AI的专业程度:如果AI用于某个领域,那么肯定需要关于这个领域的大量的高质量的标注数据,才能让AI变得更加专业,如果是通用的数据,那么AI就不能在这个领域上表现出色标注出来的数据给谁用1.作为AI训练的学习素材2.作为AI训练完后的测试集3.作为结构化资产 (标注出来的高质量的数据,可以存入向量数据库,可以用于后面做模型微调使用)数据标注用于哪个阶段模型预训练阶段 :通过海量的数据交给模型学习,这时候标注就类似于让 模型去做完形填空,这个阶段只是让模型学习到海量的知识,但是这些只是怎么用,模型是不懂的微调阶段: 通过 少量高质量的标注数据,让一个旧模型变成一个新模型, 让模型在某个领域上变得更加专业了(比如: 一个能识别动物的模型能分辨出图片是那种动物, 我们给模型进行识别猫种类的培训 ,经过培训后,模型还是能识别动物,但是如果是猫, 模型能认出图片中的猫是什么种类的猫 )数据标注使用环境安装label-studio 是目前主流的数据标注 开源方案1. 创建环境 (我们这里使用conda创建环境) conda create -n label_studio1 python3.11.0 ​ conda activate label_studio_ai1 ​ 2. 安装依赖 pip install label-studio ​ 3. 启动 label-studio label-studio同时这里的解释器也要选我们创建的环境注册账号后登录创建项目数据标注练习判断评论的好坏1.创建 comments_data.json, 编码选 UTF-82. 文件里添加练习数据[{id: 1, text: 物流很快商品和描述一样质量很好非常满意},{id: 2, text: 质量太差了收到就有破损客服也不处理},{id: 3, text: 性价比很高做工精细下次还会再来购买},{id: 4, text: 和图片差距太大材质廉价完全不值这个价},{id: 5, text: 包装严实送货上门使用起来很顺手推荐入手},{id: 6, text: 发货很慢等了好多天才到体验特别差},{id: 7, text: 整体还行中规中矩没有明显缺点也没惊喜},{id: 8, text: 非常喜欢颜值高功能强已经推荐给朋友了},{id: 9, text: 实物偏小一点不太实用不建议大家买},{id: 10, text: 客服态度很好有问题都耐心解答服务满分}]选择导入上面的comments_data.json文件可以看到文件导入成功,点击返回点击Setting在右边选择Labeling Interface, 在里面,添加View,然后点击saveViewViewText namereview_text value$text granularitysentence/Header value请判断这条评论属于好评还是差评/Choices namesentiment toNamereview_text showInLinetrueChoice value好评 (Positive) aliaspos background#2ecc71/Choice value差评 (Negative) aliasneg background#e74c3c//Choices/View回到刚从创建的项目,选择其中一个数据进行标注(选择是好评,还是坏评)然后点submit保存导出数据每个题目都标注完成后点击右上角Export- 选择JSON-MIN格式。这就是可以直接拿去微调的数据了。