Power Query功能区 - 视图
Power Query功能区 - 视图布局查询设置就是右侧这个框框用来看应用的步骤的。编辑栏这个就是编辑栏数据预览显示空白Power Query 默认不显示空白字符比如空格需要开启“显示空白”才能清楚看到空白字符包括数量和位置比如以下数据示例例子备注iii3个字符www3个字符A123正常A123·后面有1个空格·A123前面有1个空格A···123中间有3个空格A123↵B456中间有换行符A123半角A123全角A导入 Power Query 后默认不勾选“显示空白”空白字符虽然存在但不会被显示出来。空格属于空白字符换行符不一定以符号形式显示但也可能影响显示效果比如数据的第 4、5、6、7 行表现为前后空格完全看不见中间有间隔但无法判断有几个空格只能看到字符被“拉开”无法确认具体情况换行符未体现为换行数据显示在同一行本质是空白字符仍然存在但只是没有被显示出来。开启“显示空白”后空白字符会以符号形式显示从而可以清楚识别其数量和位置。空格通常显示为 ·换行符可能以结构变化体现比如数据的第 4、5、6、7 行表现为前面空格可以明确看到位置后面的空格通常看不到需要用其他方法排查和去除中间空格可以准确判断有几个不再只是“有间隔”而是可以精确识别空格数量换行符更容易被察觉可能表现为分行或结构变化本质是空白字符被可视化显示从而可以更准确判断其位置和数量。等宽字体等宽字体必须搭配显示空白使用效果才最佳。我们使用等宽字体时先勾选显示空白等宽字体 让每个字符的“视觉宽度”一致让数据差异更容易被发现主要用于观看舒适和排除以下问题更方便排查问题例如是否有多余空格字符长度是否一致是否存在对齐问题全角 / 半角混用是否存在换行符导致的结构异常如果不使用”等宽字体“导入PQ后显示如下会发现其实i和w的显示宽度不一致虽然都是3个字符但视觉上是不对齐的。开启”等宽字体“后每个字符的视觉宽度一致看起来更舒适以及更方便排查一些问题列质量列质量 用来检查该列数据是否符合当前设置的数据类型同时查看有效、错误、空值的占比。主要用于数据清洗前的检查以及数据类型设置后的验证用来诊断该列是否存在错误值、空值等不符合数据类型要求的数据。”任意“数据类型检测列质量时注意有一个数据类型是”任意Any“类型当列的数据类型为“任意”时系统不会对数据进行类型约束几乎所有数据都会被视为“有效”。比如我有以下数据导入PQ后点击显示“列质量”却发现错误是0%为啥呢因为此时的数据类型是“任意几乎所有数据都会被视为“有效”。文本类型整数类型AAA200小王小王10002026/1/12026/1/14.5需触发重新计算设置为正确的数据类型后列质量结果如下比如右侧一列为什么已经有一个error但是列质量的结果错误还是0%呢因为列质量这个功能喜欢基于数据预览干活意思就是某些操作后台统计不会立即刷新需要触发重新计算。你随便做任意一个操作比如筛选你想筛选出数字”4你筛选后会发现报错了。任意的操作都行比如筛选排序新增一个步骤都可。筛选后报错这个时候再返回去看数据发现列质量的错误比例又是正确的25%了。文本类型的错误比例关于左侧一列的文本类型为什么是错误0%因为当列设置为文本类型时Power Query 会将其他类型的数据如数字、日期等统一转换为文本格式这种转换通常不会失败因此错误比例一般为 0%。只有在极少数情况下如已有错误值文本列才可能出现错误。列分发列分布Column Distribution一如既往的垃圾翻译其实就是列分布的意思列分布本质是统计非重复值Distinct去重后有多少种值唯一值Unique只出现一次的值有多少个并用柱形图展示各个值的分布情况列分布 看这列有几种值 每种值分布正不正常一般用来干这些事情看有没有多余的值比如性别列多出个“未知”看有没有缺的值看数据是不是按预期来比如就2种、就唯一看比例比例差很多 →可能有问题比如以下的例子这一列是性别当我们开启列分布后理想的显示结果2个非重复值0个唯一值男、女都不止出现一次实际的显示结果3个非重复值1个唯一值这就说明出现了3个性别不符合我国国情并且这个异常数据出现了1次可以判断这一列有数据错误。列配置文件就是把这一列的详细信息全给你列出来。可以理解为类似 Excel 里的max、min、average、distinct、unique 等统计结果的集合。主要会显示最小值 / 最大值数值、日期平均值数值列空值数量 / 错误数量非重复值Distinct / 唯一值Unique具体每个值的分布更详细的列表和前两个的区别列质量 → 看有没有错列分布 → 看值分布列配置文件 →全都给你 更细主要功能看数据范围对不对比如最大最小值找异常值比如突然出现特别大的数看空值、错误值具体有多少快速了解这一列的数据情况不用自己算转到列字面意思选中某一列适用于列超级多滑不到或者懒得滑的时候。参数-始终允许功能解释在 Power Query 里参数Parameter可以当变量用比如文件路径URL数据库地址当这些参数参与数据源时PQ 会觉得“这个来源可能不安全要不要信”所以会弹提示。点“始终允许”之后以后这个参数相关的数据源直接信任不再弹确认这个东西一般只有用“参数控制数据源”时才会用到平时不用参数其实基本感觉不到它存在。那就知道这个是啥就行了实际发现很烦人的弹窗时再设置。高级-高级编辑器就是打开高级编辑器用来写M代码的编辑器.依赖项-查询依赖项这个功能就是用来查看查询和数据源之间的引用关系链路。可以看到哪些查询是从数据源来的哪些查询引用了其他查询查询之间是怎么一层一层连接的主要功能避免数据量大、数据源多时出现引用关系混乱看某个查询是从哪一步来的查问题比如某个查询报错可以往上追判断改一个查询会不会影响其他查询