故事背景

有朋友留言询问,有时候在使用Power BI报告的时候,会遇到主数据为空或者数据异常的情况,那么是否有方法可以提前发现这些异常数据,并提前处理呢?

答案是肯定的,Power BI Desktop桌面开发软件中是含有数据质量验证功能的。下面我们讲解一下如何使用数据质量验证功能。

解决方案

1,如何开启数据质量验证功能:

打开Power BI Desktop, 导入数据,然后点击【主页】->【转换数据】->【转换数据】,进入Power Query编辑器。

图片

在Power Query编辑器,点击【视图】,然后勾选1)列质量;2)列分发;3)列配置文件。

图片

2,三种验证数据质量的功能介绍:

在深入了解每个功能的具体作用之前,我们先来弄清楚每个功能是什么,以便知道我们所指的内容。

图片

有朋友询问为什么自己看不到列配置文件的内容?

这里可能是软件的设计问题,若想查看列配置文件内容,需要点击某一列才会弹出相关信息,这可能是你一开始没看到它的原因。

Power BI列质量(Column Quality)

列质量功能主要包含三部分功能:

1)每列数据都会被分为3类,有效/错误/空。以“Area”的列为例,我们可以直观看到此列包含79%的空值。

2)在列名下方有一个小条形图,它代表有效、错误和空值的百分比。这是一个很微妙的细节。

图片

3)修正错误数据

点击列质量区域,会提供一些常用的错误数据的修复的功能。如下截图,保留错误,删除重复项,删除空,替换错误值等等。

图片

Power BI列分发(Column Distribution)

通过列分发功能,您将看到类似于以下截图,展示了每个列值的频率和分布情况。通过将鼠标悬停在列分布数据上,您可以获取有关整个列数据的详细信息(包括不同值的计数和唯一值)。

图片

Power BI列配置文件(Column Profile)

在 Power BI 中,列配置文件是数据剖析工具的重要组成部分,用于深入了解数据列中的详细统计信息。以下图“Product”列为例:

图片

1)列统计信息:显示所选列的统计信息,可以一目了然地观察到整个列的计数(Count)、错误值(Error)、空值(Empty)、不同值(Distinct)、唯一值(Unique)、空字符串(Empty String)、最小值(Min)和最大值(Max)。

2)值分布:可以通过条形图查看所选列中每个值的分布情况,上图中我们就可以看出“Product”列中Import的记录只有1条,在整个列中的数量占比为11%。

为什么查看数据仅仅为前1000条,是否可以查看整个数据集?

图片

默认情况下,Power Query会对数据集的前1000行进行剖析和检查。但是不用担心,只需简单点击一下,你就能改变这种默认设置,通过对整个数据集进行检查来获取完整的画面。

你只需查看左下角的状态栏,那里显示“基于前1000行的列分析”,然后将其更改为“基于整个数据集的列分析”。

图片

总结,Power BI的数据质量剖析验证的主要功能介绍完毕,很明显微软想为用户提供一个基本的数据探索功能,虽然目前它在用户界面展示层的内容还不够丰富,但是能满足大家的基本需求。善用这些验证功能能给大家带来一些意想不到的结果。

今天的分享结束也请大家持续订阅和关注我的公众号: PowerBI工坊

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐