在数据分析中,常见的数据关系包含六大类型:排序、时间趋势、占比分析、分布分析、相关性分析、地理分析。

每一类问题都有一类最佳的可视化图表:

1、排序类

排序分析,通常用于比较不同类别的高低或多少。

排序类.png

2、时间趋势类

与时间有关的分析通常是查看随日期的变化趋势,比如,近七天的温度变化,日期有连续性,而折线图是体现连续性的最佳图表。

面积图、组合图,可看做折线图的延伸。

时间趋势类.png

3、占比分析

占比,即部分与总体的占比。

它不像排序侧重数据之间的对比,而是侧重每一个类别在总体中所占的比例,因此需要有一个总体的表达,饼图、环形图用圆表示总体,角度表示部分。

当元素过多时,饼图看起来非常混乱,更适合用矩形树图。

树形图用面积代表大小。

占比分析类.png

4、分布分析

分布分析,用于分析样本或总体的分布特征。

拿学生成绩为例,以10分为一个间隔,查看不同分数区间内学生的分布情况。

分布分析可以用来分析核心数据的次数分布,挖掘用户分布规律,快速识别核心用户群体,是数据分析中常用的经典分析模型。

分布分析类.png

5、相关性分析

分布分析通常用于描述单一度量在不同详细级别的分布特征,无法描述不同度量之间的关联。例如,商品单价与商品销量是否相关?此时,需要进行相关性分析。

相关性分析,是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。

相关性分析类.png

6、地理分析

地理分析,用于处理与地理有关的分析,在地图上直观展示数据在位置上的分布。

地理分析类.png

上面按问题类型进行划分,下面介绍几种常用的图表类型:

1、条形图/柱状图

适用场景:一个维度的数据比较,单纯进行数据展示,排序类数据展示。

优点:人眼的直觉判断对长度最为敏感,可直观查看各个类别的数据差异。

缺点:不宜展示分类过多的场景。延伸图表:并排条形图、堆叠条形图。

2、折线图

适用场景:查看数据随日期的变化趋势。

优点:体现连续性的最佳图表。

延伸图表:双重折线图、多重折线图。

3、面积图

适用场景:既要体现变化趋势,又要体现数量值。

优点:结合了堆叠柱状图和折线图的双重优点,既能查看累计,又能体现变化趋势。

延伸图表:堆叠面积图、百分比面积图。

4、矩形树图

适用场景:元素过多时,体现元素占比分析。

优点:用面积代表大小,使用元素较多的场景。

5、饼图

适用场景:侧重每一个类别在总体中的占比,“圆”代表总体。

优点:元素较少时,简洁明了。

缺点:元素过多时,效果混乱。

图表延伸:玫瑰图。

6、环形图

适用场景:同饼图。

优点:人对角度的敏感度要远低于长度、高度、颜色等其他视觉要素,把饼图的角度判断改为环形的长度判断,缓解了角度判断带来的思考压力。中间空白位置显示数值,节约视觉空间。

7、直方图

适用场景:展示数据的分布特征,适用于用户分析、商品分析、订单分析等各种场景。优点:直观反映数据分布情况,强调区间方面的精确性。缺点:单一度量。

8、盒须图

适用场景:相比直方图,更强调宏观视角的数据特点。

优点:可用于检测并展现出数据中的异常值,可进行数据清洗,可以判断数据的偏态和尾重。

缺点:单一度量,且不能精确地衡量数据分布的偏态和尾重程度。

9、散点图

适用场景:描述不同度量之间的关联关系。

优点:描述度量与度量之间的关联关系。

遗留问题

其他图形都好理解,唯独对盒须图有点含糊,可能需要做个案例,加深理解。

扫码关注李苦李公众号

李苦李公众号

添加新评论