Python 数据可视化：分类特征统计图

2024-05-10

1. Python 数据可视化：分类特征统计图

 上一课已经体验到了 Seaborn 相对 Matplotlib 的优势，本课将要介绍的是 Seaborn 对分类数据的统计，也是它的长项。
   针对分类数据的统计图，可以使用 sns.catplot 绘制，其完整参数如下：
   本课使用演绎的方式来学习，首先理解这个函数的基本使用方法，重点是常用参数的含义。
   其他的参数，根据名称也能基本理解。
   下面就依据 kind 参数的不同取值，分门别类地介绍各种不同类型的分类统计图。
   读入数据集：
                                           然后用这个数据集制图，看看效果：
   输出结果：
                                           毫无疑问，这里绘制的是散点图。但是，该散点图的横坐标是分类特征 time 中的三个值，并且用 hue='kind' 又将分类特征插入到图像中，即用不同颜色的的点代表又一个分类特征 kind 的值，最终得到这些类别组合下每个记录中的 pulse 特征值，并以上述图示表示出来。也可以理解为，x='time', hue='kind' 引入了图中的两个特征维度。
   语句 ① 中，就没有特别声明参数 kind 的值，此时是使用默认值 'strip'。
   与 ① 等效的还有另外一个对应函数 sns.stripplot。
   输出结果：
                                           ② 与 ① 的效果一样。
   不过，在 sns.catplot 中的两个参数 row、col，在类似 sns.stripplot 这样的专有函数中是没有的。因此，下面的图，只有用 sns.catplot 才能简洁直观。
   输出结果：
                                           不过，如果换一个叫角度来说，类似 sns.stripplot 这样的专有函数，表达简单，参数与 sns.catplot 相比，有所精简，使用起来更方便。
   仔细比较，sns.catplot 和 sns.stripplot 两者还是稍有区别的，虽然在一般情况下两者是通用的。
   因此，不要追求某一个是万能的，各有各的用途，存在即合理。
   不过，下面的声明请注意： 如果没有非常的必要，比如绘制分区图，在本课中后续都演示如何使用专有名称的函数。 
   前面已经初步解释了这个函数，为了格式完整，这里再重复一下，即 sns.catplot 中参数 kind='strip'。
   如果非要将此函数翻译为汉语，可以称之为“条状散点图”。以分类特征为一坐标轴，在另外一个坐标轴上，根据分类特征，将该分类特征数据所在记录中的连续值沿坐标轴描点。
   从语句 ② 的结果图中可以看到，这些点虽然纵轴的数值有相同的，但是没有将它们重叠。因此，我们看到的好像是“一束”散点，实际上，所有点的横坐标都应该是相应特征分类数据，也不要把分类特征的值理解为一个范围，分散开仅仅是为了图示的视觉需要。
   输出结果：
                                           ④ 相对 ② 的图示，在于此时同一纵轴值的都重合了——本来它们的横轴值都是一样的。实现此效果的参数是 jitter=0，它可以表示点的“振动”，如果默认或者 jitter=True，意味着允许描点在某个范围振动——语句 ② 的效果；还可设置为某个 0 到 1 的浮点，表示许可振动的幅度。请对比下面的操作。
   输出结果：
                                           语句 ② 中使用 hue='kind' 参数向图中提供了另外一个分类特征，但是，如果感觉图有点乱，还可以这样做：
   输出结果：
                                           dodge=True 的作用就在于将 hue='kind' 所引入的特征数据分开，相对 ② 的效果有很大差异。
   并且，在 ⑤ 中还使用了 paletter='Set2' 设置了色彩方案。
   sns.stripplot 函数中的其他有关参数，请读者使用帮助文档了解。
   此函数即 sns.catplot 的参数 kind='swarm'。
   输出结果：
                                           再绘制一张简单的图，一遍研究这种图示的本质。
   输出结果：
                                           此图只使用了一个特征的数据，简化表象，才能探究 sns.swarmplot 的本质。它同样是将该特征中的数据，依据其他特征的连续值在图中描点，并且所有点在默认情况下不彼此重叠——这方面与 sns.stripplot 一样。但是，与之不同的是，这些点不是随机分布的，它们经过调整之后，均匀对称分布在分类特征数值所在直线的两侧，这样能很好地表示数据的分布特点。但是，这种方式不适合“大数据”。
   sns.swarmplot 的参数似乎也没有什么太特殊的。下面使用几个，熟悉一番基本操作。
   在分类维度上还可以再引入一个维度，用不同颜色的点表示另外一种类别，即使用 hue 参数来实现。
   输出结果：
                                           这里用 hue = 'smoker' 参数又引入了一个分类特征，在图中用不同颜色来区分。
   如果觉得会 smoker 特征的值都混在一起有点乱，还可以使用下面方式把他们分开——老调重弹。
   输出结果：
                                           生成此效果的参数就是 dodge=True，它的作用就是当 hue 参数设置了特征之后，将 hue 的特征数据进行分类。
   sns.catplot 函数的参数 kind 可以有三个值，都是用于绘制分类的分布图：
   下面依次对这三个专有函数进行阐述。

2. Python实现50个常见可视化图

 每当我们需要对数据做可视化呈现时，总是疑虑及烦恼所呈现的图形是怎么样的，如何实现。这里给大家分享一下，常见的50种常见可视化图形。
    数据源 
                                                                                                                           这里以几个图形数据为例展示。
    散点图（Scatter plot）    散点图是用于研究两个变量之间关系的经典的和基本的图表。如果数据中有多个组，则可能需要以不同颜色可视化每个组。您可以使用 plt.scatterplot() 方便地执行此操作。
                                            抖动图（Jittering with stripplot）    通常，多个数据点具有完全相同的 X 和 Y 值。结果，多个点绘制会重叠并隐藏。为避免这种情况，请将数据点稍微抖动，以便您可以直观地看到它们。
   使用 seaborn 的 stripplot() 很方便实现这个功能。
                                            相关图（Correllogram）    相关图用于直观地查看给定数据框（或二维数组）中所有可能的数值变量对之间的相关度量。
                                           更多资料请参考 原文