Python数据分析入门（十九）：绘制散点图-白红宇

Python数据分析入门（十九）：绘制散点图

阅读量：617 次

发布时间：2019-03-14

本文共 1544 字，大约阅读时间需要 5 分钟。

散点图与回归分析

散点图（X-Y图）是一种在数据分析中广泛应用的可视化工具，其核心目的在于通过以数据点的形式在直角坐标系上展示变量间的关系，以便快速识别变量间的联系。数据点的分布位置直接反映了自变量和因变量的数值特征，为数据分析师提供了直观理解变量关系的渠道。

绘制散点图

当需要绘制散点图时，可以借助Python的Matplotlib库中的plt.scatter函数。该函数接受几个关键参数来定制散点图的外观：

x和y参数：分别指定x轴和y轴的数据集，且两者的长度必须一致。

标记大小和颜色：通过s参数设置点的尺寸，color参数设置点的颜色。

标记类型：通过marker参数选择不同类型的标记符号，默认为圆点。

在实际操作中，可以选择性地对大样本数据进行散点图绘制，便于直观分析潜在的数据规律。以下是一个常见的运动员数据分析案例：

plt.figure(figsize=(10, 5))plt.scatter(male_athletes['Height'], male_athletes['Weight'], s=male_athletes['Age'], marker='^', color='g', label='男性')plt.scatter(female_athletes['Height'], female_athletes['Weight'], color='r', s=female_athletes['Age'], label='女性')plt.axvline(...)...plt.xlabel("身高（厘米）", fontproperties=font)plt.ylabel("体重（千克）", fontproperties=font)plt.title("运动员身高和体重散点图", fontproperties=font)

这段代码通过plt.scatter绘制了男女运动员的身高与体重分布散点图，进一步添加了坐标轴的网格线和图例，便于读者理解数据分布情况。

回归分析

在具备了散点图基础，将进一步进行回归分析，从而提取更深层次的数据规律。回归分析主要分为简单线性回归和非线性回归两种类型；在这个运动员身高与体重的案例中，观察到的变量间呈现线性关系，因此选择简单线性回归模型进行分析。

回归模型通常有以下形式：

[ y = \beta_x X + \beta_0 + \epsilon ]

通过scikit-learn中的LinearRegression模型，可以方便地拟合回归线。代码示例如下：

from sklearn.linear_model import LinearRegressionmale_athletes = athletes[athletes['Sex'] == 'M'].dropna()female_athletes = athletes[athletes['Sex'] == 'F'].dropna()xtrain = male_athletes['Height']ytrain = male_athletes['Weight']model = LinearRegression()model.fit(xtrain[:, np.newaxis], ytrain)print(model.coef_)print(model.intercept_)

生成模型后，可以绘制回归线。这不仅可以帮助预测各自变量值的取向，还能验证模型的拟合度。如果模型预测值与实际值呈现较大偏离，则表明存在较强的误差项，可能需要考虑非线性因素或数据预处理方法。

回归分析的应用场景广泛，从生物学中的基因表达预测到经济学中的消费能力预测，都是数据分析师的重要工具。

转载地址：http://jysoz.baihongyu.com/

你可能感兴趣的文章