本文共 1544 字,大约阅读时间需要 5 分钟。
散点图(X-Y图)是一种在数据分析中广泛应用的可视化工具,其核心目的在于通过以数据点的形式在直角坐标系上展示变量间的关系,以便快速识别变量间的联系。数据点的分布位置直接反映了自变量和因变量的数值特征,为数据分析师提供了直观理解变量关系的渠道。
当需要绘制散点图时,可以借助Python的Matplotlib库中的plt.scatter
函数。该函数接受几个关键参数来定制散点图的外观:
s
参数设置点的尺寸,color
参数设置点的颜色。marker
参数选择不同类型的标记符号,默认为圆点。在实际操作中,可以选择性地对大样本数据进行散点图绘制,便于直观分析潜在的数据规律。以下是一个常见的运动员数据分析案例:
plt.figure(figsize=(10, 5))plt.scatter(male_athletes['Height'], male_athletes['Weight'], s=male_athletes['Age'], marker='^', color='g', label='男性')plt.scatter(female_athletes['Height'], female_athletes['Weight'], color='r', s=female_athletes['Age'], label='女性')plt.axvline(...)...plt.xlabel("身高(厘米)", fontproperties=font)plt.ylabel("体重(千克)", fontproperties=font)plt.title("运动员身高和体重散点图", fontproperties=font)
这段代码通过plt.scatter
绘制了男女运动员的身高与体重分布散点图,进一步添加了坐标轴的网格线和图例,便于读者理解数据分布情况。
在具备了散点图基础,将进一步进行回归分析,从而提取更深层次的数据规律。回归分析主要分为简单线性回归和非线性回归两种类型;在这个运动员身高与体重的案例中,观察到的变量间呈现线性关系,因此选择简单线性回归模型进行分析。
回归模型通常有以下形式:
[ y = \beta_x X + \beta_0 + \epsilon ]
通过scikit-learn
中的LinearRegression
模型,可以方便地拟合回归线。代码示例如下:
from sklearn.linear_model import LinearRegressionmale_athletes = athletes[athletes['Sex'] == 'M'].dropna()female_athletes = athletes[athletes['Sex'] == 'F'].dropna()xtrain = male_athletes['Height']ytrain = male_athletes['Weight']model = LinearRegression()model.fit(xtrain[:, np.newaxis], ytrain)print(model.coef_)print(model.intercept_)
生成模型后,可以绘制回归线。这不仅可以帮助预测各自变量值的取向,还能验证模型的拟合度。如果模型预测值与实际值呈现较大偏离,则表明存在较强的误差项,可能需要考虑非线性因素或数据预处理方法。
回归分析的应用场景广泛,从生物学中的基因表达预测到经济学中的消费能力预测,都是数据分析师的重要工具。
转载地址:http://jysoz.baihongyu.com/