Pandas相关性分析corr简介(一)(多图)

你在这里

Pandas相关性分析corr简介(一)(多图)

Pandas中DataFrame对象具备corr()方法,可用于计算DataFrame对象中列与列之间,甚至是所有列之间的相关系数,包括pearson相关系数、Kendall相关系数、spearman相关系数,默认情况下是计算pearson。以下面的用户对音乐打分的DataFrame结构为例:
user={'Blues Traveler':{'Angelica':3.5,'Bill':2,'Chan':5,'Dan':3,'Halley':np.nan,'Jordyn':np.nan,'Sam':5,'Veronica':3},
    'Broken Bells':{'Angelica':2,'Bill':3.5,'Chan':1,'Dan':4,'Halley':4,'Jordyn':4.5,'Sam':2,'Veronica':np.nan},
    'Deadmau5':{'Angelica':np.nan,'Bill':4,'Chan':1,'Dan':4.5,'Halley':1,'Jordyn':4,'Sam':np.nan,'Veronica':np.nan},
    'Norah Jones':{'Angelica':4.5,'Bill':np.nan,'Chan':3,'Dan':np.nan,'Halley':4,'Jordyn':5,'Sam':3,'Veronica':5},
    'Phoenix':{'Angelica':5,'Bill':2,'Chan':5,'Dan':3,'Halley':np.nan,'Jordyn':5,'Sam':5,'Veronica':4},
    'Slightly Stoopid':{'Angelica':1.5,'Bill':3.5,'Chan':1,'Dan':4.5,'Halley':np.nan,'Jordyn':4.5,'Sam':4,'Veronica':2.5},
    'The Strokes':{'Angelica':2.5,'Bill':np.nan,'Chan':np.nan,'Dan':4,'Halley':4,'Jordyn':4,'Sam':5,'Veronica':3},
    'Vampire Weekend':{'Angelica':2,'Bill':3,'Chan':np.nan,'Dan':2,'Halley':1,'Jordyn':4,'Sam':np.nan,'Veronica':np.nan}}
ud=DataFrame(user).T
该DataFrame的数据表形式为:
一、皮尔森相关系数计算
1)计算Bill和Chan的音乐偏好的Pearson相似系数为:
ud.Bill.corr(ud.Chan)  或者  ud['Bill'].corr(ud['Chan'])
计算结果为:-0.97590007294853331。
 
2)计算所有人的音乐偏好的Pearson相似系数为:
ud.corr()
计算结果为:
二、皮尔森相关系数介绍(Pearson)
Pearson相关系数(也有翻译称为皮尔逊相关系数或皮尔森相关系数),简称PMCC,通常用r或是ρ表示,是用来度量两个变量X和Y之间的相互关系(线性相关)的,取值范围在[-1,+1]之间。下面是基于样本的计算公式:
其简化的推导形式为:
Pearson相关系数适用于两变量的度量水平都是尺度数据,并且两变量的总体是正态分布或者近似正态分布的情况,还有说法认为其样本量应大于30。实际过程中,在数据受贬值影响(grade-inflation,不同用户使用的评级范围不同的影响,例如某宝用户对好评、中评、差评的理解不同而带来的差异评级)时,使用Pearson相关系数。
Pearson相关系数的显著性检验的目的是为了检验两个变量之间样本相关系数r(r≠0)与一个相关系数=0的已知总体之间的差别是否是由于抽样误差所产生的,如果差别有统计学意义,则说明两个变量之间存在相关关系。在已经检验两个变量存在相关关系的情况下,相关系数的绝对值越趋近于1,则两个变量相关关系越密切,越趋近于0,则两个变量相关关系越不密切。
 
Pearson相关系数的计算是Pandas相关系数计算的默认值。Kendall相关系数、spearman相关系数的计算见《Pandas相关性分析corr简介(二)》。
著作权归作者所有。商业转载请联系本站作者获得授权,非商业转载请注明出处 ZZKOOK

您可能感兴趣的文章

登录以发表评论

评论

还是自己多学习吧。。

 
233
高不帅的头像

深深佩服

 
245
山野客的头像

水平实在是没的说。

 
229
随心随意的头像

内容还是不错滴

 
246
高不帅的头像