Pandas的corr方法还提供两种秩相关系数的计算,包括肯德尔相关系数
(kendall秩相关系数)和斯皮尔曼等级相关系数(spearman秩相关系数)。秩相关系数又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。
一、计算
仍然以Pandas相关性分析corr简介(一)中的用户音乐喜好DataFrame数据为例
1)计算Bill和Chan的音乐偏好的Pearson相似系数为:
ud.Bill.corr(ud.Chan , method='kendall') 或者
ud['Bill'].corr(ud['Chan'], method='kendall')
计算结果为:-0.86602540378443871。
2)计算所有人的音乐偏好的Pearson相似系数为:
ud.corr(method='kendall')
计算结果为:

将变量method中的取值'kendall'替换为'spearman',即可进行斯皮尔曼等级相关系数的计算。
二、肯德尔相关系数(kendall)
肯德尔相关系数是一个用来测量两个随机变量相关性的统计值,常用希腊字母τ(tau)表示其值。其公式为:

一个肯德尔检验是一个无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的。
二、斯皮尔曼等级相关系数(spearman)
Spearman秩相关系数是一种无参数(与分布无关)检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman秩相关系数就是+1或-1,称变量完全Spearman秩相关。注意这和Pearson完全相关的区别,只有当两变量存在线性关系时,Pearson相关系数才为+1或-1。其公式为:

使用Pearson线性相关系数有2个局限:
1)必须假设数据是成对地从正态分布中取得的。
2)数据至少在逻辑范围内是等距的。
举个例子,根据下面的原始数据计算智商和看电视时长的相关性:



著作权归作者所有。商业转载请联系本站作者获得授权,非商业转载请注明出处 ZZKOOK。
评论
挺有意思的。
谢谢ZZKOOK的分享
新人打招呼,多多关照。
祝愿大家更上一层楼!