体重和身高有关系吗?房价和收入有关系吗?收入跟年龄有关系吗?。。。

这些个类似的问题大概都可以用数据表达,而在纷繁的数据中有时候就隐含着许多内在的联系。对数据的挖掘和分析,大概可以从相关分析和回归分析做起~

本文归纳了相关分析和回归分析的相关概念、常用软件工具,并用一个实际例子加以说明,以便日后直接套用其他。

需要本文相关代码的,可以直接在公众号对话窗口内回复“  数据的相关分析及回归分析  ”获取。

相关分析是啥?

“相关分析(correlation analysis)是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。”

——百度百科

回归分析是啥?

“回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。”

——百度百科

相关分析与回归分析的区别?

“回归分析侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量;相关分析侧重于发现随机变量间的种种相关特性。”

——百度百科

相关系数——表征相关程度的一个重要指标

在统计学中,皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient,又称作PPMCC或PCCs,文章中常用r或Pearson's r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来。这个相关系数也称作“皮尔森相关系数r”。

——维基百科

在这个指标定义下,1表示最正相关,-1表示最负相关。

P值——表征相关程度的另一个重要指标

显著水平,就是P值,这是首要的,因为如果不显著,相关系数再高也没用,可能只是因为偶然因素引起的,那么多少才算显著,一般p值小于0.05就是显著了;如果小于0.01就更显著;例如p值=0.001,就是很高的显著水平了。

——某网友(归纳得挺好!)

常用软件工具

小编知道的包括:MATLAB、Origin、SPSS、SAS、Excel ... 市面上应该还有更多更多。如有兴趣,可以都了解一下。

小编最爱的还是MATLAB:因为小编几乎天天用MATLAB!!!

实际例子

某地膳食调查中,得到14名健康妇女每人的基础代谢(单位:kJ/d)与体重(单位:kg)的数据如下,现想研究一下这两项指标有无相关性?(数据来源:《卫生统计学》第六版 例11-1,P195)

分析过程

第一步:读入数据

第二歩:绘制数据

第三歩:相关性分析

主要就是求出相关系数和P值,利用MATLAB内置函数corr,结果如下:

Pearson correlation coefficient

0.9641 (该值接近1,说明非常相关)

2.8426e-08 (该值小于0.01,说明该相关系数具有统计学意义)

第四歩:(线性)回归分析

结合以上几歩,利用MATLAB内置函数polyfit可以得到基础代谢和体重的关系可以用回归方程表达(即为图中的红线):基础代谢 = 体重*61.4 + 1106.8 。

往期回顾

有个小名【又土又木&医言医行】,由又土又木、又学土木的大男孩欣和伶俐乖巧、学医多年的小女生榕发起,为热爱科研、热爱生活的朋友分享。

科研是一场美丽的冒险,愿陪你在科研路上走一走。一起找到科研的诗和远方。一起记录美好的现在和未来。^_^

本公众号仅为热爱科研、热爱生活的朋友分享、提供信息参考,对文中观点保持中立。