『壹』 相关与回归分析的主要内容包括哪些方面
在统计学中,回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
应答时间:2021-02-22,最新业务变化请以平安银行官网公布为准。
[平安银行我知道]想要知道更多?快来看“平安银行我知道”吧~
https://b.pingan.com.cn/paim/iknow/index.html
『贰』 Logistic回归分析计算方法
logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
生态学中的虫口模型(亦即Logistic映射)可用来描述
x(n+1)=u*x(n)*(1-x(n)),u属于[0,4],x属于(0,1)这是1976年数学生态学家R. May在英国的《自然》杂志上发表的一篇后来影响甚广的综述中所提出的,最早的一个由倍周期分岔通向混沌的一个例子。后来经过Feigenbaum研究得出:一个系统一旦发生倍周期分岔,必然导致混沌。他还发现并确定了该系统由信周期分岔通向混沌的两个普适常数(也称为Feigenbaum常数)。对于一维 Logistic映射,研究的比较早也比较详细,比如该映射之所以产生混沌,有人归纳出它具有两个基本性质、逆瀑布、周期3窗口、U序列等等。但是一维Logistic映射仅有一个自由度,利用它只能产生一条线或一条曲线,而做图像,至少需要两个或以上个自由度,为此,孙海坚等人给出了LMGS定义。王兴元还扩展了LMGS定义,在此基础上,就可以分析2维及其以上的系统,分析图形与吸引子的结构特征,探讨了图形与吸引子之间的联系;并由一维可观察计算系统混沌定量判据的方法,计算了吸引子的 Lyapunov指数和Lyaounov维数。[1]二维 Logistic映射起着从一维到高维的衔接作用,对二维映射中混沌现象的研究有助于认识和预测更复杂的高维动力系统的性态。王兴元教授通过构造一次藕合和二次祸合的二维Logistic映射研究了二维Logistic映射通向混沌的道路,分析了其分形结构和吸引盆的性质,指出选择不同的控制参数,二维映射可分别按Feigenbaum途径等走向混沌,并且指出在控制参数空间中的较大的区域,其通向混沌的道路与Hopf分岔有关,在这些途径上可观察到锁相和准周期运动。二维滞后Logistic映射x(n+1)=y(n)y(N+1)=u*y(n)*(1-x(n)), u属于(0,2.28),[x,y]属于(0,1)该系统走向混沌的道路正是验证了二维Logistic映射与Neimark-Sacker分岔有密切的关系,对于研究其他的具有滞后的系统具有重要的意义。[1]
『叁』 数据分析师必须掌握的7种回归分析方法
1、线性回归
线性回归是数据分析法中最为人熟知的建模技术之一。它一般是人们在学习预测模型时首选的技术之一。在这种数据分析法中,由于变量是连续的,因此自变量可以是连续的也可以是离散的,回归线的性质是线性的。
线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
2、逻辑回归
逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 /0,真/假,是/否)变量时,我们就应该使用逻辑回归.
逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。
为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。
3、多项式回归
对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。下面是一个图例,可以帮助理解:
明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果。
4、逐步回归
在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。
这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。
5、岭回归
岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。
除常数项以外,这种回归的假设与最小二乘回归类似;它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能,这是一个正则化方法,并且使用的是L2正则化。
6、套索回归
它类似于岭回归。除常数项以外,这种回归的假设与最小二乘回归类似;它收缩系数接近零(等于零),确实有助于特征选择;这是一个正则化方法,使用的是L1正则化;如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。
7、回归
ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso会随机挑选他们其中的一个,而ElasticNet则会选择两个。Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。
通常在高度相关变量的情况下,它会产生群体效应;选择变量的数目没有限制;并且可以承受双重收缩。
关于数据分析师必须掌握的7种回归分析方法,青藤小编就和您分享到这里了,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的职业前景及就业内容,可以点击本站的其他文章进行学习。
『肆』 回归分析方法
§3.2 回归分析方法
回归分析方法,是研究要素之间具体的数量关系的一种强有力的工具,能够建立反映地理要素之间具体的数量关系的数学模型,即回归模型。
1. 一元线性回归模型
1) 一元线性回归模型的基本结构形式
假设有两个地理要素(变量)x和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式:
a和b为待定参数;α=1,2,…,n为各组观测数据的下标; εa为随机变量。如果记a^和b^ 分别为参数a与b的拟合值,则得到一元线性回归模型
ÿ 是y 的估计值,亦称回归值。回归直线——代表x与y之间相关关系的拟合直线
2) 参数a、b的最小二ÿ乘估计
参数a与b的拟合值:
,
建立一元线性回归模型的过程,就是用变量 和 的实际观测数据确定参数a和b的最小二乘估计值α^和β^ 的过程。
3) 一元线性回归模型的显著性检验
线性回归方程的显著性检验是借助于F检验来完成的。
检验统计量F:
误差平方和:
回归平方和:
F≈F(1,n-2)。在显著水平a下,若 ,则认为回归方程效果在此水平下显著;当 时,则认为方程效果不明显。
[举例说明]
例1:在表3.1.1中,将国内生产总值(x1)看作因变量y,将农业总产值(x2)看作自变量x,试建立它们之间的一元线性回归模型并对其进行显著性检验。
解:
(1) 回归模型
将y和x的样本数据代入参数a与b的拟合公式,计算得:
故,国内生产总值与农业总产值之间的回归方程为
(2) 显著性检验
在置信水平α=0.01下查F分布表得:F0.01(1,46)=7.22。由于F=4951.098 >> F0.01(1,46)=7.22,所以回归方程(3.2.7)式在置信水平a=0.01下是显著的。
2. 多元线性回归模型
在多要素的地理系统中,多个(多于两个)要素之间也存在着相关影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。
1) 多元线性回归模型的建立
(1) 多元线性回归模型的结构形式
假设某一因变量y受k 个自变量 的影响,其n组观测值为 。则多元线性回归模型的结构形式:
为待定参数, 为随机变量。如果 分别为 的拟合值,则回归方程为
b0为常数, 称为偏回归系数。
偏回归系数 ——当其它自变量都固定时,自变量 每变化一个单位而使因变量xi平均改变的数值。
(2) 求解偏回归系数
,
2) 多元线性回归模型的显著性检验
用F检验法。
F统计量:
当统计量F计算出来之后,就可以查F分布表对模型进行显著性检验。
[举例说明]
例2:某地区各城市的公共交通营运总额(y)与城市人口总数(x1 )以及工农业总产值(x2)的年平均统计数据如表3.2.1(点击展开显示该表)所示。试建立y与x1及x2之间的线性回归模型并对其进行显著性检验。
表3.2.1 某地区城市公共交通营运额、人口数及工农业总产值的年平均数据
城市序号
公共交通营运额y/103人公里 人口数x1/103人 工农业总产值x2
/107元
1 6825.99 1298.00 437.26
2 512.00 119.80 1286.48
... ... ... ...
14 192.00 12.47 1072.27
注:本表数据详见书本P54。
解:
(1) 计算线性回归模型
由表3.2.1中的数据,有
计算可得:
故y与x1 及y2之间的线性回归方程
(2) 显著性检验
故:
在置信水平a=0.01下查F分布表知:F0.01(2,11)=7.21。由于F=38.722> F0.01(2,11)=7.21,所以在置信水平a=0.01下,回归方程式是显著的。
3. 非线性回归模型的建立方法
1) 非线性关系的线性化
(1) 非线性关系模型的线性化
对于要素之间的非线性关系通过变量替换就可以将原来的非线性关系转化为新变量下的线性关系。
[几种非线性关系模型的线性化]
① 于指数曲线 ,令 , ,将其转化为直线形式:
,其中, ;
② 对于对数曲线 ,令 , ,将其转化为直线形式:
;
③ 对于幂函数曲线 ,令 , ,将其转化为直线形式:
,其中,
④ 对于双曲线 ,令 ,将其转化为直线形式:
;
⑤ 对于S型曲线 ,将其转化为直线形式:
;
⑥ 对于幂函数乘积:
令 将其转化为直线形式:
其中, ;
⑦ 对于对数函数和:
令 ,将其化为线性形式:
(2) 建立非线性回归模型的一般方法
① 通过适当的变量替换将非线性关系线性化;
② 用线性回归分析方法建立新变量下的线性回归模型:
③ 通过新变量之间的线性相关关系反映原来变量之间的非线性相关关系。
3) 非线性回归模型建立的实例
非线性回归模型建立的实例
景观是地理学的重要研究内容之一。有关研究表明(Li,2000;徐建华等,2001),任何一种景观类型的斑块,其面积(Area)与周长(Perimeter)之间的数量关系可以用双对数曲线来描述,即
例3:表3.2.2给出了某地区林地景观斑块面积(Area)与周长(Perimeter)的数据。试建立林地景观斑块面积A与周长P之间的双对数相关关系模型。
表3.2.2某地区各个林地景观斑块面积(m2)与周长(m)
序号 面积A 周长P 序号 面积A 周长P
1 10447.370 625.392 42 232844.300 4282.043
2 15974.730 612.286 43 4054.660 289.307
... ... ... ... ... ...
41 1608.625 225.842 82 564370.800 12212.410
注:本表数据详见书本57和58页。
解:因为林地景观斑块面积(A)与周长(P)之间的数量关系是双对数曲线形式,即
所以对表3.2.2中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.3所示。
『伍』 利用回归分析的方法研究两个具有线性相关关系的变量时,下列说法中表述错误的是()A.相关系数r满足
相关系数r是用来衡量两个变量之间线性相关关系的方法,当r=0时,表示两变量间无线性相关关系,当0<|r|<1时,表示两变量存在一定程度的线性相关.且|r|越接近1,两变量间线性关系越大.故A正确;
由R2计算公式可知,R2越小,说明残差平方和越大,则模型拟合效果越差.故B错误;
由残差图的定义可C正确;
在利用样本数据得到回归方程的过程中,不可避免的会产生各种误差,因此用回归方程得到的预报值只能是实际值的近似值.故D正确.
故选:B
『陆』 本科论文的数据分析怎么做相关性分析,假设检验,回归分析需要那些数据
研究方法通常可以分为三大类,分别是差异关系,相关关系和其它关系。
如果思路上更偏向于差异关系研究,比如不同收入人群对于网购的态度差异。建议使用较多规范的量表题,因为量表规范性很强且可以使用非常多的研究方法;如果不是使用量表题,那么就可以考虑卡方分析进行研究。如果进行更多丰富的研究方法使用,则对应需要使用多样的问题设计,量表题和非量表题均需要有,并且预期上它们就需要进入差异对比的范畴。
如果思路上更偏向于研究影响关系,比如满意度对于忠诚度的影响,看上去,满意度和忠诚度均可以使用量表题进行表示,那设计成量表题没有问题,因为可以使用线性回归分析进行研究。除此之外,还有一种情况可以考虑,即logistic回归,满意度影响最终是否再次购买,是否再次购买被满意度影响,这类情况是应该使用logistic回归分析。如果是希望两类研究方法均使用,此时满意度对应的问题则需要有量表题,还有比如“是否愿意再次购买”一类的定类数据问题。
如果预期数据需要进行统计上的信度分析,此时请记住一定需要设计成量表题,否则无法进行信度分析。以及如果预期思路上有分类,即比如将样本分成3种人群,此时需要考虑使用更多规范的量表题数据。
总结上看,研究方法的匹配使用,事实上应该是在问卷设计前就进入考虑范畴。问卷研究设计完成后,大部分的问卷研究方法均已经确定,因而需要提前将问卷研究方法纳入考虑中,便于可以进行更丰富的数据分析。相对来看,量表题是可以匹配更多的研究方法,而且也更规范,建议更多的使用量表题较好。
『柒』 如何用一般线性模型来理解t检验、方差分析、回归分析等传统的统计分析方法
一般线性模型
和t检验、方差分析
其实是等价的
『捌』 基于回归分析的海洋地质调查研究及实例应用
梁广1,2邵长高1,2
(1.广州海洋地质调查局 广州 510760;2.国土资源部海底矿产资源重点实验室 广州 510760)
第一作者简介:梁广(1972—),男,工程师,主要从事网络管理和数据管理工作,E-mail:[email protected]。
摘要 近年来资源勘探已经覆盖大部分陆地区域,越来越多的国家把目光投向海洋。海洋作为一个巨大的能源和资源宝库在国民经济、军事战略等的重要性也日益显现。各个国家竞相制定海洋科技开发规划、战略计划,优先发展海洋新技术[1]。如何有效的从海量海洋地质调查数据中获取有用信息是海洋新技术研究中的重要研究内容。论文针对海洋地质调查数据研究技术应用需求,引入了回归分析模型到海洋地质调查数据库中,详细介绍了回归分析的技术方法和在海洋地质调查数据库研究中的应用优势,为海洋科学研究提供了技术支持。
关键词 海洋地质 回归分析 数据库
1 前言
随着陆地资源的消耗和人类对能源越来越强烈的需求,海洋作为一个尚待大规模开发的能源和资源宝库引起各国越来越多的关注。我国作为世界上最大的发展中国家对能源的需求也在大幅增加,近年来我国石油进口数量急剧增长,据估计到2020年我国石油进口依存度将达到60%。党和国家领导人多次提出“资源、能源、特别是油气资源,已成为我国经济和社会发展的重要因素,解决后备能源问题是保证国家经济安全的大事”。随着我国国土资源大调查和海洋地质专项调查的开展,大量的海洋地质数据被收集和积累,并建立了多个满足各自业务需求的信息系统和数据源[2]。如何有效的从海量海洋地质调查数据中获取有用信息是海洋新技术研究中的重要研究内容。论文针对海洋地质调查数据研究技术应用手段的需求,引入了回归分析技术到海洋地质调查数据库中,详细介绍了回归分析的技术方法和在海洋地质调查数据库研究中的应用优势,为海洋科学研究提供了技术支持。
2 回归分析概述
2.1 概述
回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析[3]。回归分析预测法可以从各数据之间的相互关系出发,通过对与预测对象有联系的现象变动趋势的分析,推算预测对象未来状态数量表现的一种预测方法,通过对与预测对象(y)有联系的多个因素X1,X2,……,Xk建立回归模型。求出的回归模型是否合理,是否符合变量之间的客观规律性,引入相关因素是否有效,变量之间是否存在线性相关关系,模型能否付诸应用,这要通过检验决定。本文给出了两方面的检验:一方面为实际意义检验。即利用理论所拟定的期望值与实际结果相比较是否相符。另一方面为统计检验:分别为拟合优度检验(R平方检验)、方程显著性检验(F检验)、变量显著性检验(t检验)[4]。论文主要介绍一元线性回归分析在海洋地质调查数据库中的应用。
2.2 一元线形回归分析模型
线性回归分析可以描述两个要素之间的回归关系。线性回归分析公式为:yi=a+bxi+εi.其中a和b为参数.εi是误差.我们定义Q(a,b)a为总误差。则:
南海地质研究(2014)
对公式两边的a和b求导得:
南海地质研究(2014)
南海地质研究(2014)
x表示x的平均值.y表示y的平均值.
关系系数R2求值方法为[5]:
南海地质研究(2014)
2.3 多元线形回归分析模型
研究对象y受多个因素x1,x2,x3,…xn的影响,假定各个影响因素与y的关系是线性的,则可建立多元线性回归模型:
y=β0+β1x1+β2x2+…+βkxk+ε
式中:x1,x2,……,xk代表影响因子;ε 为随机误差;y 代表所研究的对象,即预测目标[3]。
2.4 统计检验
统计检验是运用数理统计的方法,对方程进行检验、对模型参数估计值的可靠性进行检验。这主要包括拟合优度检验、方程显著性检验、变量显著性检验,即常用的R2检验、F检验和t检验。
2.4.1 拟合优度检验(检验):
拟合优度检验就是检验回归方程对样本观测值的拟合程度。又称为复相关系数检验法,它是通过对总变差(总离差)的分解得到。
南海地质研究(2014)
其中
南海地质研究(2014)
总变差平方和S总是各个观察值与样本均值之差的平方和,反映了全部数据之间的差异;残差平方和S残是总变差平方和中未被回归方程解释的部分,由解释变量x1,x2……,xk中未包含的一切因素对被解释变量y的影响而造成的;回归平方和S回是总变差平方和中由回归方程解释的部分。对于一个好的回归模型,它应该较好地拟合样本观测值,S总中S残越小越好。于是可以用:
南海地质研究(2014)
求得[4]。
2.4.2 方程显著性检验(F 检验):
对于多元线性回归方程,方程显著性检验就是对总体的线性关系是否显著成立作出推断,即检验被解释变量y与所有解释变量X1,X2,……,Xk之间的线性关系是否显著,
南海地质研究(2014)
即F统计量服从以(k,n-k-1)为自由度的F分布。首先根据样本观测值及回归值计算出统计量F,于是在给定的显著性水平a下,若F>Fa(k,n-k-1),则拒绝H0,判定被解释变量y与所有解释变量x1,x2,……,xk之间的回归效果显著,即确实存在线性关系;反之,则不显著[4]。
2.4.3 变量显著性检验(t检验):
对于多元回归模型,方程的显著性并不意味每个解释变量对被解释变量y的影响都是重要的。如果某个解释变量并不重要,则应该从方程中把它剔除,重新建立更为简单的方程。所以必须对每个解释变量进行显著性检验。
在给定的显著性水平a下,若|ti|>ta/2(n-k-1),则拒绝H0,说明解释变量xi对被解释变量y有显著影响,即xi是影响y的主要因素;反之,接受H0,说明解释变量xi对被解释变量y无显著影响,则应删除该因素[4]。
3 应用实例
论文利用线形回归分析模型对南海海域海洋沉积物温度进行了分析,其中散点图显示如图1所示,回归分析结果见表1。
图1 水深与沉积物温度散点图
Fig.1 Water depth vs.sediment temperature
表1 水深沉积物温度回归分析结果Tab.1 The regression analysis result for Water depth vs.sediment temperature
读取回归结果如下:
截距:a=17.56;斜率:b=-0.0014;相关系数:R=0.276;测定系数:R2=0.076;F值:F=89.54。
建立回归模型,并对结果进行检验
模型为:
F值的计算公式和结果为:
南海地质研究(2014)
其中P<0.0001。回归结果证明,沉积物温度与海水深度有着密切的关系,但是通过散点图显示,并不是温度越深沉积物温度越低。而是受到其他例如海底热流,海洋环流等因素的影响。
4 结语
本文介绍了回归分析在海洋地质调查研究中的应用,同时提供了回归分析的技术原理及实现方法,并通过对南海沉积物与海水深度关系模型进行了应用分析,回归结果显示了两者具有密切但是存在不确定性的关系。实验结果得到有效的应用。
参考文献
[1]单宝强,毛永强.2005.GIS中的坐标系定义与转换[J].黑龙江国土资源,11,38-39
[2]苏国辉,孙记红,等.2011.海洋地质数据集成中的关键问题和方案[J].海洋地质前沿,11(27):51
[3]网络.回归分析.http://ke..com/view/145440.htm
[4]沈聪.2009.基于EXCEL的回归分析在足迹分析上的应用[M].辽宁警官高等专科学校本科毕业论文
[5]Cottrell A.Regression Analysis:Basic Concepts.http://www.wfu.e/~cottrell/ecn215/regress.pdf
The Marine Geological Survey Based on Regression Analysis
Liang Guang1,2,Shao Changgao1,2
(1.Guangzhou Marine Geological Survey,Guangzhou,510760;2.Key Laboratory of Marine Mineral Reasources,MLR,Guangzhou,510760)
Abstract:The new resources survey had covered most of the continental area at present.So,the ocean resources have attracted more and more attention now as it is a huge resource and energy reservoir that had a profound meaning to national economy and military strategy.The energy competition made manly countries developed new technology project and put the new ocean technology as the primary study area.However,how to abstract useful information from marine geological survey data is one of the most important study technologies.This paper focuses on the study of the deficit of marine database technology and introces regression analysis model and the application advantage of it.The purpose of this paper is to provide the technology support for marine study.Key word:Marine geology;Regression analysis model;Database
『玖』 如何确定应该使用哪种回归分析方法
回归有很多种,回归研究X对于Y的影响,至于回归方法的选择上,关键在于因变量Y的数据类型,如果Y是离散数据,则统一应该使用logistic回归,但具体logistic回归又分成三种类型。