回归分为解释性回归和预测性回归
预测回归需要较高的预测精度。可以向模型中添加平方项、交互项甚至更高阶项来改进模型,而不一定只是线性项
然而,如果添加太多自变量,例如4个变量及其平方项,8个变量很容易适合小样本,这与NN非常相似。这些样本的表示尤其完整,预测能力非常好,但对样本外数据的预测效果非常差。
如果因变量为0-1变量,则为0-1回归
回归的思想、任务、使命和分类因变量y可分为所以回归可以分为以下0-1回归示例中的因变量和自变量为0-1变量
回归是拟合的后续过程
回归是拟合的后续过程
回归是拟合的后续过程
但是,多元线性回归指定函数形式为多元线性函数,不能使用其他多项式函数或其他用户定义的函数进行拟合
公式中的系数(函数的形式可以通过经验、先验知识或对数据的直观观察或直接使用多项式确定)通过最小二乘法计算,并完成拟合。然而,回归工作尚未结束。仍然有必要研究这些系数(该公式)的可靠性以及每个系数对因变量的影响,因为回归分析认为,真正的拟合系数应该是一个随机变量,而不是一个精确值,用最小二乘法拟合得到的这些系数只是实际系数的近似值点估计,因此,有必要继续研究区间估计问题假设检验。简而言之,拟合只是寻找一条能够反映数据趋势的曲线,但对回归的要求更高、更准确。
对拟合得到的系数进行了进一步估计和检验
解释Y的形成机制就是建立X和Y之间的数学关系
感官相关分析是回归分析的前两步,但所使用的方法不是通过相关分析
逐步回归之后,选择最有效的变量,消除不重要的变量,并简化回归模型
线性回归只能用于具有线性关系的变量吗首先,必须明确的是,多元线性回归中的“线性”是一个假设。它需要测试!
非线性关系,例如对数关系,也可以是线性回归,只要先将它们转换成这种形式
数据预处理主要针对异常值。异常值和异常值对回归模型有很大影响
您可以在Excel中找到变量的对数项、平方项和交互项(x1*x2),然后用SPSS绘制散点图,查看是否存在线性关系
使用回归分析找出所有指标中最重要的
然后,受启发,我们可以使用回归找到与疾病最相关的基因位点(2016年全国研究生竞赛的问题B)
无论你做什么,主成分分析还是回归,如果你想消除维度的影响,你需要标准化数据,这是数据预处理的内容
多元线性回归模型中的回归系数
多元线性回归必须避免内生性,使模型具有外生性
因此,如果我们想使用多元线性回归,我们必须测试模型是否是外生的,这可以通过测试每个变量和干扰项之间的相关系数来实现
定性变量比定量变量更重要
有时你会被要求研究薪水是否与性别有关,贷款申请的成功与申请人所在的地区是否有关。一般来说,你只能考虑做相关分析和计算相关系数,但实际上,你也可以设置虚拟变量进行回归分析,以获得更准确的公式表达式,并从另一个角度解决问题
虚拟变量是0-1变量,表示变量
由于主要研究是性别和地区对工资和贷款申请成功率的影响,这两个因素是各自模型中的核心解释变量,其他变量是控制变量
当其他因素相同且确定时,虚拟变量的回归系数表示虚拟变量对y的影响/变化,即虚拟变量两个值之间的差异程度,例如女性工资和男性工资之间的平均差异
虚拟变量的数量是分类号-1
在下图中定性变量虚拟变量用于建模,虚拟变量也可以通过Stata中的代码生成
斯塔塔的例子
自变量也有这种复杂的关系。随着x1的增加,y随着X2的增加而增加,也就是说,y和X2之间的关系并不独立于x1
通过评估样本标准偏差或样本方差,方差分析表明,回归模型越小,解释性越好,精度越高
样本的平均值必须为0,因此残差之和必须为0
因为有两个限制,残差和自由度的平方和小于2,也就是说,当n-2残差已知时,将确定另外两个。
这里,样本方差除以n-2,而不是n-1,更不用说n了。这是为了确保样本方差是总体方差的无偏估计。
我们使用样本方差来衡量样本的变异程度
决定系数
调整后的拟合优度更具参考意义
一般数据为异方差。此时,最小二乘法估计的回归系数是不可靠的,对它们的假设检验也是不可靠的。我们可以用稳健的标准差来解决这个问题
数据
量化指标已在Excel中标准化
Stata将定性变量设置为虚拟变量,然后直接进行多元线性回归
所以你可以写出回归方程
高考总分=−0.0024*a1+0.1186*正常分数表演−0.1287*表演+0.0368*高考数学+0.9246*高考总分=-0.0024*a1+0.1186*平时成绩-0.1287*期末成绩+0.0368*高考数学+0.9246高考总分=−0.0024*A.6分+1181分−0.1287*期末成绩+0.0368*高考数学+0.9246
根据以下解释,该结果的F值不大,回归结果也不好。从最终回归结果来看,最终分数与高考总分呈负相关,这是绝对错误的
Stata回归结果的解释(模型,SS)是回归平方和SSR
(残差,SS)是残差平方和SSE
(总计,SS)是SST,等于SSR+SSE
最关键的回归结果,即回归系数,位于第一列,其次是每个系数的标准偏差(越小越好)、t检验值、t检验的p值(系数越明显,越小为0)和置信区间
在上面的红色框中,由于多重共线性,Stata将自动检测并忽略定性变量的N个虚拟变量之一(N是定性变量类别的总数)。这是因为我们只需要在这个类中设置n-1个虚拟变量,如上所述
SSE说,右边的F值越大,prob越小,所有系数的联合显著性就越大,也就是说,所有变量为0的概率非常低
OBS,观察次数,即样本总数
回归后,我们必须看到检验异方差,这也是检验回归的结果
残差的平方用于表示随机误差项的方差
异方差有六到两个图形测试
一种是使用每个解释变量和解释变量的散点图
这是解释变量和残差平方的图像
绘制这个散点图
原假设是同态变异
原假设:扰动项中没有异方差
p值大于0.05,表明原假设在95%的置信水平下被接受,也就是说,我们认为干扰项中不存在异方差。
这可能就是为什么robust的回归结果是相同的,因为没有异方差
怀特视察原假设:
不存在异方差性
结果P大于0.05,原假设被接受,无异方差
这个例子就是异方差
绘制回归的残差
多重共线性的表示整理横断面数据的回归步骤这里我们只研究横截面数据的多元回归
将Excel数据导入Stata将自动被视为节数据
首先测试每个独立变量的相关性(更好)土地首先,将所有变量放入回归模型,然后观察结果,然后测试自变量的相关性,根据相关性消除部分变量,然后返回查看结果)
所有申报必须使用robust
在发现房屋和汽车之间的相关性后,消除汽车变量,通过重新回归得到的F值变大
多重共线性检验
逐步回归正向逐步回归反向逐步回归比较所有变量一起回归,只得到了一些结果
方差展开系数,表明存在明显的多重共线性
向后的
向前地
可以看出,前向回归得到22个变量,后向回归得到21个变量。向后逐步回归的F值最大,向前和向后的方差展开系数几乎相等。因此,多重共线性的解是好的,并且两者的判断系数几乎相同。
基本上,消除的变量是区域分类变量,这表明多重共线性也主要由它们引起
代码:
注:以上学习材料来自互联网。如有侵权,请联系删除。
最新评论