stata中obs是什么意思(多元线性回归 stata)

董登新专栏

2022-04-27 19:47:03

回归分为解释性回归和预测性回归

预测回归需要较高的预测精度。可以向模型中添加平方项、交互项甚至更高阶项来改进模型，而不一定只是线性项

然而，如果添加太多自变量，例如4个变量及其平方项，8个变量很容易适合小样本，这与NN非常相似。这些样本的表示尤其完整，预测能力非常好，但对样本外数据的预测效果非常差。

如果因变量为0-1变量，则为0-1回归

回归的思想、任务、使命和分类
因变量y可分为所以回归可以分为以下0-1回归示例中的因变量和自变量为0-1变量

回归是拟合的后续过程
回归是拟合的后续过程
回归是拟合的后续过程

但是，多元线性回归指定函数形式为多元线性函数，不能使用其他多项式函数或其他用户定义的函数进行拟合

obs是什么意思

公式中的系数（函数的形式可以通过经验、先验知识或对数据的直观观察或直接使用多项式确定）通过最小二乘法计算，并完成拟合。然而，回归工作尚未结束。仍然有必要研究这些系数（该公式）的可靠性以及每个系数对因变量的影响，因为回归分析认为，真正的拟合系数应该是一个随机变量，而不是一个精确值，用最小二乘法拟合得到的这些系数只是实际系数的近似值点估计，因此，有必要继续研究区间估计问题假设检验。简而言之，拟合只是寻找一条能够反映数据趋势的曲线，但对回归的要求更高、更准确。

对拟合得到的系数进行了进一步估计和检验

解释Y的形成机制就是建立X和Y之间的数学关系

感官相关分析是回归分析的前两步，但所使用的方法不是通过相关分析

逐步回归之后，选择最有效的变量，消除不重要的变量，并简化回归模型

线性回归只能用于具有线性关系的变量吗

首先，必须明确的是，多元线性回归中的“线性”是一个假设。它需要测试！

非线性关系，例如对数关系，也可以是线性回归，只要先将它们转换成这种形式

数据预处理主要针对异常值。异常值和异常值对回归模型有很大影响

您可以在Excel中找到变量的对数项、平方项和交互项（x1*x2），然后用SPSS绘制散点图，查看是否存在线性关系

数据分类

使用回归分析找出所有指标中最重要的

然后，受启发，我们可以使用回归找到与疾病最相关的基因位点（2016年全国研究生竞赛的问题B）

数据的标准化处理

无论你做什么，主成分分析还是回归，如果你想消除维度的影响，你需要标准化数据，这是数据预处理的内容

最小二乘法拟合一元线性回归方程的若干结论

回归系数的解释

多元线性回归模型中的回归系数

变量的省略将导致内生性（干扰项与变量相关）

多元线性回归必须避免内生性，使模型具有外生性

因此，如果我们想使用多元线性回归，我们必须测试模型是否是外生的，这可以通过测试每个变量和干扰项之间的相关系数来实现

弱化完全非内生性条件

虚拟变量

定性变量比定量变量更重要

有时你会被要求研究薪水是否与性别有关，贷款申请的成功与申请人所在的地区是否有关。一般来说，你只能考虑做相关分析和计算相关系数，但实际上，你也可以设置虚拟变量进行回归分析，以获得更准确的公式表达式，并从另一个角度解决问题

虚拟变量是0-1变量，表示变量

由于主要研究是性别和地区对工资和贷款申请成功率的影响，这两个因素是各自模型中的核心解释变量，其他变量是控制变量

当其他因素相同且确定时，虚拟变量的回归系数表示虚拟变量对y的影响/变化，即虚拟变量两个值之间的差异程度，例如女性工资和男性工资之间的平均差异

虚拟变量的数量是分类号-1

在下图中定性变量虚拟变量用于建模，虚拟变量也可以通过Stata中的代码生成

斯塔塔的例子

自变量也有这种复杂的关系。随着x1的增加，y随着X2的增加而增加，也就是说，y和X2之间的关系并不独立于x1

如何评估回归质量/拟合效果分析-判断系数（拟合优度）

通过评估样本标准偏差或样本方差，方差分析表明，回归模型越小，解释性越好，精度越高

样本的平均值必须为0，因此残差之和必须为0

因为有两个限制，残差和自由度的平方和小于2，也就是说，当n-2残差已知时，将确定另外两个。

这里，样本方差除以n-2，而不是n-1，更不用说n了。这是为了确保样本方差是总体方差的无偏估计。

我们使用样本方差来衡量样本的变异程度

决定系数

调整后的拟合优度（将自变量数引入判断系数的计算）

调整后的拟合优度更具参考意义

微扰项必须是具有“同方差”和“无自相关”的球形微扰项

稳健的标准误差处理数据异方差

一般数据为异方差。此时，最小二乘法估计的回归系数是不可靠的，对它们的假设检验也是不可靠的。我们可以用稳健的标准差来解决这个问题

数据
量化指标已在Excel中标准化

Stata将定性变量设置为虚拟变量，然后直接进行多元线性回归

所以你可以写出回归方程

高考总分=−0.0024*a1+0.1186*正常分数表演−0.1287*表演+0.0368*高考数学+0.9246*高考总分=-0.0024*a1+0.1186*平时成绩-0.1287*期末成绩+0.0368*高考数学+0.9246高考总分=−0.0024*A.6分+1181分−0.1287*期末成绩+0.0368*高考数学+0.9246

根据以下解释，该结果的F值不大，回归结果也不好。从最终回归结果来看，最终分数与高考总分呈负相关，这是绝对错误的

Stata回归结果的解释

（模型，SS）是回归平方和SSR
（残差，SS）是残差平方和SSE
（总计，SS）是SST，等于SSR+SSE

最关键的回归结果，即回归系数，位于第一列，其次是每个系数的标准偏差（越小越好）、t检验值、t检验的p值（系数越明显，越小为0）和置信区间

在上面的红色框中，由于多重共线性，Stata将自动检测并忽略定性变量的N个虚拟变量之一（N是定性变量类别的总数）。这是因为我们只需要在这个类中设置n-1个虚拟变量，如上所述

SSE说，右边的F值越大，prob越小，所有系数的联合显著性就越大，也就是说，所有变量为0的概率非常低

OBS，观察次数，即样本总数

什么是异方差以及如何测试和处理它

回归后，我们必须看到检验异方差，这也是检验回归的结果

残差的平方用于表示随机误差项的方差

异方差有六到两个图形测试

一种是使用每个解释变量和解释变量的散点图

这是解释变量和残差平方的图像

绘制这个散点图

bp视察

原假设是同态变异

原假设：扰动项中没有异方差
p值大于0.05，表明原假设在95%的置信水平下被接受，也就是说，我们认为干扰项中不存在异方差。

这可能就是为什么robust的回归结果是相同的，因为没有异方差

怀特视察原假设：
不存在异方差性

结果P大于0.05，原假设被接受，无异方差

这个例子就是异方差

绘制回归的残差

多重共线性的表示整理横断面数据的回归步骤

这里我们只研究横截面数据的多元回归

将Excel数据导入Stata将自动被视为节数据

首先测试每个独立变量的相关性（更好）土地首先，将所有变量放入回归模型，然后观察结果，然后测试自变量的相关性，根据相关性消除部分变量，然后返回查看结果）

所有申报必须使用robust

在发现房屋和汽车之间的相关性后，消除汽车变量，通过重新回归得到的F值变大

多重共线性检验

逐步回归正向逐步回归反向逐步回归比较

所有变量一起回归，只得到了一些结果

方差展开系数，表明存在明显的多重共线性

向后的

向前地

可以看出，前向回归得到22个变量，后向回归得到21个变量。向后逐步回归的F值最大，向前和向后的方差展开系数几乎相等。因此，多重共线性的解是好的，并且两者的判断系数几乎相同。

基本上，消除的变量是区域分类变量，这表明多重共线性也主要由它们引起

代码：

注：以上学习材料来自互联网。如有侵权，请联系删除。

obs是什么意思

stata中obs是什么意思(多元线性回归 stata)

您可以还会对下面的文章感兴趣

相关文章：

最新评论