多元线性回归分析案例 下载本文

内容发布更新时间 : 2024/5/8 3:36:00星期一 下面是文章的全部内容请认真阅读。

SPSS19.0实战之多元线性回归分析 (2011-12-09 12:19:11) 转载▼

标签: 分类: 软件介绍 文化

线性回归数据(全国各地区能源消耗量与产量)来源,可点击协会博客数据挖掘栏:国泰安数据服务中心的经济研究数据库。 1.1 数据预处理

数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等。本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充,但是依然将其统称数据清理。 1.1.1 数据导入与定义

单击“打开数据文档 ”,将xls格式的全国各地区能源消耗量与产量的数据导入SPSS中,如图1-1所示。

图1-1 导入数据

导入过程中,各个字段的值都被转化为字符串型(String),我们需要手动将相应的字段转回数值型。单击菜单栏的“ ”-->“ ”将所选的变量改为数值型。如图1-2所示:

图1-2 定义变量数据类型 1.1.2 数据清理

数据清理包括缺失值的填写和还需要使用SPSS分析工具来检查各个变量的数据完整性。单击“ ”-->“ ”,将检查所输入的数据的缺失值个数以及百分比等。如图1-3所示:

图1-3缺失值分析

能源数据缺失值分析结果如表1-1所示: 单变量统计 N 均值 标准差 缺失 极值数目a 计数 能源消费总量 30 煤炭消费量 焦炭消费量 原油消费量 汽油消费量 煤油消费量 柴油消费量 30 30 28 30 28 30 9638.50 9728.99 874.61 1177.51 230.05 45.40 392.34 141.00 19.56 949.64 9125.97 1026.49 1026.48 90.72 215.18 48.44 448.29 29.28 954.74 6175.924 7472.259 1053.008 1282.744 170.270 66.189 300.979 313.467 22.044 711.664 12180.689 1727.735 1231.724 134.150 210.090 62.130 420.675 49.391 675.230 0 0 0 2 0 2 0 0 0 0 4 1 12 5 4 10 4 10 0 百分比 .0 .0 .0 6.7 .0 6.7 .0 .0 .0 .0 13.3 3.3 40.0 16.7 13.3 33.3 13.3 33.3 .0 低 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 高 1 2 2 1 1 4 2 3 2 3 2 2 0 3 2 0 1 3 0 燃料油消费量 30 天然气消费量 30 电力消费量 原煤产量 焦炭产量 原油产量 燃料油产量 汽油产量 煤油产量 柴油产量 天然气产量 电力产量 30 26 29 18 25 26 20 26 20 30 表2-1 能源消耗量与产量数据缺失值分析 表1-1 能源消耗量与产量数据缺失值分析

SPSS提供了填充缺失值的工具,点击菜单栏“ ”-->“ ”,即可以使用软件提供的几种填充缺失值工具,包括序列均值,临近点中值,临近点中位数等。结合本次实习数据的具体情况,我们不使用SPSS软件提供的替换缺失值工具,主要是手动将缺失值用零值来代替。

1.1.3 描述性数据汇总

描述性数据汇总技术用来获得数据的典型性质,我们关心数据的中心趋势和离中趋势,根据这些统计值,可以初步得到数据的噪声和离群点。中心趋势的量度值包括:均值(mean),中位数(median),众数(mode)等。离中趋势量度包括四分位数(quartiles),方差(variance)等。

SPSS提供了详尽的数据描述工具,单击菜单栏的“ ”-->“ ”-->“ ”,将弹出如图2-4所示的对话框,我们将所有变量都选取到,然后在选项中勾选上所希望描述的数据特征,包括均值,标准差,方差,最大最小值等。由于本次数据的单位不尽相同,我们需要将数据标准化,同时勾选上“将标准化得分另存为变量”。

图1-4 描述性数据汇总

得到如表1-2所示的描述性数据汇总。 能源消费总量 煤炭消费量 焦炭消费量 原油消费量 汽油消费量 煤油消费量 柴油消费量 燃料油消费量 天然气消费量 电力消费量 原煤产量 焦炭产量 原油产量 N 30 30 30 30 30 30 30 30 30 30 30 30 29 极小值 911 332 19 0 18 0 27 0 1 98 0 0 0 极大值 26164 29001 5461 5555 771 262 1368 1574 106 3004 58142 9202 4341 均值 9638.50 9728.99 874.61 1099.01 230.05 42.37 392.34 141.00 19.56 949.64 7909.17 992.28 637.12 标准差 6175.924 7472.259 1053.008 1273.265 170.270 64.896 300.979 313.467 22.044 711.664 11741.388 1707.998 1085.379 方差 38142034.412 55834651.378 1108824.853 1621202.562 28991.746 4211.520 90588.441 98261.261 485.947 506464.953 1.379E8 2917256.193 1178048.432 燃料油产量 汽油产量 煤油产量 柴油产量 天然气产量 电力产量 30 30 30 30 30 30 0 0 0 0 0 97 497 1032 219 1911 164 2536 75.60 186.49 32.30 388.52 19.52 954.74 126.791 208.771 55.394 420.216 42.371 675.230 16075.971 43585.122 3068.535 176581.285 1795.341 455935.003 有效的 N (列表状态) 29 表1-2 描述性数据汇总

标准化后得到的数据值,以下的回归分析将使用标准化数据。如图1-5所示:

图1-5 数据标准化

我们还可以通过描述性分析中的“ ”来得到各个变量的众数,均值等,还可以根据这些量绘制直方图。我们选取个别变量(能源消费总量)的直方图,可以看到我们因变量基本符合正态分布。如图1-6所示: