既然SEM模型可用来考虑潜变量之间的相互关系的复杂模型,则本文“潜变量”问题、多重共线性、双向因果关系等系列问题都得以很好地解决。
二、 数据选取
1、指标选择
这里我们采用中国大陆31个省份2008年的截面数据进行了因子分析。数据均来源于《中国统计年鉴2009》。通过对指标的相关系数、依存度等指标的考察,本文从40多个指标中筛选出17个指标来指代基础设施的省际水平,表达如下:
1.反映城市基础设施的指标:年末城市实有道路面积(X01,万平方米)、年末城市实有道路长度(X02,公里)、城市排水管道长度(X03,公里)、城市污水日处理能力(X04,万立方米)、城市道路照明灯数量(X05,千盏)。上述指标为能够进行省份间的可比性,采用城市城区面积进行密度化处理。
2.反映环保基础设施状况指标:废水治理设施数(X06,套)、工业废水排放达标量(X07,万吨)。采用各省面积进行密度化处理。
3.反映邮政和通讯基础设施的指标:长途自动交换机容量(X8,路端)、本地电话局用交换机容量(X9,万门)、移动电话交换机容量(X10,万户)、互联网宽带接入端口(X11,万个)。采用各省面积进行密度化处理。
4. 反映交通基础设施的指标:铁路营业里程(X12,公里)、公路营业里程(X13,公里)。采用各省面积进行密度化处理。
5.反映公共医疗卫生基础设施的指标:每千人口拥有的卫生技术人员数量(X14,人)、每千人口拥有的注册执业医师(X15,人)、每千人口拥有的注册执业护士(X16,人)、每千人口拥有的医疗机构床位数(X17,张)。
本文使用上述17个指标进行了因子分析,根据特征值大于1的原则选定几个公共因子并使用回归法计算出因子得分,根据因子得分讨论了各省在特定基础设施方面的差别。随后采用结构方程模型,使用指代经济发展水平的人均GDP、消费水平、人口密度、二三产业比重、财政分权度、城市化水平、劳动力数量等指标来检验各省基础设施提供状况和经济发展水平的相关性。现对指标进行一个简介:
1.人均GDP(元/人),写为pgdp,用以反映该省的经济发展水平。
2.消费水平(亿元),写为pc,用以反映该省的市场经济状况。
3.人口密度(人/平方公里),pd,用以反映该省基础设施的外部性作用范围,人口密度越大,基础设施的效能越高,外部性越大。
4.二三产业从业人口比重(%),写为tti,用以反映人均变量情况下的人力资本结构并从一定程度反映平均人力资本质量。
5.财政分权度(%),写为Fd,计算公式为:省级人均财政支出/(省级人均财政支出+中央人均财政支出),方法来自乔宝云(2005)、温娇秀(2006)等文献,用以反映该省财政权力的集中程度。
6.城市化水平(%),写为cityl,使用城市人口占总人口的比重作为代理变量。
7.劳动力数量(万人),写为worker,用以代表当地人力资本状况。
2、描述性统计
为了方便行分析,这里给出上述24个变量的描述性统计,具体情况见表1:
表1. 文中涉及变量的描述性统计 变量 最小值 最大值 均值 标准差 变量 最小值 最大值 均值 标准差 X01 0.439 3.961 1.717 0.878 X13 0.960 4.790 0.734 6.952 X02 0.734 6.952 3.032 1.552 X14 0.680 4.500 0.531 6.016 X03 0.531 6.016 2.052 1.145 X15 2.060 7.000 3.357 0.136 X04 0.000 0.136 0.070 0.037 X16 15.721 673.138 0.024 0.346 X05 0.024 0.346 0.111 0.071 X17 448.820 19420.61 0.114 3023.649 X06 0.114 3023.65 294.734 552.457 Pgdp 8824.000 73124.00 2.397 69871.622 X07 2.397 69871.622 7826.979 13104.926 Pc 3504.000 27343.00 514.33 1109606.42 X08 514.331 1109606.42 81691.318 201507.322 Pd 2.510 3189.966 1.100 2368.581 X09 1.100 2368.58 223.138 442.760 Tti 37.353 94.488 1.106 5692.568 X10 1.106 5692.57 502.080 1042.049 Fd 0.630 0.930 0.101 1032.625 X11 0.101 1032.63 67.210 186.950 Cityl 22.610 88.600 2.210 12.210 X12 2.210 12.210 0.439 3.961 Worker 160.400 5835.5 2353.28 1644.167
三、基础设施省际差异的实证分析:基于因子分析方法
按照前文介绍的因子分析方法,下面我们来看一下基础设施省际差异的具体情况。采用X01~X17指标,信度分析和适当性检验结果如表2:
表2. 信度检验和适当性检验结果 信度检验 适当性检验 Cronbach’α系数 Bartlett检验 KMO检验 0. 710 卡方值:1376.27;P值:0.000 0.753 这里的Cronbach’α系数为0.710,属于高信度区域所以可以认为这些指标存在内部一致性。从Bartlett检验得到的P值可知,该检验已经通过。KMO系数为0.753,大于0.7,说明变量间相关性较高。选用主成分分析法提取公共因子,进行因子分析后的结果如表3:
表3. 因子分析结果:对应公共因子的特征根以及方差贡献率 初始特征值及方差贡献率 未旋转提取因子的载荷平方和 旋转后提取因子的载荷平方和 特征值 贡献率 累计 特征值 贡献率 累计 特征值 贡献率 累计 1 9.277 54.569 54.569 9.277 54.569 54.569 6.051 35.593 35.593 2 3.838 22.574 77.142 3.838 22.574 77.142 4.994 29.379 64.972 3 1.913 11.251 88.394 1.913 11.251 88.394 3.982 23.421 88.394 4 0.931 5.479 93.872 5 0.353 2.078 95.950 6 0.309 1.820 97.771 7 0.130 0.763 98.533 8 0.104 0.612 99.145 9 0.061 0.358 99.503 10 0.040 0.235 99.739 11 0.019 0.110 99.849 12 0.010 0.061 99.910 13 0.008 0.046 99.956 14 0.003 0.019 99.975 15 0.002 0.013 99.988 16 0.002 0.009 99.997 17 0.000 0.003 100.000 从分析的结果看,根据特征值大于1的原则,选入三个公共因子,名之为F1、F2、F3,这三个公共因子的累计方差贡献率为88.39%,同时由于这三个公共因子在原始变量上的载荷值不好解释,于是进行了方差最大化正交旋转,经过五次旋转后,得到的载荷矩阵如表4:
表4. 旋转后各指标在三个公共因子上的载荷量 变量 因子F1 因子F2 因子F3 变量 因子F1 因子F2 因子F3 X01 -0.164 -0.081 0.949 X10 0.866 0.472 -0.075 x02 -0.115 -0.155 0.962 X11 0.860 0.443 -0.087 X03 0.070 -0.004 0.836 X12 0.264 0.950 -0.120 X04 0.284 -0.108 0.813 X13 0.235 0.949 -0.178 X05 -0.207 -0.084 0.841 X14 0.325 0.921 -0.102 X06 0.935 0.283 -0.019 X15 0.330 0.913 -0.046 X07 0.956 0.204 -0.009 X16 0.840 0.596 -0.053 X08 0.867 0.435 -0.086 X17 0.762 0.061 0.042 X09 0.860 0.489 -0.073 从表4可以看出,主因子F1主要表示交通、通讯、环保这三类基础设施的情况,主因子F2主要表示医疗基础设施的情况,主因子F3主要表示城市基础设施的情况。我们发现,交通、通讯和环保这三类基础设施主要反映了省份的经济性基础设施情况,为此我们命名F1为主要反映省份经济性基础设施状况的主因子。有了上述分析,下面我们可以给出各省份的三个主因子得分,并且同时给出综合的因子得分,具体结果见表5。综合因子得分的计算方式如下:
F=(35.593×F1+29.379×F2+23.421×F3)/88.394
表5. 各省份的综合得分及相关经济发展水平数据 各个省份 F1 F2 F3 F 各个省份 F1 F2 F3 F 北京 -0.705 4.069 -1.047 0.791 河南 0.518 -0.696 1.563 0.392 天津 0.261 1.552 1.401 0.992 湖北 0.004 -0.445 -0.554 -0.293 河北 -0.010 -0.350 -0.097 -0.146 湖南 0.095 -0.544 0.580 0.011 山西 -0.472 0.333 -0.266 -0.15 广东 0.542 -0.254 -0.237 0.071 内蒙古 -0.838 0.091 -1.581 -0.726 广西 0.101 -0.861 -0.528 -0.385 辽宁 -0.591 0.731 -0.563 -0.144 海南 -0.334 -0.146 0.109 -0.154 吉林 -0.728 0.368 -1.155 -0.477 重庆 0.411 -1.082 -1.170 -0.504 黑龙江 -0.721 0.327 0.942 0.068 四川 -0.254 -0.570 -0.162 -0.335 上海 4.621 1.381 -0.416 2.21 贵州 -0.032 -1.047 -0.609 -0.522 江苏 1.060 -0.527 0.845 0.476 云南 -0.319 -0.471 0.406 -0.177 浙江 0.495 0.017 -0.182 0.157 西藏 -0.735 -0.360 -1.078 -0.701 安徽 0.262 -0.883 -0.236 -0.251 陕西 -0.439 0.132 2.200 0.45 福建 0.404 -0.835 -0.252 -0.182 甘肃 -0.402 -0.409 0.433 -0.183 江西 -0.037 -0.452 1.484 0.228 青海 -0.832 0.098 -0.498 -0.435 山东 0.299 -0.271 -0.413 -0.079 宁夏 -0.563 0.040 -1.194 -0.53 新疆 -1.065 1.065 2.276 0.528 从得分值来看,经济性基础设施较好的省份是天津、上海、江苏、浙江、安徽、河南、广东、重庆等省份,其中河南和安徽之所以经济性基础设施较好,主要原因在于其优越的地理位置造就了很好的铁路和公路密度所致。而北京的经济性基础设施之所以较差,主要由于环保基础设施不够优越。医疗基础设施最好的省份是北京、天津、上海和新疆,新疆的医疗条件之所以能够排到前列主要是因为其地广人稀且从医人员较多所致。城市基础设施较好的省份主要有天津、黑龙江、江苏、江西、河南、陕西和新疆,之所以出现这么多中西部省份城市基础设施良好的情况,是因为中西部城市的基础设施是从无到有建设起来的,一方面政府的支持力度较大,另一方面也在于低廉的建设成本,地广人稀的人口状况也为其指标值的提高做出较大贡献。从综合得分看,上海的得分最高,京津地区次之,而后是新疆、江苏、陕西和河南。故而从区域层面看,东部地区长三角的基础设施最好,中部地区是河南,西部地区是陕西和新疆。为直观,本文画出了各省依照因子得分的分布图。