如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
多元统计分析专题报告多元统计分析专题报告一、数据内容及来源本文所有数据均来自于2010年中国统计年鉴中华人民共和国国家统计局网址:http://www.stats.gov.cn/,在选取财政文件中的几个数据文件下载后,本文筛选出《各地区财政收入(2009年)》数据进一步分析。原始数据见附录。二、数据处理及分析在对数据的处理上,本人按照数据预处理、描述统计、深入分析的步骤循序渐进,先通过试处理找出数据的特点,再根据特点有针对性地选取分析方法。1.数据预处理《各地区财政收入(2009年)》主要描述了2009年全国各省、直辖市、自治区的财政收入及财政预算状况。其中,财政收入分为税收收入、非税收收入和其他收入三大部分。而税收收入又包括了各种流转税、所得税、行为税等税种。而又因为本文是从国家统计局网站直接获得的二手资料,数据已做过整理和预处理。因此本数据文件的特点是变量多,个案少,缺失值较少。针对该特点,我对数据做了以下处理:(1)首先将缺失值较多的变量剔除,即剔除“其他税收收入”和“烟叶税”两个变量。(2)其次,选取出“税收收入”中最感兴趣的几个变量,而将其他金额较少的资源税种剔除,即剔除“城市维护建设税”、“资源税”、“印花税”、“车船税”、“耕地占用税”。(3)筛选数据。本数据中有一栏“地方合计”,是各地区的金额加总,在做分析之前先用Selectcases命令将其剔除。(4)数据排序。将数据按“一般预算收入”、“税收收入”、“非税收收入”的优先次序进行多重排序。得到的结果是前5名为:广东、江苏、上海、山东、浙江。而后5名从后到前分别为:西藏、青海、宁夏、海南、甘肃。该结果较符合我国国情,财政收入和预算较高的均分布在东部沿海经济发达地区,而后5名则分布于西部经济较落后地区。其中,海南省我认为是个特例,作为国家的重点经济开发地区,海南省应该不是经济落后地区,但本文大部分数据为税收收入,根据资料查阅,从2011年3月起国务院赋予海南“离岛免税”重大政策支持,因此税收较少,与其他四个地区在垫底原因上存在着一定的差异。(5)计算新变量——总收入。本数据中“一般预算收入”变量为预算数字,而实际的年度总收入并未得出。因此,设置新变量总收入,以便于对比分析。总收入=税收收入+非税收收入+其他收入2.描述统计首先,对总收入、一般预算收入、税收收入和非税收收入进行分析。如表1所示:表1各地区总体收入单位:亿元Statistics总收入一般预算收入税收收入非税收入其他收入NValid3131313131Missing00000Mean1066.03371051.6963843.7882207.908114.3374Median828.8042814.8653576.8306198.804913.2094Std.Deviation902.12250896.26449795.43601138.6496010.30402Minimum34.6030.0918.5111.58.73Maximum3698.433649.813130.61574.0348.62根据表1,可见共有31个样本,一般预算收入平均值为1051.70亿元,总收入平均值为1066.03亿元,比前者高出15亿元,两者的中位数分别为814.87亿元和828.80亿元,说明大部分地区的总收入维持在800亿元左右。从最大值和最小值及方差也能看出,总收入各地区差距较大。而税收收入平均值为843.79亿元,非税收入138.65亿元,税收收入占总收入的大约80%。税收收入的方差较大,各地区差异较大。非税收入和其他收入平均值和比例均较小。总体而言,可见各地区之前具有较大差异,可做聚类分析。其次,我挑选出与房地产较大关联的几个税种,进行描述统计,得结果如表2所示:表2各地区房地产税收收入Statistics房产税城镇土地使用税土地增值税契税NValid30303130Missing1101Mean26.788530.699423.211657.8349Median15.548218.598215.199038.6568Std.Deviation26.7989031.0889327.4110161.08614Minimum1.491.87.201.31Maximum107.04120.88107.90245.45从表中可见,契税的平均值最大,为57亿元。同时,四组变量的标准差较大,说明不同地区的差异还是很明显,可以做聚类分析。3.假设检验本文中引入了一个新的变量——总收入。总收入为税收收入、非税收入和其他收入的加总。另一个变量预算收入是对总体年度收入的预算。为了了解预算和实际收入是否匹配,比较这一对变量之间是否有显著的差异,我对这两个变量进行配对样本的T检