实验8-1 数据分析.doc
上传人:王子****青蛙 上传时间:2024-09-14 格式:DOC 页数:17 大小:2.5MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

实验8-1 数据分析.doc

实验8-1数据分析.doc

预览

免费试读已结束,剩余 7 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

实验81数据分析一、实验目得理解数据挖掘得一般流程。掌握数据探索与预处理得方法。使用PHSTAT软件,结合Excel对给定得数据进行手工预处理。使用WEKA软件,对给定得数据进行预处理。二、实验内容在D盘中以“班级学号姓名”命名一个文件夹,将下发得数据拷贝到该文件夹下,根据不同要求,对下发得文件进行相应得数据分析与处理。0、数据集介绍银行资产评估数据bankdata、xlsx,数据里有12个属性,分别就是id(编号),age(年龄),sex(性别),region(地区),ine(收入),married(婚否),children(子女数),car(就是否有私家车),save_act(就是否有定期存款),current_act(就是否有活期账户),mortgage(就是否有资产抵押),pep(目标变量,就是否买个人理财计划PersonalEquityPlan)。1.数据探索之数据质量分析新建“1数据质量分析、xlsx”文件,导入“0bank_data、xlsx”文件数据,请您用EXCEL对其进行数据质量分析。【要求】(1)请找出bank_data、xlsx表中得含有缺失值得记录。(2)请您用PHSTAT软件绘制“ine(收入)”属性得箱线图与点比例图,筛选出异常值。(3)计算Whisker上限、Whisker下限,并利用高级筛选,找出该属性得异常值记录。【提示】(1)请找出bank_data、xlsx表中得含有缺失值得记录。方法1:条件格式法1)选取A1:L601区域。2)开始>条件格式>新建规则(N)、、、,在"新建格式规则"对话框中,选择空值。如图81所示。图81“新建格式规则”对话框3)点击“格式(F)…”按钮,设置特殊格式,高亮显示。如图82所示。图82设置条件格式方法2:1)缺失值定位。“开始”“编辑/查找与选择”“定位”对话框“定位条件”按钮。2)“定位条件”对话框选择“空值”,如图83所示。图83“转到(G)…”下拉菜单命令与“定位条件”对话框(2)绘制“ine”属性箱线图与点比例图。高级筛选出异常值。“加载项/PHStat”“DescriptiveStatistics”“Boxplot…”或”DotScaleDiagram…“命令。如图84所示。注意选中“ine”属性,如果数据区域包括标题行(E1单元格),则勾选下面得Firstcellcontainslabel选项,否则,不用勾选Firstcellcontainslabel选项。(a)(b)(c)(d)图84PHSTAT软件得“箱线图”与“点比例图”绘制计算ine属性得最小值、最大值、第一四分位数、中位数、第三四分位数。以及Whisker下限与上限。表81四分位数表箱线图公式数值最小值=MIN(E2:E601)或=QUARTILE、INC(E2:E601,0)5014、21最大值=MAX(E2:E601)或=QUARTILE、INC(E2:E601,4)78843、21第一分位数=QUARTILE、INC($E$2:$E$601,1)17264、5第二分位数(中位数)=MEDIAN($E$2:$E$601)或=QUARTILE、INC(E2:E601,2)24925、3第三分位数=QUARTILE、INC(E2:E601,3)36172、675Whisker上限=QL1、5*(QuQL)11097、763Whisker下限=Qu+1、5*(QuQL)64534、9375高级筛选,筛选出大于Qu,小于QL得离群点。1)设置条件区域,如图85所示。ine<11097、7625>64534、9375图85高级筛选“条件区域”2)设置高级筛选。2.数据探索之数据特征分析建立“2数据特征分析、xlsx”文件,导入“0bank_data、xlsx”文件,请您用EXCEL对其进行数据特征分析。【要求】(1)针对age属性进行分布分析。填写82与83表。表82年龄分布分析表表83年龄数据统计表(2)根据上一步得age属性分组,分别用EXCEL分布工具与PHSTAT软件绘制直方图。(3)同理,将收入属性分组,计算各年龄段收入汇总与购买理财计划汇总,找出购买理财计划得主要群体。【提示】(1)age分为三组(青年组、中年组与老年组),填写age数据统计,如表84所示。表84年龄数据分布公式表年龄数据分布公式值所在单元格数据个数=COUNT(B2:B601)600O4最大值=MAX(B2:B601)67O5最小值=MIN(B2:B601)18O6平均值=AVERAGE(B2:B601)42、395O7标准差=STDEV、P(B2:B601)14、413O8全距