数据分析基础课程数据的处理实用教案.pptx
上传人:王子****青蛙 上传时间:2024-09-13 格式:PPTX 页数:39 大小:6.1MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据分析基础课程数据的处理实用教案.pptx

数据分析基础课程数据的处理实用教案.pptx

预览

免费试读已结束,剩余 29 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

3.1数据(shùjù)清洗图3-2选择(xuǎnzé)C列(3)在“查找和替换(tìhuàn)”对话框的“查找内容”中输入“cm”,设置“替换(tìhuàn)为”为空,单击“全部替换(tìhuàn)”按钮完成替换(tìhuàn),如图3-4所示。替换(tìhuàn)后的结果如图3-5所示。3.1.2缺失数据的处理数据清单中,单元格如果出现空值,就认为数据存在缺失。缺失数据的处理方法(fāngfǎ)通常有以下3种:用样本均值(或众数、中位数)代替缺失值;将有缺失值的记录删除;保留该记录,在要用到该值做分析时,将其临时删除(最常用方法(fāngfǎ))。首先来解决如何发现缺失(quēshī)数据,仅靠眼睛来搜索缺失(quēshī)数据显然是不现实的,一般我们用“定位条件”来查找缺失(quēshī)数据的单元格。下面演示将“年龄”字段中的空值均替换为“18”。(1)选择“年龄”所在的E列。(2)选择“查找和选择”|“定位条件”命令,如图3-6所示。(3)在“定位条件”对话框中,选中“空值”单选项,如图3-7所示。(4)单击“确定(quèdìng)”按钮后,E列所有的空白单元格呈选中状态,如图3-8所示。(5)输入替代值“18”,按Ctrl+Enter组合键确认,结果如图3-9所示。3.1.3删除重复记录删除重复记录的操作极其简单(jiǎndān),只需单击数据表的任意位置,再单击“数据”|“删除重复项”按钮即可,如图3-10所示。3.2数据(shùjù)加工3.2.2字段分列(1)选择(xuǎnzé)“字段分列”工作表的A列数据,如图3-12所示。(2)单击“数据”|“分列”按钮,如图3-13所示。(3)要将字段“姓名(xìngmíng)”中的第一个字分列出来,所以选中“固定列宽”单选项,如图3-14所示。(4)单击“下一步”按钮,在刻度尺上单击鼠标确定(quèdìng)分列的位置,如图3-15所示。(5)单击“下一步”按钮,确定(quèdìng)目标区域的起点单元格D1,如图3-16所示。(6)单击“完成(wánchéng)”按钮,分列的结果如图3-17所示。3.2.3字段匹配字段匹配就是将原数据清单中没有但其他数据清单中有的字段匹配过来。例如,文件“数据处理.xlsx”中的“全校(quánxiào)名单”工作表是某校2015级全体学生的基本信息(见图3-18),“四级名单”工作表是2015级学生中报考了英语四级的学生名单(见图3-19)。(1)将“白有成”的身份证号码匹配到单元格D2。(2)双击D2的填充(tiánchōng)柄完成填充(tiánchōng),将所有人的身份证号码都匹配过来,结果如图3-21所示。3.2.5数据计算(jìsuàn)例1:文件“数据处理.xlsx”的“数据计算(jìsuàn)1”工作表中只有“销量”和“单价”,没有“销售额”,可以通过公式“销售额=单价×销量”来计算(jìsuàn)销售额,如图3-23所示。例2:文件“数据处理.xlsx”的“数据计算2”工作表中只有“成交单数”和“好评单数”,可以通过(tōngguò)公式“好评率=”来计算好评率,如图3-24所示。例3:文件(wénjiàn)“数据处理.xlsx”的“数据计算3”工作表中,已知商品的“上架日期”和“下架日期”,可以通过公式“销售天数=下架日期-上架日期”来计算商品的销售天数,如图3-25所示。例4:文件“数据处理.xlsx”的“数据计算4”工作(gōngzuò)表中,已知商品的“上架日期”,要计算迄今为止的上架天数,可以用函数today来获取当天的日期,用公式“=today()-B2”来计算上架天数,如图3-26所示。例5:文件(wénjiàn)“数据处理.xlsx”的“数据计算3”工作表中,可以用公式“=D2/360”计算销售年数,结果为3.6,如图3-27所示。这样计算出来的年数通常是一个小数,如果希望得到整数,可以(kěyǐ)用int函数取整,即用公式“=int(D2/360)”,结果是3,如图3-28所示。因为int函数的功能是返回不大于括号内参数的整数。如果要进行四舍五入式取整,则要用函数round。当round(number,digits)函数的第二个参数(cānshù)为0时,就可以对第一个参数(cānshù)进行四舍五入式取整,所以在编辑栏将公式修改为“=round(D2/360,0)”即可,如图3-29所示。函数int(number)的功能是向下取整(数轴上离左边最近(zuìjìn)的整数),如图3-30所示。所以(suǒyǐ),int(6.4)=int(6.7)=6,int(-6.4)=int(-6.7)=-7。函数round(number,digits)的