资料品质及资料净化技术之探究.docx
上传人:15****47 上传时间:2024-09-11 格式:DOCX 页数:17 大小:171KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

资料品质及资料净化技术之探究.docx

资料品质及资料净化技术之探究.docx

预览

免费试读已结束,剩余 7 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

資料品質及資料淨化技術之探究-以環保部門資訊整合為例連志誠黃素梅東吳大學資訊科學系朱雨其行政院環保署監測資訊處摘要隨著公私企業部門對整合性資訊系統及資料倉儲應用的日益普及,「資料品質」已成為當前資訊系統建構過程及日常操作應用的一項重要課題。由於單一資料來源的資料品質控管程序與多個資料來源的控管程序差異甚大,現行資料倉儲相關技術可否有效提昇資料整合後的資料品質問題,頗值得探討。事實上,資料品質的問題在傳統資料庫與整合性資訊系統(或資料倉儲)有相當差異,在資料整合過程中,來源資料因為使用者輸入錯誤或組織環境隨著時間的推移而改變,這些都會影響所存放資料的品質。本文旨在探討在資料品質的特性及現行提昇資料品質的學理背景及實作方法,特別是資料淨化(datacleaning)技術的相關討論,並以環保部門的資訊整合應用實例輔助說明,以期對資料品質課題有通盤性之瞭解與掌握。關鍵詞:資料品質、資料淨化、資訊整合系統、資料倉儲AStudyonApplyingDataQualityandDataCleaningTechnologiestoGovernmentDataIntegrationChih-ChengLien,Su-MeiHuang,Dept.ofComputerScience,SoochowUniversityYu-ChiChu,Dept.ofInformationManagement,EPAABSTRACTRecentlydataintegrationamongthedepartmentsofgovernmenthasproposedasanimportantworktoincreasethequalityoftheservicesprovidedbygovernment.Dataqualityisonemajorfactortomakeasuccessfuldataintegration.Inthispaper,weproposedanapproachwhichadvancesthecurrentdataintegrationapproachofgovernmentwithdataminingtechnologies.WestudytheprocessofdataintegrationintheEnvironmentalProtectionAdministrationExecutiveYuan(EPA)ofTaiwan.Thenwedefinesomemetricsofdataqualitytodetectandprotectthedataproducedsomeunfavorablebehaviorssuchastypingerror,unauthorizeddata,databecomeoutofdate,etc.Finally,wedesignalotofrulestoguardthequalityofthedataintherelateddatabasesinEPA.WegotabetterdataqualitywithourapproachthanthatofthecurrentapproachfromEPAdatabases.Keyword:Datacleaning,dataquality,datawarehouses,informationintegrationsystems1.前言根據HYPERLINK"http://www.cpro.com.tw/channel/news/keyword_rel/index.php?keyword=Data%20Warehousing%20Institute"DataWarehousingInstitute的一份調查報告顯示[8],美國企業因資料品質的問題,每年損失6千億美元。由於網際網路之便捷及資料庫技術之發展,使得資料整合系統之建置日益普遍。在資料整合計畫開始後,大多數企業會採行資料倉儲技術,同時運用資料擷取、轉換並載入(Eliction,Transform,Load,HYPERLINK"http://www.cpro.com.tw/channel/news/keyword_rel/index.php?keyword=ETL"ETL)作業程序,將各個不同來源的資料整合匯入資料倉儲。在資料擷取的階段中,原有的資料必須經由檢視,找出其中問題或錯誤,並且儘可能解決這些問題。惟以往多以人工方式來清理資料,不僅成本高,也相當耗時,而且效果有限。DataWarehousingInstitute便發現在員工基本資料中,大約會出現76%的錯誤,進而產生有瑕疵的資料。一個主要的因素是資料來源本身充滿了許多有問題的資料,是以如何有效地處理資