什么是數(shù)據(jù)清洗?
“數(shù)據(jù)清洗確保無法辨認(rèn)的數(shù)據(jù)不會進(jìn)入數(shù)據(jù)倉庫。無法辨認(rèn)的數(shù)據(jù)將影響到數(shù)據(jù)倉庫中通過聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘和關(guān)鍵績效指標(biāo)(KPI)所產(chǎn)生的報表。”
在哪里會用到數(shù)據(jù)清洗的一個簡單例子是,數(shù)據(jù)是如何儲存在不同的應(yīng)用系統(tǒng)中的。例如:2007年3月11號可以儲存為“03/11/07”或“11/03/07”及其他格式。一個數(shù)據(jù)倉庫項(xiàng)目將數(shù)據(jù)輸入數(shù)據(jù)倉庫之前需要將不同格式的日期轉(zhuǎn)變成一個統(tǒng)一的格式標(biāo)準(zhǔn)。
如何規(guī)劃數(shù)據(jù)清洗?
及早開始對將要進(jìn)入數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行籌劃是很重要的,這一籌劃可能會隨著項(xiàng)目的成熟發(fā)展而改變,但當(dāng)你需要獲得數(shù)據(jù)擁有者在沒有事先通知的情況下不會改動數(shù)據(jù)的格式的承諾時,這些文件的蹤跡就變得極為有價值。
創(chuàng)建一個需要提取、轉(zhuǎn)換和加載的數(shù)據(jù)列表。為極有可能需要轉(zhuǎn)換格式的數(shù)據(jù)設(shè)立一個獨(dú)立的列表。對是否需要購買提取、轉(zhuǎn)換和加載(ETL)工具做出決定,并留出一個全面的預(yù)算。從該領(lǐng)域的專家那里聽取建議并評估產(chǎn)品是否適用于你企業(yè)的整體技術(shù)層次。
為什么要進(jìn)行提取,轉(zhuǎn)換和加載(ETL)?
提取、轉(zhuǎn)換和加載 (ETL) 指的是一種可以幫助確保數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前被清洗過(即符合標(biāo)準(zhǔn))的工具。供應(yīng)商提供的提取、轉(zhuǎn)換和加載 (ETL) 工具更加容易被用來管理持續(xù)進(jìn)行的數(shù)據(jù)清洗。供應(yīng)商提供的提取、轉(zhuǎn)換和加載 (ETL) 工具坐鎮(zhèn)在數(shù)據(jù)倉庫之前,監(jiān)測輸入的數(shù)據(jù)。如果它遇到了程序指定轉(zhuǎn)換的數(shù)據(jù),它就會在數(shù)據(jù)載入數(shù)據(jù)倉庫之前對其進(jìn)行轉(zhuǎn)換。
提取、轉(zhuǎn)換和加載 (ETL) 工具也可以用來從遠(yuǎn)程數(shù)據(jù)庫或者通過自動設(shè)定的事件或通過人工干預(yù)提取數(shù)據(jù)。有替代工具可以替換ETL工具,這要取決于你項(xiàng)目的復(fù)雜性和預(yù)算。數(shù)據(jù)庫管理員們 (DBA) 可以編寫腳本來完成提取、轉(zhuǎn)換和加載 (ETL) 的功能,通常能滿足較小的項(xiàng)目需要。微軟的SQL服務(wù)器都有一個免費(fèi)的被稱為數(shù)據(jù)轉(zhuǎn)換服務(wù) (DTS) 的提取、轉(zhuǎn)換和加載 (ETL) 工具。數(shù)據(jù)轉(zhuǎn)換服務(wù) (DTS) 是一款不錯的免費(fèi)工具,但它確實(shí)有其局限性,尤其是在數(shù)據(jù)清洗的持續(xù)管理上。
提取、轉(zhuǎn)換和加載 (ETL) 的供應(yīng)商有Informatica、IBM(Cognos)及Pentaho等。 在對所有產(chǎn)品進(jìn)行選擇時,在接觸供應(yīng)商之前列出你認(rèn)為對一個提取、轉(zhuǎn)換和加載 (ETL) 供應(yīng)商的需求。從咨詢顧問那里獲得服務(wù)還是值得的,它能在產(chǎn)品的選擇上幫助你進(jìn)行需求分析。
數(shù)據(jù)清洗和提取、轉(zhuǎn)換和加載(ETL)對一個數(shù)據(jù)倉庫項(xiàng)目的成功有多重要?
在數(shù)據(jù)倉庫產(chǎn)生的結(jié)果符合利益相關(guān)者的期望值時,提取、轉(zhuǎn)換和加載 (ETL) 通常被忽視和置于腦后的。結(jié)果是,提取、轉(zhuǎn)換和加載 (ETL) 冠以數(shù)據(jù)倉庫項(xiàng)目的“沉默的殺手”的稱號。大多數(shù)數(shù)據(jù)倉庫項(xiàng)目由于數(shù)據(jù)清洗方面的意外情況而體驗(yàn)到延遲和預(yù)算超支
的情況。