于是,得到ETL的定義:
將數據抽?。‥xtract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過(guò)程。
好的,既然到了這一個(gè)層次,我們完全會(huì )進(jìn)一步展開(kāi)聯(lián)想,引出上面這個(gè)抽象事件的前因后果,
抽取的源在哪里?
裝載的目的又是什么呢?
抽取源:大多數情況下,可以認為是關(guān)系數據庫,專(zhuān)業(yè)一點(diǎn),就是事務(wù)處理系統(OLTP)。當然,廣義一點(diǎn),可能會(huì )是其它數據庫或者是文件系統。
目的地:OK,我們希望是數據倉庫。數據倉庫是啥?在學(xué)習之前,它對我來(lái)說(shuō)是個(gè)抽象的怪物,看過(guò)一些簡(jiǎn)單的資料之后,才了解這個(gè)怪物一點(diǎn)都不怪。堆積用來(lái)分析的數據的倉庫。是了,是用來(lái)分析的,于是,它區別于OLTP中的數據存儲。
然后,我們來(lái)看看為什么要ETL?
在我看來(lái),有兩個(gè)原因。
一:性能 將需要分析的數據從OLTP中抽離出來(lái),使分析和事務(wù)處理不沖突。咦?這不是數據倉庫的效果嗎?是了,
數據倉庫,大多數情況下,也就是通過(guò)ETL工具來(lái)生成地。
二:控制 用戶(hù)可以完全控制從OLTP中抽離出來(lái)的數據,擁有了數據,也就擁有了一切。
嗯,OLAP分析,數據挖掘等等等……。
最后,總結一下,
從資料上看,ETL是一門(mén)大學(xué)問(wèn),對于大學(xué)問(wèn),實(shí)在有些怕怕,所以,我覺(jué)得應該停下來(lái)想一想,下一步我該干點(diǎn)啥?
嗯,時(shí)不我待,我沒(méi)有辦法一切從頭開(kāi)始,
是了,從應用出發(fā),看看現在工作中,最急需的是什么?
聯(lián)系客服