欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
商務(wù)智能架構及其技術(shù)的討論
  BI是什么?BI(Business Intelligence)的中文譯名是商務(wù)智能,關(guān)于這個(gè)名詞的定義很多,比較嚴謹的定義如下:
“商務(wù)智能是企業(yè)利用現代信息技術(shù)收集、管理和分析結構化和非結構化的商務(wù)數據和信息,創(chuàng )造和累計商務(wù)知識和見(jiàn)解,改善商務(wù)決策水平,采取有效的商務(wù)行動(dòng),完善各種商務(wù)流程,提升各方面商務(wù)績(jì)效,增強綜合競爭力的智慧和能力。”(作者:王茁)
也有比較簡(jiǎn)潔的定義:商務(wù)智能好比“數據煉油廠(chǎng)”,即把商業(yè)活動(dòng)中累積的數據加工成可用于支持商業(yè)決策的信息。
資料來(lái)源:美國數據倉庫研究院(www.dw-institute.com

    BI是如何產(chǎn)生的?這需要從傳統的商務(wù)交易系統講起。
最初在商務(wù)交易中引入計算機輔助管理時(shí),開(kāi)發(fā)人員是根據企業(yè)已規定好的業(yè)務(wù)規則來(lái)編寫(xiě)交易系統。此時(shí)的商務(wù)系統,其主要目的是讓“商務(wù)流程自動(dòng)化”,從而縮短業(yè)務(wù)周期,提高效率,增強企業(yè)的競爭力,最終為企業(yè)創(chuàng )造更大的利潤?,F今,絕大部分大、中型商業(yè)公司都已在內部或多或少的引入的計算機輔助商務(wù)管理系統。
隨著(zhù)計算機在商業(yè)管理中的普及,公司的高層管理人員有了更近一步的需求,即其企業(yè)的部門(mén)框架和業(yè)務(wù)規則隨著(zhù)社會(huì )分工的日益細化,而不斷的發(fā)生變動(dòng)。而且,其中蘊含了不少的新的商機,精明的經(jīng)理們當然不希望錯過(guò)這些能讓企業(yè)更上層樓的機會(huì )了,而原有的商務(wù)管理系統面對日益變化的業(yè)務(wù)規則逐漸變得力不從心。
因此,軟件廠(chǎng)商針對新出現的商業(yè)部門(mén)和業(yè)務(wù)規則,推出了一系列的自成體系的,專(zhuān)門(mén)針對某塊商業(yè)數據管理的管理軟件,如財務(wù)管理軟件,客戶(hù)關(guān)系管理軟件,產(chǎn)品數據管理軟件,人力資源管理軟件等。但是,這些自成體系的的管理軟件之間,數據很難共享,從而在企業(yè)各個(gè)部門(mén)之間形成了“信息孤立”的局面。
    于是,軟件廠(chǎng)商又推出了更大塊集成的企業(yè)資源規劃(ERP)系統,把之前推出的各塊獨立的管理系統整合起來(lái)。但是,單單把各個(gè)商務(wù)部門(mén)的管理軟件集成起來(lái),是否真的就是企業(yè)真正需要的“能適應商務(wù)變化”的整體解決方案呢?
我認為:如果僅僅針對目前的商務(wù)活動(dòng)和業(yè)務(wù)規則打包,答案一定是NO! 這個(gè)答案也早就被相關(guān)方面的專(zhuān)家所確定。那么,如何才能真正把各個(gè)商業(yè)部門(mén)之間的商務(wù)數據集成起來(lái),從中預測商務(wù)變化,找到潛在商機,為商業(yè)決策提供數據支持呢?答案就是BI。
   不過(guò),BI的范圍太廣太大,在實(shí)際商務(wù)中我們往往只需運用其中的某個(gè)部分就可以暫時(shí)滿(mǎn)足企業(yè)的需求,如數據倉庫,聯(lián)機事務(wù)分析(OLAP),數據挖掘,決策支持系統(DDS)等。其實(shí),整個(gè)BI的框架結構可以用下面的圖中間的三部分(數據預處理、數據倉庫、數據分析)來(lái)表示:


現在決大多數企業(yè)已在其一個(gè)或多個(gè)部門(mén)內采用了計算機商務(wù)管理系統,也累積了相當的商業(yè)數據。然而,正如業(yè)內的那句老話(huà)“rich data, poor information”,以前累積的數據,并沒(méi)有很好的得到利用。Why?并不是企業(yè)高層管理人員沒(méi)有想到,而是這些數據來(lái)源太廣,格式不統一,并且其中極少量的數據記錄格式不正確;同時(shí),累計的數據量相當龐大,上百萬(wàn)條記錄才剛起步,某些大型公司每天所產(chǎn)生的商業(yè)記錄已過(guò)千萬(wàn);而且,某些細節對高層管理人員來(lái)說(shuō)并不重要。他們需要的是一份站在戰略層角度統觀(guān)全局,及時(shí)的,在短時(shí)間內可以讀完,為企業(yè)決策服務(wù)的統計報表。
為了實(shí)現這一艱巨的目標,BI專(zhuān)家把任務(wù)分解成了三個(gè)子任務(wù):
  1)為了整合各種格式的數據,清除原有數據中的錯誤記錄,專(zhuān)家們提出了數據預處理的要求——STL(數據抽取、轉換、裝載);
  2)對預處理過(guò)數據,應該統一集中起來(lái),由此產(chǎn)生了元數據(Meta data)、數據倉庫(Data Warehouse);
  3)最后,對于集中起來(lái)的龐大的數據集,還應進(jìn)行相應的專(zhuān)業(yè)統計,從中發(fā)掘出對企業(yè)決策有價(jià)值的新的機會(huì ),這就是OLAP(聯(lián)機事務(wù)分析)和數據挖掘(Data Mining)。

  下面具體介紹一下每個(gè)子任務(wù)所需要用到的專(zhuān)業(yè)技術(shù)和輔助工具。
  1)數據預處理(STL:Extraction,Transformation,Load)

  當早期大型的在線(xiàn)事務(wù)處理系統(OLTP)問(wèn)世后不久,就出現了一種用于“抽取”處理的簡(jiǎn)單程序,其作用是搜索整個(gè)文件和數據庫,使用某些標準選擇合乎要求的數據,將其復制拷貝出來(lái),用于總體分析。因為這樣做不會(huì )影響正在使用的在線(xiàn)事務(wù)處理系統,降低其性能,同時(shí),用戶(hù)可以自行控制抽取出來(lái)的數據。但是,現在情況發(fā)生了巨大的變化,企業(yè)同時(shí)采用了多個(gè)在線(xiàn)事務(wù)處理系統,而這些系統之間的數據定義格式不盡相同,即使采用同一軟件廠(chǎng)商提供的不同軟件產(chǎn)品,或者僅僅是產(chǎn)品版本不同,之間的數據定義格式也有少許差距。由此,我們必須先定義一個(gè)統一的數據格式,然后把各個(gè)來(lái)源的數據按新的統一的格式進(jìn)行轉換,然后集中裝載入數據倉庫中。

  其中,尤其要注意的一點(diǎn)時(shí),并不是各個(gè)來(lái)源的不同格式的所有數據都能被新的統一格式包容,我們也不應強求非要把所有數據源的數據全部集中起來(lái)。Why?原因很多。有可能原來(lái)錄入的數據中,少量的記錄使用了錯誤的數據,這類(lèi)數據如果無(wú)法校正,應該被舍去。某些數據記錄是非結構化的,很難將其轉化成新定義的統一格式,而且從中抽取信息必須讀取整個(gè)文件,效率極低,如大容量的二進(jìn)制數據文件,多媒體文件等,這類(lèi)數據如果對企業(yè)決策不大,可以舍去。

  目前已有一部分軟件廠(chǎng)商開(kāi)發(fā)出專(zhuān)門(mén)的ETL工具,其中包括:
  ·Ardent DataStage
  ·Evolutionary Technologies,Inc. (ETI) Extract
  ·Information Powermart
  ·Sagent Solution
  ·SAS Institute
  ·Oracle Warehouse Builder
  ·MSSQL Server2000 DTS

  2)數據倉庫  

  上面提到,在進(jìn)行STL之前,需要先定義一個(gè)統一的數據格式。那么,定義出來(lái)的統一的數據格式是否需要保存起來(lái),以便在數據倉庫日后的演化中使用呢?Yes!隨著(zhù)企業(yè)不斷變化的商業(yè)模式和業(yè)務(wù)規則,肯定需要對系統進(jìn)行修改和功能升級。如果弄不清楚之前定義的數據格式的具體含義,我們將無(wú)從下手。所以,我們需要一種用來(lái)描述數據的數據。早期我們使用的是數據字典(Data Dictionary),數據字典一般包括數據的定義、關(guān)系、來(lái)源、作用域、格式和用法。但是,隨著(zhù)時(shí)間的推移,專(zhuān)家們發(fā)現,越來(lái)越多的已搭建好的數據倉庫希望方便的包容最新的各種格式的結構化和非結構化數據,而傳統的基于關(guān)系型數據庫的數據字典并不能達成這一目標。

  xml出世之后,這種自描述,可無(wú)限嵌套擴展,平臺獨立性的文本數據格式為數據字典的進(jìn)化提供了相當重要的技術(shù)支持,由此產(chǎn)生了基于xml的元數據的概念。并且,目前已有不少的軟件系統和數據倉庫都采用了xml格的元數據。如微軟的.Net,P2P的EMule等。由此可見(jiàn),元數據并不單單局限運用在數據倉庫中。

  由于基于xml的元數據相當靈活,我們可以用元數據來(lái)描述復雜的商業(yè)業(yè)務(wù)定義。所以,現在數據倉庫中的元數據分為兩種:技術(shù)元數據和業(yè)務(wù)元數據。技術(shù)元數據(technical meta data)是為企業(yè)技術(shù)用戶(hù)和IT部門(mén)的員工提供支持的元數據,對于維護和改進(jìn)系統來(lái)所至關(guān)重要。而業(yè)務(wù)元數據(business meta data)是為企業(yè)業(yè)務(wù)用戶(hù)提供支持的元數據,使業(yè)務(wù)用戶(hù)更容易理解統計報表中的信息。

  元數據工具分為兩類(lèi):一類(lèi)是將各種元數據集成到集中式倉儲的集成工具,另一類(lèi)是在倉儲上執行查詢(xún)訪(fǎng)問(wèn)的訪(fǎng)問(wèn)工具。一般來(lái)說(shuō),大多數軟件廠(chǎng)商所提供的數據倉庫、BI系統中都捆綁了相應的工具。其中包括:
  ·Ardent MetaStage (Infomix)
  ·IBM information Catalog
  ·Brio Enterprise
  ·Business Objects
  ·Cognos Impromptu及Powerplau
  ·Information Advantage Business Intelligence
  ·Microsoft OLAP Services ("Plato")
  ·Microstrategy DSS Web and Server

  數據倉庫是BI的基礎,就好比廚師的食材。各個(gè)數據源的數據經(jīng)ETL的預處理后,就被送進(jìn)了數據倉庫中。數據倉庫有如下4個(gè)重要特性:
 ?、倜嫦蛑黝}的:不同類(lèi)型的公司,其主題集合是不相同的。
 ?、诩傻模簲祿}庫的數據來(lái)源很廣,數據倉庫最重要的目的就是為了集成這些不同數據源的數據。
 ?、鄯且资У模汉蛡鹘y的操作型數據庫系統相比,數據倉庫通常是以批量方式載入和訪(fǎng)問(wèn)。而且,對于數據倉庫中的記錄,并不進(jìn)行一般意義上的數據更新,刪除。所有的歷史數據都會(huì )被保留,通常我們只是不停的批量導入新的數據。
 ?、茈S時(shí)間變化的:操作型數據庫系統出于性能上的考慮,并不保存系統投入運行后所產(chǎn)生的所有數據,一般只保留最新的60~90天內所產(chǎn)生的數據記錄。而且,通常情況下,操作型數據庫中一項業(yè)務(wù)活動(dòng)只占用一條記錄。當業(yè)務(wù)狀況發(fā)生變化后,我們只需更新相應的記錄。而為了按時(shí)間變化發(fā)掘業(yè)務(wù)活動(dòng)的時(shí)序規律,數據倉庫中,該業(yè)務(wù)活動(dòng)可能同時(shí)存在多條記錄,除了相應字段的內容不同外,其業(yè)務(wù)活動(dòng)的時(shí)間記錄也不相同。數據倉庫中的數據是一系列在某時(shí)某刻生成的復雜的快照,由此可見(jiàn),數據倉庫的數據是高度冗余且必須的。

  而且,由于數據倉庫的使用對象不盡相同,數據倉庫的設計需要考慮其數據單元的細節程度,即粒度。細節程度越高,粒度級就越低,反之亦然。例如:一個(gè)簡(jiǎn)單的交易處于低粒度級,而每個(gè)月所有交易的匯總則處于一個(gè)高粒度級。通常,數據分析人員使用的數據粒度較低,而高層管理人員所使用的數據粒度較高。粒度同時(shí)決定了數據倉庫所占用的物理空間的大小,盡管一條交易記錄可能只占用200個(gè)字節,但是一個(gè)月所累積的10萬(wàn)條交易記錄就占用了20M個(gè)字節。如果按月對每月的所有交易記錄進(jìn)行綜合,所得到的記錄可能只占用500個(gè)字節。

  數據倉庫通常的活動(dòng)是批量載入和查詢(xún)訪(fǎng)問(wèn),并不進(jìn)行一般意義的數據更新,而且其數據冗余程度較高。為了提高查詢(xún)效率,我們可以采用一些非常規的方法來(lái)進(jìn)行數據分區存儲。而且,我們需要對數據倉庫中的數據進(jìn)行方便且有效的監控。

  提供數據倉庫技術(shù)服務(wù)的軟件廠(chǎng)商大多是從操作型數據庫系統發(fā)展起來(lái),其推出的數據倉庫都是基于其自身研發(fā)的大型數據庫產(chǎn)品上,且捆綁了相應的ETL,元數據,OLAP,報表等工具,如IBM的DM2,SAS,Sybase,Oracle,Informix,MSSQL Server等。

  在本節末要說(shuō)明一下數據集市(Data Mark)。如果說(shuō)數據倉庫是建立在企業(yè)級的數據模型之上的話(huà)。那么數據集市就是企業(yè)級數據倉庫的一個(gè)子集,他主要面向部門(mén)級業(yè)務(wù),并且只面向某個(gè)特定的主題。數據集市可以在一定程度上緩解訪(fǎng)問(wèn)數據倉庫的瓶頸。然而,由于各個(gè)數據集市之間彼此獨立,從而形成新的“信息孤島”,也造成了重復投資。所以,目前越來(lái)越多的數據倉庫廠(chǎng)商開(kāi)始提供幫助企業(yè)用戶(hù)整合原有數據集市,構建集中數據倉庫的技術(shù)服務(wù)。在實(shí)際項目中,到底是選擇數據倉庫,還是選擇數據集市,應取決于該項目的主要商業(yè)驅動(dòng)。如果企業(yè)正忍受糟糕的數據管理和不一致的數據,希望為今后打下良好的基礎,則數據倉庫的方案比較好。如果該企業(yè)迫切需要給用戶(hù)提供信息,那么可以先構建一個(gè)數據集市。而一旦滿(mǎn)足了迫切的信息需求后,就應該考慮包含獨立數據倉庫的數據體系結構的轉換計劃。

  3)數據分析:OLAP和數據挖掘

  OLAP與數據挖掘是一個(gè)有機的整體,在OLAP中必定要針對不同的主題數據倉庫采用相應的數據挖掘算法來(lái)進(jìn)行數據分析。如果把數據倉庫對BI系統的作用比作廚師的食材,那么,OLAP和數據挖掘則是廚具。

  聯(lián)機分析處理(OLAP)的概念最早是由關(guān)系數據庫之父E.F.Codd于1993年提出的,其目的是為了讓管理者靈活地對海量數據進(jìn)行瀏覽分析。當時(shí),Codd認為聯(lián)機事務(wù)處理(OLTP)已不能滿(mǎn)足終端用戶(hù)對數據庫查詢(xún)分析的需要,SQL對大數據庫進(jìn)行的簡(jiǎn)單查詢(xún)也不能滿(mǎn)足用戶(hù)分析的需求。用戶(hù)的決策分析需要對關(guān)系數據庫進(jìn)行大量計算才能得到結果,而查詢(xún)的結果并不能滿(mǎn)足決策者提出的需求。因此Codd提出了多維數據庫和多維分析的概念,即OLAP。Codd提出OLAP的12條準則來(lái)描述OLAP系統:
  準則1 OLAP模型必須提供多維概念視圖
  準則2 透明性準則
  準則3 存取能力推測
  準則4 穩定的報表能力
  準則5 客戶(hù)/服務(wù)器體系結構
  準則6 維的等同性準則
  準則7 動(dòng)態(tài)的稀疏矩陣處理準則
  準則8 多用戶(hù)支持能力準則
  準則9 非受限的跨維操作
  準則10 直觀(guān)的數據操縱
  準則11 靈活的報表生成
  準則12 不受限的維與聚集層次

  和傳統的聯(lián)機事務(wù)處理(OLTP)相比,兩者的區別很大,具體情況如下表:

 OLTP OLAP 
 用戶(hù)
 操作人員,低層管理人員
 決策人員,高級管理人員
 
 功能  
 日常操作處理
 分析決策
 
 DB設計
 面向應用
 面向主題
 
 數據
 當前的, 最新的細節的,二維的分立的
 歷史的, 聚集的, 多維的集成的, 統一的
 
 存取
 讀/寫(xiě)數十條記錄
 讀上百萬(wàn)條記錄

 工作單位
 簡(jiǎn)單的事務(wù)
 復雜的查詢(xún)

 用戶(hù)數
 上千個(gè)
 上百個(gè)

 DB大小
 100MB ~ GB
 100GB ~ TB
 

  利用多維的概念,OLAP提供了切片、切塊、下鉆、上卷和旋轉等多維度分析與跨維度分析功能。相對于普通的靜態(tài)報表,OLAP更能滿(mǎn)足決策者和分析人員對數據倉庫數據的分析。OLAP系統架構主要分為基于關(guān)系數據庫的ROLAP(Relational OLAP)、基于多維數據庫的MOLAP(Multidimensional OLAP)、基于混合數據組織的HOLAP(Hybrid OLAP)三種。前兩種方式比較常見(jiàn)。ROLAP表示基于關(guān)系數據庫的OLAP實(shí)現。它以關(guān)系數據庫為核心,以關(guān)系型結構進(jìn)行多維數據的表示和存儲。ROLAP將多維數據庫的多維結構劃分為兩類(lèi)表:一類(lèi)是事實(shí)表,用來(lái)存儲數據和維關(guān)鍵字;另一類(lèi)是維表,即對每個(gè)維至少使用一個(gè)表來(lái)存放維的層次、成員類(lèi)別等維的描述信息。MOLAP表示基于多維數據組織的OLAP實(shí)現。它以多維數據組織方式為核心,使用多維數組存儲數據。MOLAP查詢(xún)方式采用索引搜索與直接尋址相結合的方式,比ROLAP的表索引搜索和表連接方式速度要快得多。
  
  數據挖掘(Data Mining,DM)是指從大量不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、有用的信息和知識的過(guò)程。其表現形式為概念(Concepts)、規則(Rules)、模式(Patterns)等形式。

  從商業(yè)層來(lái)看,我個(gè)人認為,在商業(yè)智能系統中進(jìn)行數據挖掘的目標大致可分為兩類(lèi):
 ?、購睦鄯e的業(yè)務(wù)數據中發(fā)掘出管理層事先不知道的、但又是潛在有用的信息,為其創(chuàng )造新的商業(yè)機會(huì )。商業(yè)銷(xiāo)售已有大量這方面的運用實(shí)例,BI業(yè)內流傳已久的“啤酒和尿布”,以及我在本文開(kāi)頭所舉的例子就屬此類(lèi)。
 ?、趶睦鄯e的業(yè)務(wù)數據中尋求最優(yōu)的資源規劃方案,降低成本,從而提高利潤。讓我們先從大家可能都想過(guò)一個(gè)例子談起——郵遞員送信,假設我是某個(gè)城市的郵遞員,一次要送出多封信件,收信人的住址分布在城市的各個(gè)街道上。那么該如何設計線(xiàn)路,來(lái)盡可能的減少行程呢?商業(yè)活動(dòng)中出現大量類(lèi)似的例子,當可供分析的數據不多時(shí),我們可以用紙筆來(lái)手工計算,找到最優(yōu)解。但是,如果原始數據量極為龐大的話(huà),我們將不得不求助于計算機了。

  目前業(yè)內已有很多成熟的數據挖掘方法論,為實(shí)際應用提供了理想的指導模型。CRISP-DM(Cross-Industry Standard Process for Data Mining)就是公認的、較有影響的方法論之一。CRISP-DM強調,DM不單是數據的組織或者呈現,也不僅是數據分析和統計建模,而是一個(gè)從理解業(yè)務(wù)需求、尋求解決方案到接受實(shí)踐檢驗的完整過(guò)程。CRISP-DM將整個(gè)挖掘過(guò)程分為以下六個(gè)階段:商業(yè)理解(Business Understanding),數據理解(Data Understanding),數據準備(Data Preparation),建模(Modeling),評估(Evaluation)和發(fā)布(Deployment)。其框架圖如下:


  商業(yè)理解就是對企業(yè)運作、業(yè)務(wù)流程和行業(yè)背景的了解;數據理解是對現有企業(yè)應用系統的了解;數據準備就是從企業(yè)大量數據中取出一個(gè)與要探索問(wèn)題相關(guān)的樣板數據子集。建模是根據對業(yè)務(wù)問(wèn)題的理解,在數據準備的基礎上,選擇一種更為實(shí)用的挖掘模型,形成挖掘的結論。評估就是在實(shí)際中檢驗挖掘的結論,如果達到了預期的效果,就可將結論發(fā)布。

  在實(shí)際項目中,一般的事務(wù)處理系統甚至一些只提供報表分析功能的簡(jiǎn)單商業(yè)智能系統,建成以后只需要少量的工程維護工作,而采用數據挖掘技術(shù)的商業(yè)智能系統往往有很大不同。因為數據挖掘是一個(gè)商業(yè)理解、數據理解、建模、評估等一系列多次反復、多次調整、不斷修訂完善的過(guò)程,并且模型的應用也不是一成不變的,在適當的時(shí)候需要更新和重建。所以一般的商業(yè)智能項目并不追求一次性工程建設,更倡導的是一種與企業(yè)業(yè)務(wù)緊密聯(lián)系能夠提升企業(yè)競爭力的咨詢(xún)服務(wù),而且熟悉業(yè)務(wù)和分析方法的分析人員在商業(yè)智能系統的應用中起著(zhù)至關(guān)重要的作用。

  從技術(shù)層來(lái)看,數據挖掘技術(shù)可分為描述型數據挖掘和預測型數據挖掘兩種。描述型數據挖掘包括數據總結、聚類(lèi)及關(guān)聯(lián)分析等。預測型數據挖掘包括分類(lèi)、回歸及時(shí)間序列分析等。
  1、數據總結:繼承于數據分析中的統計分析。數據總結目的是對數據進(jìn)行濃縮,給出它的緊湊描述。傳統統計方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類(lèi)。
  2、聚類(lèi):是把整個(gè)數據庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個(gè)群之間的數據盡量相似。這種方法通常用于客戶(hù)細分。在開(kāi)始細分之前不知道要把用戶(hù)分成幾類(lèi),因此通過(guò)聚類(lèi)分析可以找出客戶(hù)特性相似的群體,如客戶(hù)消費特性相似或年齡特性相似等。在此基礎上可以制定一些針對不同客戶(hù)群體的營(yíng)銷(xiāo)方案。
  3、關(guān)聯(lián)分析:是尋找數據庫中值的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規則和序列模式。關(guān)聯(lián)規則是尋找在同一個(gè)事件中出現的不同項的相關(guān)性;序列模式與此類(lèi)似,尋找的是事件之間時(shí)間上的相關(guān)性,如對股票漲跌的分析等。
  4、分類(lèi):目的是構造一個(gè)分類(lèi)函數或分類(lèi)模型(也常常稱(chēng)作分類(lèi)器),該模型能把數據庫中的數據項映射到給定類(lèi)別中的某一個(gè)。要構造分類(lèi)器,需要有一個(gè)訓練樣本數據集作為輸入。訓練集由一組數據庫記錄或元組構成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱(chēng)屬性或特征)值組成的特征向量,此外,訓練樣本還有一個(gè)類(lèi)別標記。一個(gè)具體樣本的形式可表示為:( v1, v2, ...,vn;c ),其中vi表示字段值,c表示類(lèi)別。
  5、回歸:是通過(guò)具有已知值的變量來(lái)預測其它變量的值。一般情況下,回歸采用的是線(xiàn)性回歸、非線(xiàn)性回歸這樣的標準統計技術(shù)。一般同一個(gè)模型既可用于回歸也可用于分類(lèi)。常見(jiàn)的算法有邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò )等。
  6、時(shí)間序列:時(shí)間序列是用變量過(guò)去的值來(lái)預測未來(lái)的值。

  早期由于數據挖掘的理論和相關(guān)技術(shù)尚不成熟,軟件廠(chǎng)商并未為其數據庫產(chǎn)品開(kāi)發(fā)相應的數據挖掘工具,但當時(shí)已有少部分大型企業(yè)有這方面的技術(shù)需求。所以,市場(chǎng)上出現了一些獨立的數據挖掘工具,如SAS公司的Enterprise Miner、IBM公司的Intelligent Miner和SPSS公司的Clementine?,F在,隨著(zhù)相關(guān)技術(shù)的日益成熟,越來(lái)越多的企業(yè)提出這樣的技術(shù)需求,軟件廠(chǎng)商也意識到其中的潛力,估計在未來(lái)的3~5年內,將會(huì )出現集成在數據倉庫中完備的數據挖掘工具。

  最后要提醒大家的是,盡管商業(yè)智能應用的前景光明,但是BI業(yè)內還沒(méi)有形成一個(gè)統一的標準。而且,由于BI系統的實(shí)施是一個(gè)長(cháng)期的、迭代的過(guò)程,企業(yè)在這個(gè)過(guò)程中肯定會(huì )出現短期利潤倒退的情況,這也在很大程度上打擊了企業(yè)的信心和實(shí)踐熱情。所以,目前絕大多數企業(yè)都對此持觀(guān)望態(tài)度,或只在有限的部門(mén)內局部實(shí)施BI。我個(gè)人認為,企業(yè)這樣做也是相當明智的。但盡管是局部實(shí)施,機會(huì )還是有的。作為技術(shù)人員,可以爭取在相關(guān)技術(shù)的研發(fā)上取得突破;作為軟件廠(chǎng)商的話(huà),則應從現有老客戶(hù)和現有產(chǎn)品的技術(shù)升級中尋求機會(huì )。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
數據倉庫學(xué)習筆記
從數據倉庫到商業(yè)智能
BI 基礎知識 一
詳解BI的功能架構和技術(shù)架構
價(jià)格與人力資源成制約BI應用普及最大因素
商業(yè)智能與風(fēng)險管理信息化
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久