欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
數據科學(xué)簡(jiǎn)化講解:原理和過(guò)程

2006年,英國數學(xué)家Clive Humbly和Tesco俱樂(lè )部卡的設計師創(chuàng )造了“數據就是新油(Data is the new oil)”這句話(huà)。他說(shuō):

“數據是新的石油。它很有價(jià)值,但如果未經(jīng)提煉就不能使用。它必須轉變?yōu)樘烊粴?,塑料,化學(xué)品等,以創(chuàng )造一個(gè)有價(jià)值的實(shí)體驅動(dòng)盈利的活動(dòng); 所以,必須對數據進(jìn)行分解和分析,才能使其具有價(jià)值?!?/em>

在本文中,我將首先介紹數據科學(xué)中的基本原理,一般過(guò)程和問(wèn)題類(lèi)型。

數據科學(xué)是一個(gè)多學(xué)科領(lǐng)域。它是以下領(lǐng)域之間的交集:

  • 商業(yè)知識
  • 機器學(xué)習
  • 計算機編程

我們的重點(diǎn)將是簡(jiǎn)化數據科學(xué)的機器學(xué)習方面。在本文中,我將首先介紹數據科學(xué)中的原理,一般過(guò)程和問(wèn)題類(lèi)型。

關(guān)鍵原理

  • 數據是一項戰略資產(chǎn):這一概念是一種組織心態(tài)。要問(wèn)的問(wèn)題是:“我們是否正在使用我們收集和存儲的所有數據資產(chǎn)?我們能從中獲取有意義的見(jiàn)解嗎?“ 我確信這些問(wèn)題的答案都是“不”。云計算的公司本質(zhì)上是數據驅動(dòng)的,將數據視為戰略資產(chǎn)是他們的心理,這種心態(tài)對大多數組織都無(wú)效。
  • 信息提取的系統過(guò)程:需要有一個(gè)有條理的過(guò)程來(lái)從數據中提取見(jiàn)解。這個(gè)過(guò)程應該有清晰明確的階段,并有明確的可交付成果??缧袠I(yè)標準數據挖掘流程(CRISP-DM)就是這樣一個(gè)過(guò)程。
  • 沉浸在數據中:組織需要投資于對數據充滿(mǎn)熱情的人。將數據轉化為見(jiàn)解并不是魔法,他們需要了解數據所產(chǎn)生的價(jià)值,他們需要能夠連接數據,技術(shù)和業(yè)務(wù)的人員。
  • 不確定性因素:數據科學(xué)不是靈丹妙藥,它不是一個(gè)水晶球。與報告和KPI一樣,它是決策促成因素。數據科學(xué)是一種工具,而不是結束的手段,它不屬于絕對領(lǐng)域,它屬于概率領(lǐng)域,管理者和決策者需要接受這一事實(shí)。他們需要在決策過(guò)程中接受量化的不確定性,如果組織采用失敗的快速學(xué)習方法,這種不確定性只能根深蒂固。只有組織選擇實(shí)驗文化,它才會(huì )蓬勃發(fā)展。
  • BAB原則:我認為這是最重要的原則。許多數據科學(xué)文獻的重點(diǎn)是模型和算法,這個(gè)等式?jīng)]有商業(yè)背景。業(yè)務(wù)分析 - 業(yè)務(wù)(BAB)是強調業(yè)務(wù)部分的原則,將它們置于業(yè)務(wù)環(huán)境中是至關(guān)重要的。定義業(yè)務(wù)問(wèn)題,使用分析來(lái)解決它。將輸出集成到業(yè)務(wù)流程中。BAB。

處理

根據第二條原則,現在讓我強調一下數據科學(xué)的過(guò)程部分。以下是一個(gè)典型的數據科學(xué)項目的階段:

1.定義業(yè)務(wù)問(wèn)題

阿爾伯特愛(ài)因斯坦曾引用“每件事都應該盡可能地簡(jiǎn)單,但不能越簡(jiǎn)單越好”。這句話(huà)是定義業(yè)務(wù)問(wèn)題的關(guān)鍵。需要開(kāi)發(fā)和構建問(wèn)題陳述,需要建立明確的成功標準。根據我的經(jīng)驗,業(yè)務(wù)團隊忙于處理他們的操作任務(wù)。這并不意味著(zhù)他們沒(méi)有需要解決的挑戰。頭腦風(fēng)暴會(huì )議,研討會(huì )和訪(fǎng)談可以幫助發(fā)現這些挑戰并提出假設。讓我用一個(gè)例子來(lái)說(shuō)明這一點(diǎn)。讓我們假設一家電信公司由于客戶(hù)群減少而導致其同比收入下降。在這種情況下,業(yè)務(wù)問(wèn)題可能定義為:

  • 該公司需要通過(guò)定位新的細分市場(chǎng)和減少客戶(hù)流失來(lái)擴大客戶(hù)群。

2.分解為機器學(xué)習任務(wù)

業(yè)務(wù)問(wèn)題一旦定義,就需要分解為機器學(xué)習任務(wù)。讓我們詳細說(shuō)明我們在上面設置的示例。如果組織需要通過(guò)定位新的細分市場(chǎng)并減少客戶(hù)流失來(lái)擴大客戶(hù)群,那么我們如何將其分解為機器學(xué)習問(wèn)題?以下是分解的示例:

  • 將客戶(hù)流失率降低x%。
  • 為目標市場(chǎng)確定新的客戶(hù)群。

3.數據準備

一旦我們定義了業(yè)務(wù)問(wèn)題并將其分解為機器學(xué)習問(wèn)題,我們就需要深入研究數據。數據理解應該明確手頭的問(wèn)題。它應該有助于我們制定正確的分析策略。需要注意的關(guān)鍵事項是數據來(lái)源,數據質(zhì)量,數據偏差等。

4.探索性數據分析

宇航員穿越宇宙的未知。同樣,數據科學(xué)家遍歷數據模式的未知,窺探其特征的奧秘并制定出未被探索的內容。探索性數據分析(EDA)是一項令人興奮的任務(wù)。我們可以更好地理解數據,研究其中的細微差別,發(fā)現隱藏的模式,開(kāi)發(fā)新特性并制定建模策略。

5.建模

在EDA之后,我們進(jìn)入建模階段。在這里,我們根據具體的機器學(xué)習問(wèn)題,我們應用有用的算法,如回歸,決策樹(shù),隨機森林等。

6.部署和評估

最后,對所開(kāi)發(fā)的模型進(jìn)行了部署。它們被持續監測,以觀(guān)察它們在現實(shí)世界中的行為,并據此進(jìn)行校準。

通常,建模和部署部分僅占工作量的20%。80%的工作是接觸數據,探索數據并理解數據。

機器學(xué)習問(wèn)題類(lèi)型

一般來(lái)說(shuō),機器學(xué)習有兩種任務(wù):

監督學(xué)習

監督學(xué)習是一種機器學(xué)習任務(wù),其中存在已定義的目標。從概念上講,建模者將監督機器學(xué)習模型以實(shí)現特定目標。監督學(xué)習可以進(jìn)一步分為兩類(lèi):

回歸

回歸是機器學(xué)習任務(wù)的主力。它們用于估計或預測數值變量?;貧w模型的幾個(gè)例子可以是:

  • 下個(gè)季度潛在收入的預測?
  • 明年能夠完成多少筆交易?

分類(lèi)

顧名思義,分類(lèi)模型對某些事物進(jìn)行了分類(lèi)。估計哪個(gè)最合適。分類(lèi)模型經(jīng)常用于所有類(lèi)型的應用程序。分類(lèi)模型的例子很少:

  • 垃圾郵件過(guò)濾是分類(lèi)模型的流行實(shí)現。在這里,根據特定特征,每個(gè)傳入的電子郵件都被歸類(lèi)為垃圾郵件或非垃圾郵件。
  • 客戶(hù)流失預測是分類(lèi)模型的另一個(gè)重要應用。在電信公司中廣泛使用的流失模型可以對給定客戶(hù)是否會(huì )流失(即停止使用服務(wù))進(jìn)行分類(lèi)。

無(wú)監督學(xué)習

無(wú)監督學(xué)習是一類(lèi)沒(méi)有目標的機器學(xué)習任務(wù)。由于無(wú)監督學(xué)習沒(méi)有任何特定目標,因此有時(shí)難以解釋其產(chǎn)生的結果。有許多類(lèi)型的無(wú)監督學(xué)習任務(wù)。關(guān)鍵是:

  • 聚類(lèi):聚類(lèi)是將類(lèi)似事物組合在一起的過(guò)程??蛻?hù)細分使用聚類(lèi)方法。
  • 關(guān)聯(lián):關(guān)聯(lián)是一種尋找經(jīng)常相互匹配的產(chǎn)品的方法。零售市場(chǎng)分析使用關(guān)聯(lián)方法將產(chǎn)品捆綁在一起。
  • 預測:預測用于發(fā)現數據項之間的連接。Facebook,亞馬遜和Netflix采用的推薦引擎大量使用鏈接預測算法來(lái)分別向我們推薦朋友、要購買(mǎi)的商品和電影。
  • 數據簡(jiǎn)化:數據簡(jiǎn)化方法用于簡(jiǎn)化從許多特征到少數特征的數據集。它使用具有許多屬性的大型數據集,并找到用更少的屬性表示它們的方法。

機器學(xué)習任務(wù)從模型到算法

一旦我們將業(yè)務(wù)問(wèn)題分解為機器學(xué)習任務(wù),一個(gè)或多個(gè)算法就可以解決給定的機器學(xué)習任務(wù)。通常,模型是在多種算法上訓練的。選擇提供最佳結果的算法或算法集用于部署。

Azure Machine Learning具有30多種預先構建的算法,可用于訓練機器學(xué)習模型。

Azure Machine Learning備忘錄將有助于瀏覽它。

結論

數據科學(xué)是一個(gè)廣闊的領(lǐng)域。這是一個(gè)令人興奮的領(lǐng)域。這是一門(mén)藝術(shù),這是一門(mén)科學(xué)。在本文中,我們剛剛探討了冰山的表面。如果不知道“為什么”,那么“如何”將是徒勞的。在隨后的文章中,我們將探討機器學(xué)習的“原理”。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久