好問(wèn)題,我會(huì )針對每個(gè)名詞進(jìn)行解析和對比,供您參考。不會(huì )像悟空上面有的回答那樣東拉西扯,文不對題,離題萬(wàn)里若等閑。
我需要重新排列下您提的幾個(gè)詞:
大數據
數據挖掘
數據分析/統計分析
機器學(xué)習
深度學(xué)習
想象一下,您是一名在頭條或者抖音工作的數據科學(xué)家。你需要做什么呢?
需要處理大數據,必須使用SQL,Python,R,C ,Java,Scala,Ruby等來(lái)編寫(xiě)計算機程序,以便僅維護大數據數據庫。
作為想要簡(jiǎn)化公司運營(yíng)的人員,你需要做數據挖掘和數據分析——可能會(huì )使用簡(jiǎn)單的軟件來(lái)執行此操作,或者運行大量其他人編寫(xiě)的代碼,或者用SQL,Python,R編寫(xiě)詳盡的代碼,進(jìn)行數據挖掘、數據清理、數據分析、建模、預測建模等。
數據分析有很多軟件可以做,Tableau是最受歡迎的一種,還有SAS。并輸出分析報告。
此外,需要能夠使用機器學(xué)習來(lái)得出結論,并在不能獲得分析答案的地方提出預測??梢詫⒎治鲂源鸢敢暈橛嬎銠C程序的[If / then]類(lèi)型,其中所有輸入條件都是已知的,并且只有幾個(gè)參數會(huì )發(fā)生變化。
機器學(xué)習使用統計分析對數據進(jìn)行分區。例如:閱讀不同人發(fā)表的評論,并根據評論預測下一個(gè)閱讀者贊同還是否定這個(gè)回答。
如果這還不夠,您還可以使用深度學(xué)習。深度學(xué)習用于處理諸如音樂(lè )文件,圖像之類(lèi)的數據,甚至諸如自然語(yǔ)言之類(lèi)的文本數據,這些數據雖然很大,但是類(lèi)型卻非常多樣。
公司外部的人可能會(huì )看到也可能不會(huì )看到您做的任何事情,但你的工作將幫助公司更好地進(jìn)行產(chǎn)品和方案設計。
為此,您可能需要大量的專(zhuān)業(yè)知識來(lái)處理數據和一些編程語(yǔ)言的知識。
在網(wǎng)上我之前看到的數據科學(xué)維恩圖(Venn Diagram)如下。數據科學(xué)家處在交匯處。交流。
“大數據”是指數據集,其大小超出了典型數據庫軟件工具的存儲、管理和分析的能力。 隨著(zhù)技術(shù)的不斷發(fā)展,符合大數據條件的數據集的大小也會(huì )增加。還應注意,定義可能因行業(yè)而異,具體取決于特定行業(yè)中常用的軟件工具種類(lèi)和數據集的大小。 有了這些警告,當今許多領(lǐng)域的大數據范圍將從幾十TB到數PB。
A/B測試
關(guān)聯(lián)規則學(xué)習
分類(lèi)分析
聚類(lèi)分析
通過(guò)將統計和機器學(xué)習方法與數據庫管理相結合,從大型數據集中提取模式的一組技術(shù)。這些技術(shù)包括關(guān)聯(lián)規則學(xué)習,聚類(lèi)分析,分類(lèi)和回歸。應用程序包括挖掘客戶(hù)數據以確定最有可能響應報價(jià)的細分市場(chǎng),挖掘人力資源數據以識別最成功的員工的特征,或進(jìn)行市場(chǎng)籃子分析以建??蛻?hù)的購買(mǎi)行為。
整合學(xué)習。
與從任何組成模型中獲得的預測模型相比,使用多個(gè)預測模型(每個(gè)模型都使用統計和/或機器學(xué)習開(kāi)發(fā))可獲得更好的預測性能。這是一種監督學(xué)習。
遺傳算法。
一種用于優(yōu)化的技術(shù),其靈感來(lái)自自然進(jìn)化或“適者生存”的過(guò)程。在該技術(shù)中,潛在的解決方案被編碼為可以結合和變異的“染色體”。選擇這些個(gè)體染色體以在模擬“環(huán)境”中生存,該“環(huán)境”決定了種群中每個(gè)個(gè)體的適應性或表現。通常被描述為一種“進(jìn)化算法”,這些算法非常適合解決非線(xiàn)性問(wèn)題。應用程序示例包括改善制造中的作業(yè)計劃并優(yōu)化投資組合的績(jì)效。
計算機科學(xué)的一個(gè)子專(zhuān)業(yè)(在歷史上稱(chēng)為“人工智能”的領(lǐng)域內)與算法的設計和開(kāi)發(fā)有關(guān),該算法允許計算機根據經(jīng)驗數據來(lái)發(fā)展行為。機器學(xué)習研究的主要重點(diǎn)是自動(dòng)學(xué)習識別復雜的模式并根據數據做出明智的決策。自然語(yǔ)言處理是機器學(xué)習的一個(gè)示例。
自然語(yǔ)言處理(NLP)。
計算機科學(xué)子專(zhuān)業(yè)中的一組技術(shù)(在歷史上稱(chēng)為“人工智能”的領(lǐng)域內)和語(yǔ)言學(xué),它們使用計算機算法來(lái)分析人類(lèi)(自然)語(yǔ)言。許多NLP技術(shù)是機器學(xué)習的類(lèi)型。 NLP的一種應用是在社交媒體上使用情緒分析來(lái)確定潛在客戶(hù)對品牌宣傳活動(dòng)的反應。通過(guò)自然語(yǔ)言處理分析的來(lái)自社交媒體的數據可以與實(shí)時(shí)銷(xiāo)售數據結合,以確定營(yíng)銷(xiāo)活動(dòng)對客戶(hù)情緒和購買(mǎi)行為產(chǎn)生何種影響。
神經(jīng)網(wǎng)絡(luò )。
計算模型受生物神經(jīng)網(wǎng)絡(luò )(即大腦內的細胞和連接)的結構和工作原理的啟發(fā),可以在數據中找到模式。神經(jīng)網(wǎng)絡(luò )非常適合查找非線(xiàn)性模式。它們可用于模式識別和優(yōu)化。一些神經(jīng)網(wǎng)絡(luò )應用程序涉及監督學(xué)習,而另一些應用程序涉及無(wú)監督學(xué)習。應用程序示例包括識別有可能離開(kāi)特定公司的高價(jià)值客戶(hù)以及識別欺詐性保險索賠。
網(wǎng)絡(luò )分析。
一組用于表征圖形或網(wǎng)絡(luò )中離散節點(diǎn)之間關(guān)系的技術(shù)。在社交網(wǎng)絡(luò )分析中,將分析社區或組織中個(gè)人之間的聯(lián)系,例如信息的傳播方式或誰(shuí)對誰(shuí)影響最大。應用程序的示例包括確定要營(yíng)銷(xiāo)目標的主要意見(jiàn)領(lǐng)袖,以及確定企業(yè)信息流中的瓶頸。
……
綜合起來(lái),您提的這幾個(gè)名詞各有定義,然鵝在實(shí)際應用中諸多交叉。
大數據是基礎數據;
大數據需要數據分析,數據挖掘是數據分析的一個(gè)方向,用到統計分析的知識;
如果數據挖掘不行,可以用機器學(xué)習來(lái)做一些應用,深度學(xué)習是機器學(xué)習領(lǐng)域延申出來(lái)的內容。
聯(lián)系客服