欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
信息平臺和數據科學(xué)家的興起

信息平臺和數據科學(xué)家的興起

作者: chenqiuge 分類(lèi):熱點(diǎn)報道   閱讀:1,122 次 添加評論

文 / Jeff Hammerbacher

Facebook有了“自知之明”

在2005年9月,Facebook首次向非大學(xué)生公開(kāi),允許高中生注冊賬號。忠實(shí)的用戶(hù)憤怒了,但Facebook團隊認為這是為網(wǎng)站做出的正常方向。那么它該如何證明它的方案是正確的呢?

此外,在幾乎所有可登錄Facebook網(wǎng)站的學(xué)校中,Facebook已經(jīng)滲入學(xué)生當中,但還是在有部分學(xué)校中,該網(wǎng)站一直不受青睞。和那些更成功的網(wǎng)絡(luò )相比,這些落后的網(wǎng)絡(luò )對于Facebook有什么區別呢?Facebook團隊應該如何做才能激勵他們的成功?

當我在2006年2月參加Facebook面試時(shí),他們正積極地期望找到這些問(wèn)題的答案。我曾在大學(xué)學(xué)習數學(xué),在華爾街工作近一年,工作內容是構建模型來(lái)預測利率、價(jià)格復雜的衍生產(chǎn)品和對沖抵押貸款池;有一定編程經(jīng)驗,GPA成績(jì)“暗淡”。雖然我的背景可能不太理想,但是Facebook卻給了我研究科學(xué)家的職位。

幾乎同時(shí),Facebook聘用了一位報告分析主管。該主管在解決問(wèn)題方面的經(jīng)驗遠遠超過(guò)我。我們和另外一位工程師一起,開(kāi)始著(zhù)手構建一個(gè)數據收集和存儲平臺,以便找到我們產(chǎn)品以上問(wèn)題的答案。

我們第一個(gè)嘗試是構建一個(gè)離線(xiàn)信息庫,其涉及兩個(gè)方面:一是用Python腳本把查詢(xún)分發(fā)到Facebook的MySQL服務(wù)器層,二是采用C++實(shí)現守護進(jìn)程,實(shí)時(shí)地處理事件日志。當腳本可以如期運行,我們每天收集大約10GB的數據。我后來(lái)明白系統的這部分通常稱(chēng)為“ETL”過(guò)程,即抽取、轉換和加載。

Python腳本和C++守護進(jìn)程從Facebook的數據源系統中抽取數據,然后這些數據又被加載到MySQL數據庫用于離線(xiàn)查詢(xún)。我們在包含這些數據的MySQL上又運行了一些腳本和查詢(xún),對數據進(jìn)行聚集,以便得到更有用的表現方式。這種用于決策支持的離線(xiàn)數據庫即“數據倉庫”。

最后,通過(guò)簡(jiǎn)單的PHP腳本把數據從離線(xiàn)的MySQL數據庫抽取出來(lái),向內部用戶(hù)展示收集到的信息摘要(Summary)。這是我們第一次可以回答網(wǎng)站特性對用戶(hù)行為的影響。早期通過(guò)以下幾種渠道分析最大化增長(cháng):登出用戶(hù)的默認頁(yè)面的布局、邀請來(lái)源、Email聯(lián)系方式導入器的設計。除了以上分析,我們開(kāi)始通過(guò)歷史數據開(kāi)發(fā)簡(jiǎn)單的產(chǎn)品,包括對贊助商成員特性進(jìn)行聚集的內部項目。實(shí)踐證明,該項目很受品牌廣告商歡迎。

我那時(shí)沒(méi)有意識到,實(shí)際上,通過(guò)ETL框架、數據倉庫和內部控制臺,我們已經(jīng)構建了一個(gè)簡(jiǎn)單的“商業(yè)智能”系統。

“獵豹”和“大象”(譯注1)

從第一天開(kāi)始對Facebook的點(diǎn)擊流寫(xiě)日志起,到現在我們已經(jīng)收集了超過(guò)400GB的數據。對該數據集的加載、索引和聚集操作對Oracle數據庫的負載很重。雖然做了很多優(yōu)化操作,但是我們還是無(wú)法在24小時(shí)內完成對一天的點(diǎn)擊流的聚集操作。很顯然,我們需要把日志文件聚集到數據庫外,只在數據庫中保存摘要信息供后期查詢(xún)。

幸運的是,一個(gè)來(lái)自某大型網(wǎng)站的頂尖工程師加入了我們團隊,他有過(guò)處理大規模Web點(diǎn)擊流的經(jīng)驗。僅僅幾周的時(shí)間,該工程師就構建了一個(gè)名為Cheetah(獵豹)的并發(fā)日志處理系統,該系統能夠在兩個(gè)小時(shí)內處理一天的點(diǎn)擊流。這實(shí)在太讓人振奮了。

但是,Cheetah存在一些不足:首先,在處理完點(diǎn)擊流數據后,原始數據還是以歸檔方式保存,不能夠被再次查詢(xún)。此外,Cheetah是從一個(gè)共享的NetApp歸檔數據中獲取點(diǎn)擊流數據,而NetApp歸檔數據的讀帶寬受限。每個(gè)日志文件的“模式”是嵌入在處理腳本中,而不是保存為可查詢(xún)格式。我們沒(méi)有收集進(jìn)程信息,而是通過(guò)Unix基礎工具cron來(lái)調Cheetah任務(wù),因此無(wú)法應用復雜的加載共享邏輯。最重要的是,Cheetah不是開(kāi)源的。我們團隊很小,資源有限,無(wú)法分配更多的資源來(lái)開(kāi)發(fā)、維護和給新用戶(hù)培訓使用Cheetah系統。

Apache的Hadoop項目,由Doug Cutting和Mike Cafarella于2005年末啟動(dòng),是我們取代Cheetah的最佳選擇。以Doug的孩子的玩具大象命名,Hadoop項目的目標是實(shí)現遵從Apache2.0許可的G公司的分布式文件系統和MapReduce技術(shù)。雅虎在2006年1月聘用了Doug Cutting,并投入了大量的工程資源來(lái)開(kāi)發(fā)Hadoop。在2006年4月,該軟件使用188臺服務(wù)器,能夠在47小時(shí)內,對1.9TB的數據進(jìn)行排序。雖然Hadoop的設計在很多方面優(yōu)于Cheetah,但它在那時(shí)還太慢了,不能夠滿(mǎn)足我們的需求。在2008年4月,Hadoop用910臺服務(wù)器,可以在209秒內對1TB的數據進(jìn)行排序。由于Hadoop性能的改進(jìn),我說(shuō)服了運行組團隊利用60臺Web服務(wù)器和3臺500GB的SATA驅動(dòng)器,開(kāi)始在Facebook第一次部署Hadoop集群。

在最開(kāi)始, 我們通過(guò)流方式在Hadoop和Cheetah中都導入一部分日志。Hadoop增強的編程能力加上其能夠查詢(xún)歷史數據,從而推動(dòng)了一些其他有趣的項目。其中一個(gè)應用是對所有Facebook用戶(hù)交互的有向對進(jìn)行打分來(lái)確定這些用戶(hù)的親密程度;這個(gè)分數可以被用于搜索和新聞?dòng)嗛喌呐判?。過(guò)了一段時(shí)間,我們把所有的Cheetah工作流都遷移到Hadoop上,廢棄了前者。后來(lái),事務(wù)數據庫收集程序也都遷移到了Hadoop。

有了Hadoop,Facebook的基礎設施可以支持對無(wú)結構化和結構化的數據的大規模分析。隨著(zhù)平臺擴展為每天幾百TB的數據規模,可以執行成千上萬(wàn)個(gè)任務(wù),我們發(fā)現由于現在系統能夠存儲和檢索的數據規模很大,我們可以構建新的應用,探索新問(wèn)題的答案。

當Facebook向所有的用戶(hù)開(kāi)放注冊,用戶(hù)數在一些國家增長(cháng)迅猛。但是在那時(shí),我們無(wú)法根據國家執行點(diǎn)擊流粒度分析。自從有了Hadoop集群,我們可以通過(guò)加載所有的歷史訪(fǎng)問(wèn)日志到Hadoop,寫(xiě)一些簡(jiǎn)單的MapReduce任務(wù)來(lái)重新分析Facebook在一些國家,如加拿大和挪威增長(cháng)迅猛的原因。

Facebook的用戶(hù)每天都有幾百萬(wàn)半公開(kāi)的對話(huà)。據一次內部估算,留言板的數據量是博客的10倍!但是,這些對話(huà)的內容還是無(wú)法進(jìn)行訪(fǎng)問(wèn)用來(lái)數據分析。在2007年,一個(gè)對語(yǔ)言學(xué)和統計學(xué)有強烈興趣的暑期實(shí)習生Roddy Lindsay加入了數據組。通過(guò)Hadoop,Roddy能夠獨立構建一個(gè)強大的趨勢分析系統,該系統名為L(cháng)exicon,每天晚上能夠處理TB級別的留言板數據。

在為Facebook應用構建信譽(yù)積分系統時(shí),我們證明了把不同系統的數據存儲到相同的存儲庫中會(huì )導致嚴重的問(wèn)題。在2007年5月啟動(dòng)了Facebook平臺后不久,我們的用戶(hù)就被“淹沒(méi)”在添加應用的請求中。我們很快意識到需要添加一個(gè)工具來(lái)識別有用的應用和用戶(hù)認為是spam的應用。通過(guò)收集API服務(wù)器的數據、用戶(hù)信息以及來(lái)自網(wǎng)站本身的行為數據,系統能夠構建一個(gè)模型對應用進(jìn)行打分,這使得系統可以分發(fā)我們認為對用戶(hù)最有用的應用邀請。

新工具和應用研究

在Facebook,絕大部分Hadoop集群的早期用戶(hù)都是渴望追求新興技術(shù)的工程師。為了使企業(yè)的更多人可以訪(fǎng)問(wèn)信息,我們在Hadoop上構建了一個(gè)數據倉庫框架,并稱(chēng)為Hive。

Hive的查詢(xún)語(yǔ)言類(lèi)似于SQL,支持嵌入MapReduce邏輯、表分區、抽樣和處理任意序列化數據的能力。最后一個(gè)特征至關(guān)重要,因為收集到Hadoop的數據在結構上不斷變化;允許用戶(hù)指定自己的序列化模式,可以使我們把為數據指定結構問(wèn)題轉為把數據加載到Hive。此外,我們還實(shí)現了一個(gè)簡(jiǎn)單的用戶(hù)界面來(lái)構建Hive查詢(xún),名為Hipal。使用這些新的工具,市場(chǎng)、產(chǎn)品管理、銷(xiāo)售和客戶(hù)服務(wù)的非工程師都能夠在幾TB的數據上自己執行查詢(xún)。經(jīng)過(guò)幾個(gè)月的內部使用后,在A(yíng)pache2.0許可下,Hive成為Hadoop的官方子系統,現在仍然在積極地開(kāi)發(fā)中。

除了Hive,我們構建了分享圖表和圖形的門(mén)戶(hù)Argus(受IBM的Many Eyes 項目啟發(fā)) 、工作流管理系統Databee、用Python寫(xiě)MapReduce腳本的框架PyHive、為終端用戶(hù)提供結構化數據服務(wù)的存儲系統Cassandra(現在作為開(kāi)源,在A(yíng)pache孵化器中)。

隨著(zhù)這些新系統的穩定,我們最終構建了由單一Hadoop集群管理的多層模式的數據。企業(yè)中的所有數據,包括應用日志、事務(wù)數據庫和Web爬蟲(chóng),都以原始數據格式,定期收集到Hadoop分布式文件系統中。夜間執行的幾萬(wàn)個(gè)Databee進(jìn)程將把一部分數據轉化為結構化格式,把它放入由Hive管理的HDFS文件目錄中。在Hive中執行下一步聚集操作,用來(lái)生成Argus服務(wù)報表。此外,在HDFS內,在自己的home目錄下維護“沙盒”的工程師可以運行原型任務(wù)。

目前,Hadoop包含了將近2.5PB的數據,而且以每天15TB的數量級增加。每天都有3000個(gè)以上的MapReduce任務(wù)在運行,處理55TB的數據。為了適應這些運行在集群上的任務(wù)的不同優(yōu)先級,我們構建了作業(yè)調度器,實(shí)現在多個(gè)隊列上的資源共享。

除了支持內部和外部的報表、a/b測試管道和很多不同的數據密集型產(chǎn)品和服務(wù),Facebook的Hadoop集群可以實(shí)現一些有趣的應用研究項目。

由數據科學(xué)家Itamar Rosenn 和Cameron Marlow主持的一個(gè)縱向研究項目用于預測長(cháng)期的用戶(hù)參與的最重要的因素是什么。我們使用信息平臺來(lái)選擇一些用戶(hù)的樣本,刪除游離點(diǎn),并對參與度的不同尺度使用一些最小角度回歸技術(shù)來(lái)生成大量的特性。有些特性能夠通過(guò)Hadoop生成,包含計算好友網(wǎng)絡(luò )密度的各種尺度和基于信息特性的用戶(hù)范圍。

另一個(gè)探索激勵新用戶(hù)貢獻內容的動(dòng)機的內部研究,在2009年CHI 會(huì )議的論文“Feed Me: Motivating Newcomer Contribution in Social Network Sites”中有描述。Fa c ebook數據組的一個(gè)更新的研究是查看信息流是如何在Facebook的社會(huì )圖中流動(dòng),該研究的標題為“Gesundheit! Modeling Contagion through Facebook News Feed”,已被2009 ICWSM會(huì )議接收。

在Facebook,每天收集證據、測試假設、構建應用和使用共享的信息平臺生成新的洞察。而在Facebook之外,其他公司也同時(shí)構建了類(lèi)似的系統。

數據科學(xué)家

在最近的訪(fǎng)談中,G公司首席經(jīng)濟學(xué)家Hal Varian強調了員工需要能夠從之前描述的信息平臺中抽取信息。正如Varian所言:“找到能夠為一些變得普遍且廉價(jià)的東西提供稀缺、互補的服務(wù)。那么,是什么變得普遍且廉價(jià)?數據。是什么與數據相輔相成?分析。”

在Facebook,我們發(fā)現傳統的頭銜如商業(yè)分析師、統計學(xué)家、工程師和研究科學(xué)家都不能確切地定義我們團隊的角色。該角色的工作是變化多樣的:在任意給定的一天,團隊的一個(gè)成員可以用Python實(shí)現一個(gè)多階段的處理管道流、設計假設檢驗、用工具R在數據樣本上執行回歸測試、在Hadoop上為數據密集型產(chǎn)品或服務(wù)設計和實(shí)現算法,或者把我們分析的結果以清晰簡(jiǎn)潔的方式展示給企業(yè)的其他成員。為了掌握完成這多方面任務(wù)需要的技術(shù),我們創(chuàng )造了“數據科學(xué)家”這種角色。

在金融服務(wù)領(lǐng)域已經(jīng)構建了歷史市場(chǎng)行為的大數據存儲作為該領(lǐng)域的數據科學(xué)家, 即數據分析專(zhuān)家(Quants),來(lái)開(kāi)發(fā)新模型的實(shí)驗場(chǎng)。在工業(yè)以外,我發(fā)現在很多科學(xué)領(lǐng)域,研究生扮演著(zhù)數據科學(xué)家的角色。Facebook數據組團隊的其中一員曾在生物信息實(shí)驗室工作過(guò),在那里他構建過(guò)數據管道流,并做類(lèi)似的離線(xiàn)數據分析。在CERN,著(zhù)名的Large Hadron Collider生成大量的數據,這些數據是由一群追求突破的研究生精心收集和鉆研的。

最近新出的書(shū)如Davenport和Harris合著(zhù)的《Competing on Analytics》(哈佛商學(xué)院出版社,2007),Baker的《The Numerati》(Houghton Mifflin Harcourt,2008)以及Ayres的《Super Crunchers》(Bantam,2008)都強調了在跨工業(yè)中數據科學(xué)家的重要性,他們在促進(jìn)企業(yè)基于收集到的信息做出改進(jìn)發(fā)揮了至關(guān)重要的作用。和研究社區在數據空間的調研一起,數據科學(xué)家在今后幾年需要進(jìn)一步的定義。通過(guò)更好的闡明數據科學(xué)家角色,我們可以建設培訓課程、制定廣告層次、組織會(huì )議、寫(xiě)書(shū)以及為任何被認可的行業(yè)做補充。在這個(gè)過(guò)程中,可行的數據科學(xué)家組織將會(huì )不斷擴展,用來(lái)滿(mǎn)足飛速增殖的數據平臺上不斷增長(cháng)的專(zhuān)業(yè)“領(lǐng)航員”需求,進(jìn)一步加速跨企業(yè)的學(xué)習過(guò)程。

結論

當面對在Facebook構建一個(gè)信息平臺的挑戰時(shí),我發(fā)現觀(guān)察別人是如何跨越時(shí)間和問(wèn)題領(lǐng)域來(lái)解決相同的問(wèn)題是很有幫助的。作為工程師,我最初的做法是通過(guò)已有可得的技術(shù)作為指導,這在現在看來(lái)顯得有點(diǎn)目光短淺。最大的挑戰是一直致力于研究構建“學(xué)習型組織”的基礎平臺和人員構成這個(gè)大的問(wèn)題,而不是某些特定的技術(shù)系統,如數據倉庫或企業(yè)搜索系統。

我確信構建信息平臺采用的硬件和軟件將會(huì )迅速演化,并且數據科學(xué)家需要掌握的技術(shù)也將以同樣的速度變化。保持致力于加速學(xué)習過(guò)程的目標對于企業(yè)組織和科學(xué)都有幫助。未來(lái)屬于數據科學(xué)家!

譯注1 : 獵豹和大象在此采用了借代的修辭方法。獵豹(cheetah)指的是Facebook的The Cheetah日志處理系統,大象(elephant)則代指的是Hadoop項目。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
Hadoop/Hive簡(jiǎn)介
2017年大數據生態(tài)圈三強榜單已出,快來(lái)看看都有誰(shuí)?
大數據時(shí)代銀行業(yè)的機遇與挑戰
一共81個(gè),開(kāi)源大數據處理工具匯總(上)
Facebook數據專(zhuān)家:處理大數據,僅有Hadoop是不夠的
Facebook數據倉庫揭秘:RCFile高效存儲結構
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久