欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
如何做好一個(gè)垂直搜索引擎[
           

本文先引用幾句話(huà):
1.“確解用戶(hù)之意,切返用戶(hù)之需?!?br>2.“門(mén)戶(hù)網(wǎng)站都想著(zhù)是怎樣省錢(qián),而不是怎樣花錢(qián)來(lái)買(mǎi)技術(shù)?!?br>3.“搜索引擎不是人人都能做的領(lǐng)域,進(jìn)入的門(mén)檻比較高?!?br>4.“只是優(yōu)秀還不夠,最好的方式是將一件事情做到極致?!保?a target="_blank">google十大真理)
5.“做搜索引擎需要專(zhuān)注” “對于一項排到第四的業(yè)務(wù),門(mén)戶(hù)很難做到專(zhuān)注?!?br>6.“用戶(hù)無(wú)法描述道他要找什么,除非讓他看到想找的東西?!?br>7. “所謂楔形,其實(shí)就是個(gè)倒三角,倒三角的尖端部分代表搜索技術(shù),中部是基于技術(shù)的產(chǎn)品應用平臺,最上端是對整個(gè)搜索引擎用戶(hù)人群文化的認識和理解,以及現代公司競爭最關(guān)鍵也最捉摸不定的所謂品牌?!?“楔形”蘊涵的另一個(gè)意義是:楔子要打到墻里,尖端是否銳利很重要,但楔子的破壞性有多強,究竟能在墻面擠壓出多大的空間,其中端、后端的沉穩與厚重才是關(guān)鍵。


搜索引擎的技術(shù)和理念都是需要時(shí)間和經(jīng)驗的積累的,更是需要長(cháng)期不斷的完善進(jìn)步的,絕對不要認為可以一蹴而就,要達到一個(gè)相對成熟領(lǐng)先的搜索引擎從開(kāi)始到領(lǐng)先的周期一般需要是四年。著(zhù)急不得。原因是因為搜索引擎太復雜,而且“用戶(hù)無(wú)法描述他要找什么,除非讓他看到想找的東西?!?一切都需要摸索,嘗試,問(wèn)題需要一個(gè)一個(gè)解決,用戶(hù)的需要得一點(diǎn)點(diǎn)的挖掘。
搜索引擎是一個(gè)產(chǎn)品,給用戶(hù)提供服務(wù)的產(chǎn)品,需要長(cháng)期的不斷的改進(jìn)升級調整才能持續不斷的提用戶(hù)體驗,需要滿(mǎn)足用戶(hù)不斷增長(cháng)并且變化的需求、需要不斷適應網(wǎng)絡(luò )的變化。這是因為網(wǎng)絡(luò )環(huán)境是不斷變化的、網(wǎng)民的需求也是不斷變化的。千萬(wàn)不要把搜索當成項目來(lái)做,做完了撂那讓用戶(hù)去用那你肯定沒(méi)戲。在搜索引擎領(lǐng)域是講體驗的、新的引擎如果用戶(hù)體驗一旦整體上有領(lǐng)先一年以上的差距并且持續2年,那前期的領(lǐng)先者的優(yōu)勢就蕩然無(wú)存,因為搜索引擎的用戶(hù)轉移成本相對而言是比較低的而且口碑是最佳的傳播方式。如果一個(gè)搜索引擎不能持續不斷的技術(shù)創(chuàng )新理念創(chuàng )新,那對于這個(gè)搜索引擎來(lái)說(shuō)就等于死亡。我們一般形容搜索引擎的領(lǐng)先是以時(shí)間計算的。比如:中搜離百度整體差距×年,百度離google的整體差距×年,……只要你能在用戶(hù)體驗上保持一年的領(lǐng)先優(yōu)勢持續2年,不需要炒作,一切紛至沓來(lái)。在用戶(hù)體驗面前,任何的炒作都顯得很渺小。
垂直搜索引擎,麻雀雖小,但是五臟俱全。無(wú)論理念文化、產(chǎn)品管理、應用、技術(shù)都和搜索引擎的楔形理論沒(méi)有什么區別。所以要做好一垂直搜索必須解決這幾個(gè)方面。


楔形的尖:垂直搜索技術(shù)。
垂直搜索技術(shù)主要分為兩個(gè)層次:模板級和網(wǎng)頁(yè)庫級。模板級是針對網(wǎng)頁(yè)進(jìn)行模板設定或者自動(dòng)生成模板的方式抽取數據,對網(wǎng)頁(yè)的采集也是針對性的采集,適合規模比較小、信息源少且穩定的需求,優(yōu)點(diǎn)是快速實(shí)施、成本低、靈活性強,缺點(diǎn)是后期維護成本高,信息源和信息量小。網(wǎng)頁(yè)庫級就是在信息源數量上、數據容量上檢索容量上、穩定性可靠性上都是網(wǎng)頁(yè)庫搜索引擎級別的要求,和模板方式最大的區別是對具體網(wǎng)頁(yè)不依賴(lài),可針對任意正常的網(wǎng)頁(yè)進(jìn)信息采集信息抽取……。這就導致這種方式數據容量上和模板方式有質(zhì)的區別,但是其靈活性差、成本高。當然模板方式和網(wǎng)頁(yè)庫級的方式不是對立的,這兩者對于垂直搜索引擎來(lái)說(shuō)是相互補充的,因為技術(shù)只是手段,目的是切反用戶(hù)之需。本文談及的技術(shù)主要是指網(wǎng)頁(yè)庫級別垂直搜索引擎技術(shù)。
搜索引擎的確是一項對技術(shù)要求比較高的應用,幾年前相關(guān)的人才也比較少?,F在搜索技術(shù)人才多了,相關(guān)的技術(shù)和技術(shù)的應用得相對以前而言更加成熟,但是競爭也更加激烈了。垂直搜索大致需要以下技術(shù):
1. 信息采集技術(shù)
2. 網(wǎng)頁(yè)信息抽取技術(shù)
3. 信息的處理技術(shù),包括:重復識別、重復識別、聚類(lèi)、比較、分析、語(yǔ)料分析等
4. 語(yǔ)意相關(guān)性分析
5. 分詞
6. 索引
信息采集技術(shù),垂直搜索引擎spider和網(wǎng)頁(yè)庫的spider相比應該是更加專(zhuān)業(yè),可定制化??啥ㄏ蛐缘牟杉痛怪彼阉鞣秶嚓P(guān)的網(wǎng)頁(yè)忽略不相關(guān)的網(wǎng)頁(yè)和不必要的網(wǎng)頁(yè),選擇內容相關(guān)的以及適合做進(jìn)一步處理的網(wǎng)頁(yè)深度優(yōu)先采集、對頁(yè)面有選擇的調整更新頻率……,采集可通過(guò)人工設定網(wǎng)址和網(wǎng)頁(yè)分析url方式共同進(jìn)行。垂直搜索對信息的更新有著(zhù)特別的要求,根據這些特點(diǎn)可以從以下幾點(diǎn)考慮1.信息源的穩定性(不能讓信息源網(wǎng)站感覺(jué)到spider的壓力)2.抓取的成本問(wèn)題3.對用戶(hù)體驗改善程度。根據以上幾點(diǎn)制定一種比較好的策略,要做到恰到好處。策略上可以評估網(wǎng)站/網(wǎng)頁(yè)更新的系數、網(wǎng)站/網(wǎng)頁(yè)的重要系數、用戶(hù)點(diǎn)擊系數(或曝光系數)、網(wǎng)站穩定系數……,根據這些系數來(lái)確定對這些網(wǎng)站/網(wǎng)頁(yè)更新的頻率。再由于新信息和更新了的信息list頁(yè)面前面或者首頁(yè),所以對網(wǎng)頁(yè)進(jìn)行很好的分級可以以低成本很好的解決更新問(wèn)題,系數比較低的網(wǎng)頁(yè)一月update一次,稍微高點(diǎn)的一周update一次、中等的幾天到一天一次、高的幾小時(shí)到幾分鐘一次。類(lèi)似搜索引擎的大庫、周庫、日庫,小時(shí)庫……
<>基于視覺(jué)網(wǎng)頁(yè)塊分析技術(shù),模擬IE瀏覽器的顯示方式,對網(wǎng)頁(yè)進(jìn)行解析。根據人類(lèi)視覺(jué)原理,把網(wǎng)頁(yè)解析處理的結果,進(jìn)行分塊,再根據需要,對這些塊進(jìn)行處理,如:采集定向、介紹抽取和一些必要的內容的抽取正文抽取……
<>結構化信息抽取技術(shù),將網(wǎng)頁(yè)中的非結構化數據按照一定的需求抽取成結構化數據。有兩種方式,簡(jiǎn)單的就是模板方式,另外就是對網(wǎng)頁(yè)不依賴(lài)web結構化信息抽取方式,這兩種方式可以互取長(cháng)處,以最簡(jiǎn)單最有效的辦法滿(mǎn)足需求。垂直搜索引擎和通用搜索引擎最大的區別就是對網(wǎng)頁(yè)信息結構化抽取后再結構化數據進(jìn)行深度的處理,提供專(zhuān)業(yè)的搜索服務(wù)。所以web結構化信息抽取的技術(shù)水平是決定垂直搜索引擎質(zhì)量的重要技術(shù)指標。其實(shí)web結構化信息抽取在百度、google早已經(jīng)廣泛應用了,如:MP3、圖片搜索、google的本地搜索就是從網(wǎng)頁(yè)庫抽取出企業(yè)信息,添加到其地圖搜索中的,google通過(guò)這種技術(shù)正在顛覆做內容的方式。同樣的技術(shù)應用還在qihoo、sogou購物、shopping等各種應用中體現。
簡(jiǎn)單的語(yǔ)法分析,簡(jiǎn)單的語(yǔ)法分析在搜索引擎中非常重要,可以通過(guò)簡(jiǎn)單的語(yǔ)法分析來(lái)改善數據的質(zhì)量,低成本的獲得某類(lèi)信息,改善排序,尋找需要的內容……
信息處理技術(shù),信息處理包括的范圍比較廣,主要包括去重、聚類(lèi)、分析……,這根據需要相關(guān)的技術(shù)就非常多。
數據挖掘,找出您的信息的關(guān)聯(lián)性對于垂直搜索來(lái)說(shuō)非常重要,有效,可以在這些相關(guān)性上為用戶(hù)提供更細致的服務(wù)。
分詞技術(shù),面向搜索的分詞技術(shù),建立和您的行業(yè)相關(guān)的詞庫。注意這是面向搜索的分詞,不是面向識別和準確的分詞。就這個(gè)工作安排十幾個(gè)人不停的維護也不會(huì )嫌多。
索引技術(shù),索引技術(shù)對于垂直搜索非常關(guān)鍵,一個(gè)網(wǎng)頁(yè)庫級的搜索引擎必須要支持分布索引、分層建庫、分布檢索、靈活的更新、靈活的權值調整、靈活的索引和靈活的升級擴展、高可靠性穩定性冗余性。還需要支持各種技術(shù)的擴展,如偏移量計算等。
其它技術(shù),略。


垂直搜索引擎的技術(shù)評估應從以下幾點(diǎn)來(lái)判斷
1. 全面性
2. 更新性
3. 準確性
4. 功能性


鍥形的中和尾:產(chǎn)品應用平臺和對搜索引擎文化理念的理解
對于任何一個(gè)產(chǎn)品來(lái)說(shuō),產(chǎn)品的模式是最重要的,技術(shù)只是手段、工具、途徑。用戶(hù)不會(huì )關(guān)心你的技術(shù)是如何實(shí)現的、更不會(huì )關(guān)心你的技術(shù)水平是什么樣的,只要用戶(hù)感覺(jué):這就是我需要的東西,很好用,而且是最好用的。那么你的產(chǎn)品就OK了。
考慮一個(gè)產(chǎn)品的模式需要考慮的東西很多,如:用戶(hù)需要什么?需求有多大?能不能完整的實(shí)現用戶(hù)的需求?需要什么資源?怎么做到?競爭分析?差異化?根據自身情況能做到什么程度?怎么樣保持領(lǐng)先優(yōu)勢?能否收到錢(qián)?怎么樣收錢(qián)?怎么樣推廣?需要多少時(shí)間?如何保證在時(shí)間窗口期內有效完成進(jìn)度?如何分步分期優(yōu)先完成用戶(hù)最需要的需求?如何建立有效的反饋機制讓我可以了解用戶(hù)的需求變化和挖掘用戶(hù)自己也無(wú)法表達的需求?如何進(jìn)一步改善?分期需要多大的投入?如何降低整體成本和前期成本?如何分期投入?投資回報比?周期?……
1. 確解用戶(hù)之意
任何應用最難的就是了解用戶(hù)的需求,甚至是用戶(hù)自己都不知道的需求。
建立完善的、快速的用戶(hù)意見(jiàn)反饋機制和用戶(hù)需求調查機制,所有人都應傾聽(tīng)用戶(hù)的牢騷、建議。不斷的分析、修改。
2. 切返用戶(hù)之需
滿(mǎn)足用戶(hù)的需求,一切紛至沓來(lái)。不需要炒作,請把您的資源多多花費在為用戶(hù)提供良好的體驗上來(lái)。
3. 不要干擾用戶(hù)的意圖,培養用戶(hù)的使用習慣和技巧
有一個(gè)故事是這樣的:還在yahoo使用google的搜索的時(shí)候,華爾街的幾個(gè)分析師來(lái)評估這兩個(gè)搜索哪個(gè)好用,去掉logo。結果一致評價(jià)yahoo的檢索效果好。因為yahoo是使用的google檢索結果,并且對熱點(diǎn)關(guān)鍵詞進(jìn)行了人工調整。但是一轉身這些分析師回到自己的電腦邊查詢(xún)東西,不約而同的打開(kāi)了google。
4. 細節決定成敗
信息不是越多越好,在海量的信息時(shí)代,如果不能妥善的整理信息,那就等于沒(méi)有信息。每個(gè)頁(yè)面的每個(gè)字,每個(gè)像素、圖片的放置都值得花費時(shí)間去琢磨。把用戶(hù)最需要的放在最顯眼的位置,次需要的放置到更多頁(yè)面,不需要的扔掉。
5. 將一件事情做到極致
不僅僅要關(guān)注80%的用戶(hù)的80%的需求,20%的用戶(hù)的20%的需求是您成敗關(guān)鍵所在。
6. 專(zhuān)注
這么多需要你解決的問(wèn)題,你還能干其它事情?對于一個(gè)排在第四的業(yè)務(wù)你是沒(méi)有機會(huì )的。所以垂直搜索引擎的成功肯定不是具備良好資源的行業(yè)門(mén)戶(hù)、也不會(huì )是大搜索的公司,必然是專(zhuān)注于某一行業(yè)的搜索引擎公司。因為只有專(zhuān)注,才能將一件事情做到極致。
7. 創(chuàng )新
失敗不要緊,但是如果搜索引擎公司沒(méi)有創(chuàng )新,那這個(gè)搜索引擎公司必然面向的就是死亡。
8. 需要完全掌握主要技術(shù)。
一個(gè)核心業(yè)務(wù)不可能通過(guò)外包手段來(lái)解決技術(shù)問(wèn)題。雖然找個(gè)大公司外包技術(shù)看起來(lái)很美麗,很快速,甚至成本比較低。但是這是在毀滅你的將來(lái)。因為這是產(chǎn)品,不是項目。產(chǎn)品是需要不斷完善調整的,用戶(hù)的需求也是變化的需要挖掘的,互聯(lián)網(wǎng)也是變化的,你外包技術(shù)絕對不可能做到靈活、及時(shí)滿(mǎn)足各種變化。在和競爭對手競爭的時(shí)候您如何保持您的領(lǐng)先優(yōu)勢?(前文說(shuō)了,如果被對手保持領(lǐng)先一段時(shí)間,那么你之前的領(lǐng)先優(yōu)勢就蕩然無(wú)存)。這里還沒(méi)有考慮競爭問(wèn)題,購買(mǎi)其它搜索引擎公司的技術(shù),對方會(huì )不會(huì )把真正的技術(shù)毫不保留的賣(mài)給你。再說(shuō),賣(mài)你你你能搞懂嗎?技術(shù)再困難也要自行解決。否則你注定失敗。最好的辦法就是購買(mǎi)核心技術(shù)縮短研發(fā)周期、成本、風(fēng)險,再在這個(gè)核心技術(shù)進(jìn)行自主研發(fā)。
這是垂直搜索的技術(shù)門(mén)檻,看似不高,其實(shí)很高。
對于技術(shù)問(wèn)題可以迂回解決,用最簡(jiǎn)單的技術(shù)滿(mǎn)足用戶(hù)最迫切的需求。用戶(hù)是不會(huì )關(guān)心技術(shù)實(shí)現的。
模板方式可以是網(wǎng)頁(yè)結構化信息抽取技術(shù)的補充。對于可行的應用早期采用模板技術(shù)也是不錯的選擇。比如chinabbs就做的很好,用戶(hù)的主要需求是要瀏覽到好的帖子,所以加強內容的建設,找高水平的編輯做推薦,而且在界面和易用性上也很不錯。領(lǐng)先qihoo。技術(shù)方面他們初期采用的應該是模板自動(dòng)生成方式采集論壇信息,比qihoo技術(shù)水平差,但是這目前不是用戶(hù)需求的關(guān)鍵,而且qihoo技術(shù)水平層次雖然高但是如果不成熟,體現給用戶(hù)的東西未必就強。Chinabbs接下來(lái)再解決技術(shù)難點(diǎn),在技術(shù)上有提升,那么他就能持續保持領(lǐng)先優(yōu)勢了。(但是話(huà)又說(shuō)回來(lái),招聘好的編輯很容易,技術(shù)要提升一個(gè)層次并且成熟很難,而且很耗費時(shí)間,當然用戶(hù)習慣和知名度也是需要很長(cháng)時(shí)間培養的)
9. 用最簡(jiǎn)單的技術(shù)實(shí)現用戶(hù)最迫切的需要
技術(shù)重要,但是技術(shù)的使用得當更重要,技術(shù)是為用戶(hù)體驗服務(wù)的。只要能滿(mǎn)足用戶(hù)需要,什么技術(shù)都可以,簡(jiǎn)單不代表不行,用最簡(jiǎn)單的技術(shù)實(shí)現用戶(hù)最迫切的需要。百度的整體技術(shù)我認為離google中文至少有1年以上差距,很多方面差距更大,但是百度的效果比google好,原因就是將簡(jiǎn)單的技術(shù)用于實(shí)現用戶(hù)迫切的需求。
舉個(gè)我身邊的例子來(lái)描述簡(jiǎn)單的技術(shù)實(shí)現需求:我把我們的
基于視覺(jué)的網(wǎng)頁(yè)塊分析的正文抽取技術(shù)演示給一好友看,好友看后說(shuō):我們也實(shí)現了。我大驚,他們不是做搜索的,居然也實(shí)現了! 他告訴我他們實(shí)現的方法后,我再次吃驚,深感簡(jiǎn)單的技術(shù)也可以很好的解決問(wèn)題,雖然不完全解決,但是能滿(mǎn)足自己的需求就好。他們的解決方法是:對網(wǎng)頁(yè)的html進(jìn)行分析,將整段文字中沒(méi)有html代碼的文字提取出來(lái),這就是正文。(驚嘆??!如此簡(jiǎn)單??!注:他們的信息源都是這樣的格式)
10. 根據中國本土互聯(lián)網(wǎng)特點(diǎn),強力的antispam,對信息進(jìn)行清洗。
11. 很多人誤解垂直搜索就是把相關(guān)的行業(yè)網(wǎng)頁(yè)做一個(gè)采集,進(jìn)行正文抽取,實(shí)現搜索,完成信息冊查詢(xún)。其實(shí)并非如此。如果這樣無(wú)法和網(wǎng)頁(yè)搜索競爭,網(wǎng)頁(yè)搜索很容易就可以將網(wǎng)頁(yè)庫按行業(yè)分類(lèi)、按地區分類(lèi)。
    垂直搜索應該是對垂直行業(yè)信息進(jìn)行深度的加工,有效的整合,為用戶(hù)提供網(wǎng)頁(yè)搜索無(wú)法做到的專(zhuān)業(yè)性、功能性,為用戶(hù)提供深一步的服務(wù)和完整的體驗,而且不僅僅是提供信息的檢索。垂直搜索是和信息搜索有本質(zhì)的差異化的。
12.專(zhuān)注用戶(hù)體驗的改善,任何的宣傳炒作都是空乏無(wú)意義的,搜索引擎的核心在于用戶(hù)體驗,你只要改善用戶(hù)體驗,比別人強一點(diǎn)點(diǎn),那么其它人的炒作和宣傳都在為你打工



本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
如何才能做好一個(gè)垂直搜索引擎網(wǎng)易學(xué)院教程
挖掘垂直搜索金礦
中文搜索引擎研究
淺談垂直搜索引擎技術(shù)x
雅虎搜索日志劍指Google黑板報
百度性格
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久