一、搜索引擎技術(shù)/動(dòng)態(tài)資源 <一>、綜合類(lèi) 1、盧亮的搜索引擎研究 [URL=http://www.wespoke.com/][/URL]http://www.wespoke.com/ 盧亮屬于搜索引擎開(kāi)發(fā)上的專(zhuān)家,以前開(kāi)發(fā)過(guò)一個(gè)搜索引擎"博索"([URL=http://booso.com/][/URL]http://booso.com/),好像現在已經(jīng)停止開(kāi)發(fā)了,目前他服務(wù)于博客網(wǎng)。在他的這個(gè)blog上可以了解許多搜索引擎開(kāi)發(fā)的技術(shù)和經(jīng)驗,值得持續關(guān)注。 有不少來(lái)自國外的關(guān)于搜索引擎方面的資料,偏重于資料和數字 3、哈斯日志 [URL=http://www.loverty.org/][/URL]http://www.loverty.org/ 在這里可以看到國內外幾大搜索引擎的最新動(dòng)態(tài),值得關(guān)注搜索發(fā)展形勢的人多看看 4、北京奕天銳新科技有限公司 [URL=http://www.21cnbj.com/][/URL]http://www.21cnbj.com/ 搜索引擎、SEO、SEM等行業(yè)新聞動(dòng)態(tài) 5、中文搜索引擎指南網(wǎng) [URL=http://www.sowang.com/][/URL]http://www.sowang.com/ 搜索引擎最新動(dòng)態(tài),各種搜索技巧、方法 6、中文全文檢索網(wǎng) [URL=http://www.fullsearcher.com/][/URL]http://www.fullsearcher.com/ FullSearcher.Com是有兩個(gè)對搜索愛(ài)好的年輕人創(chuàng )辦,我們的目標是讓中文互聯(lián)網(wǎng)全面進(jìn)入搜索時(shí)代,讓搜索無(wú)處不在。通過(guò)搜索改變人們的生活。
Google官方博客:Google 黑板報 [URL=http://googlechinablog.com/][/URL]http://googlechinablog.com/ Google 中國的博客網(wǎng)志,走近我們的產(chǎn)品、技術(shù)和文化 1、Gfans [URL=http://gfans.org/][/URL]http://gfans.org/ 一群Google的粉絲 這里沒(méi)有 PageRank,沒(méi)有 HillTop,沒(méi)有 SEO。如果 Google 是龍井,我希望這里便是虎跑,去化開(kāi)那馥郁如蘭之香。觀(guān)于滄海者難為水,搜于 Google 者難為言,Google 已不只是文化,他是我的信仰。 本站文章約法三章:
不得無(wú)聊轉載; 嚴禁侮辱百度。 Google天地 3、google 觀(guān)察 [URL=http://blog.donews.com/googleview/][/URL]http://blog.donews.com/googleview/ <二>、其他搜索引擎動(dòng)態(tài) 1、雅虎搜索日志 [URL=http://ysearchblog.cn/][/URL]http://ysearchblog.cn/ 記錄雅虎搜索引擎的動(dòng)態(tài)、產(chǎn)品、技術(shù)等
國外開(kāi)發(fā)的相關(guān)程序 1、Nutch 官方網(wǎng)站 [URL=http://www.nutch.org/][/URL]http://www.nutch.org/ Nutch 是一個(gè)開(kāi)源Java 實(shí)現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具,可以建立自己內部網(wǎng)的搜索引擎,也可以針對整個(gè)網(wǎng)絡(luò )建立搜索引擎。自由(Free)而免費(Free)。 2、Lucene 官方網(wǎng)站 [URL=http://lucene.apache.org/][/URL]http://lucene.apache.org Lucene 是apache軟件基金會(huì ) jakarta項目組的一個(gè)子項目,是一個(gè)開(kāi)放源代碼的全文檢索引擎工具包[用Java寫(xiě)的],即它不是一個(gè)完整的全文檢索引擎,而是一個(gè)全文檢索引擎的架構,提供了完整的查詢(xún)引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語(yǔ)言)。Lucene的目的是為軟件開(kāi)發(fā)人員提供一個(gè)簡(jiǎn)單易用的工具包,以方便的在目標系統中實(shí)現全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎。 3、Larbin: [URL=http://larbin.sourceforge.net/index-eng.html][/URL]http://larbin.sourceforge.net/index-eng.html larbin是一種開(kāi)源的網(wǎng)絡(luò )爬蟲(chóng)/網(wǎng)絡(luò )蜘蛛,由法國的年輕人 Sébastien Ailleret獨立開(kāi)發(fā)。larbin目的是能夠跟蹤頁(yè)面的url進(jìn)行擴展的抓取,最后為搜索引擎提供廣泛的數據來(lái)源。 國內開(kāi)發(fā)的相關(guān)程序 1、SQLET - 開(kāi)放源碼的中文搜索引擎 官方網(wǎng)站 [URL=http://www.sqlet.com/][/URL]http://www.sqlet.com/ SQLET,是Search & Query &Link, 加后綴 let,表示小的,小型的意思.打算建立一個(gè)能搜上億張網(wǎng)頁(yè)的基于主題功能的中文搜索引擎.支持3種索引方式:MySql_table_Index, Lucene_Index,SQLET_Index.網(wǎng)頁(yè)抓取可以保存在文件系統及數據庫里。自帶WebServer. 2、菲度垂直搜索引擎代碼 菲度[URL=http://www.faydu.net/][/URL]http://www.faydu.net 為一個(gè)垂直在線(xiàn)搜索的演示版,主要對國內一些購物站點(diǎn)進(jìn)行搜索整理, 現在開(kāi)源測試版本的代碼,供大家討論。下載說(shuō)明: 1》因為本程序是在服務(wù)器上運行,是在多個(gè)處理器下運行的,個(gè)人電腦上請控制線(xiàn)程數量 2》包含一個(gè)data 的數據庫 還原到sql server 3》收集完畢默認在bin目錄有licene生成的反排的索引文件 4》下載地址:[URL=http://www.faydu.net/download/code.rar][/URL]http://www.faydu.net/download/code.rar 開(kāi)放日期:2006-4-18 來(lái)源:http://blog.csdn.net/faydu/archive/2006/04/18/667997.aspx 二>、中文分詞程序代碼 1、計算所漢語(yǔ)詞法分析系統 ICTCLAS 中國科學(xué)院計算技術(shù)研究所在多年研究基礎上,耗時(shí)一年研制出了基于多層隱馬模型的漢語(yǔ)詞法分析系統 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統的功能有:中文分詞;詞性標注;未登錄詞識別。分詞正確率高達97.58%(最近的973專(zhuān)家組評測結果),基于角色標注的未登錄詞識別能取得高于90%召回率,其中中國人名的識別召回率接近98%,分詞和詞性標注處理速度為31.5KB/s。ICTCLAS 和計算所其他14項免費發(fā)布的成果被中外媒體廣泛地報道,國內很多免費的中文分詞模塊都或多或少的參考過(guò)ICTCLAS的代碼。 下載頁(yè)面:[URL=http://www.nlp.org.cn/project/project.php?proj_id=6][/URL]http://www.nlp.org.cn/project/project.php?proj_id=6 由于 ICTCLAS 是由 C 語(yǔ)言寫(xiě)成的,現在主流的開(kāi)發(fā)工具用起來(lái)不太方便,于是有一些熱心的程序員把 ICTCLAS 改為 Java 和 C# 等其他語(yǔ)言。 (1)fenci,Java 的 ICTCLAS,下載頁(yè)面:[URL=http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502][/URL]http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502 (2)AutoSplit,另一個(gè) Java 的 ICTCLAS,已經(jīng)找不到下載頁(yè)面,點(diǎn)擊本地下載 (3)小叮咚中文分詞,曾經(jīng)有下載頁(yè)面,現在找不到了。據作者介紹,從 ICTCLAS 中改進(jìn),有 Java,C# 和 C++ 三個(gè)版本,介紹頁(yè)面:[URL=http://www.donews.net/accesine][/URL]http://www.donews.net/accesine 2、海量智能分詞研究版 海量智能計算技術(shù)研究中心為了使中文信息處理領(lǐng)域的研究者們能夠共同分享海量智能中心的研究成果,共同提高中文信息處理水平,特此發(fā)布《海量智能分詞研究版》,供專(zhuān)家、學(xué)者和愛(ài)好者進(jìn)行研究。 下載頁(yè)面:[URL=http://www.hylanda.com/cgi-bin/download/download.asp?id=8][/URL]http://www.hylanda.com/cgi-bin/download/download.asp?id=8
(1)CSW中文智能分詞組件 運行環(huán)境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微軟的開(kāi)發(fā)語(yǔ)言中調用。 簡(jiǎn)介: CSW中文智能分詞DLL組件,可將一段文本自動(dòng)的按常規漢語(yǔ)詞組進(jìn)行拆分,并以指定方式進(jìn)行分隔,且可對其拆分后的詞組進(jìn)行語(yǔ)義、詞頻標注。其廣范應用于各行各業(yè)的信息資料檢索、分析。 下載頁(yè)面:[URL=http://www.vgoogle.net/][/URL]http://www.vgoogle.net/ (2) C# 寫(xiě)的中文分詞組件 據作者介紹,一個(gè) DLL 文件,可以做中英文分詞組件。完全C#托管代碼編寫(xiě),獨立開(kāi)發(fā)。 下載頁(yè)面:[URL=http://www.rainsts.net/article.asp?id=48][/URL]http://www.rainsts.net/article.asp?id=48 三>、開(kāi)源spider一覽 spider是搜索引擎的必須模塊.spider數據的結果直接影響到搜索引擎的評價(jià)指標. 第一個(gè)spider程序由MIT的Matthew K Gray操刀該程序的目的是為了統計互聯(lián)網(wǎng)中主機的數目 Spier定義(關(guān)于Spider的定義,有廣義和狹義兩種). 狹義:利用標準的http協(xié)議根據超鏈和web文檔檢索的方法遍歷萬(wàn)維網(wǎng)信息空間的軟件程序. Heritrix Heritrix is the Internet Archive\‘s open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix/heratix) is an archaic word for heiress (woman who inherits). Since our crawler seeks to collect and preserve the digital artifacts of our culture for the benefit of future researchers and generations, this name seemed apt. 語(yǔ)言:JAVA, (下載地址) WebLech URL Spider 語(yǔ)言:JAVA, (下載地址) JSpider A Java implementation of a flexible and extensible web spider engine. Optional modules allow functionality to be added (searching dead links, testing the performance and scalability of a site, creating a sitemap, etc ..
WebSPHINX WebSPHINX is a web crawler (robot, spider) Java class library, originally developed by Robert Miller of Carnegie Mellon University. Multithreaded, tollerant HTML parsing, URL filtering and page classification, pattern matching, mirroring, and more.
PySolitaire PySolitaire is a fork of PySol Solitaire that runs correctly on Windows and has a nice clean installer. PySolitaire (Python Solitaire) is a collection of more than 300 solitaire and Mahjongg games like Klondike and Spider.
The Spider Web Network Xoops Mod Team The Spider Web Network Xoops Module Team provides modules for the Xoops community written in the PHP coding language. We develop mods and or take existing php script and port it into the Xoops format. High quality mods is our goal.
Fetchgals A multi-threaded web spider that finds free porn thumbnail galleries by visiting a list of known TGPs (Thumbnail Gallery Posts). It optionally downloads the located pictures and movies. TGP list is included. Public domain perl script running on Linux.
語(yǔ)言:perl , (下載地址)
The purpose of the Where Spider software is to provide a database system for storing URL addresses. The software is used for both ripping links and browsing them offline. The software uses a pure XML database which is easy to export and import. 語(yǔ)言:XML , (下載地址)
Sperowider Website Archiving Suite is a set of Java applications, the primary purpose of which is to spider dynamic websites, and to create static distributable archives with a full text search index usable by an associated Java applet. 語(yǔ)言:Java , (下載地址) SpiderPy SpiderPy is a web crawling spider program written in Python that allows users to collect files and search web sites through a configurable interface. 語(yǔ)言:Python , (下載地址)
Spider is a complete standalone Java application designed to easily integrate varied datasources. * XML driven framework * Scheduled pulling * Highly extensible * Provides hooks for custom post-processing and configuration 語(yǔ)言:Java , (下載地址)
WebLoupe is a java-based tool for analysis, interactive visualization (sitemap), and exploration of the information architecture and specific properties of local or publicly accessible websites. Based on web spider (or web crawler) technology. 語(yǔ)言:java , (下載地址) ASpider Robust featureful multi-threaded CLI web spider using apache commons httpclient v3.0 written in java. ASpider downloads any files matching your given mime-types from a website. Tries to reg.exp. match emails by default, logging all results using log4j. 語(yǔ)言:java , (下載地址) larbin Larbin is an HTTP Web crawler with an easy interface that runs under Linux. It can fetch more than 5 million pages a day on a standard PC (with a good network). 語(yǔ)言:C++, (下載地址)
1、域名信息查詢(xún) ★ 查詢(xún)國際頂級域名的信息(.aero, .arpa, .biz, .com, .coop, .edu, .info, .int, .museum, .net, .org),可以通過(guò)ICANN授權的域名注冊商來(lái)查詢(xún),也可以直接到INTERNIC網(wǎng)站查詢(xún),網(wǎng)址是 [URL=http://www.internic.com/whois.html][/URL]http://www.internic.com/whois.html [URL=http://www.iwhois.com/][/URL]http://www.iwhois.com/ ★ 查詢(xún)全球各個(gè)地理頂級域名是否已經(jīng)被注冊可以到下列網(wǎng)址查詢(xún)(其中也包括國內域名.cn): [URL=http://www.uwhois.com/cgi/domains.cgi?User=NoAds][/URL]http://www.uwhois.com/cgi/domains.cgi?User=NoAds ★ 查詢(xún)國內域名的注冊情況, [URL=http://ewhois.cnnic.net.cn/index.jsp][/URL]http://ewhois.cnnic.net.cn/index.jsp ★ 萬(wàn)網(wǎng)的域名注冊信息查詢(xún) [URL=http://www.net.cn/][/URL]http://www.net.cn/ ★ IP地址查詢(xún)、域名注冊信息Whois查詢(xún) [URL=http://ip.zahuopu.com/][/URL]http://ip.zahuopu.com/
★ 中文排名500強 [URL=http://www.alexa.com/site/ds/top_sites?ts_mode=lang&lang=zh_gb2312][/URL]http://www.alexa.com/site/ds/top_sites?ts_mode=lang&lang=zh_gb2312 ★ Google Zeitgeist--Google搜索排行榜 [URL=http://www.google.com/press/intl-zeitgeist.html#cn][/URL]http://www.google.com/press/intl-zeitgeist.html#cn ★ 百度中文搜索風(fēng)云榜 [URL=http://top.baidu.com/][/URL]http://top.baidu.com/ ★ 雅虎搜索排行榜 [URL=http://misc.yahoo.com.cn/top_index.html][/URL]http://misc.yahoo.com.cn/top_index.html ★ 搜狗搜索指數 [URL=http://www.sogou.com/top/][/URL]http://www.sogou.com/top/ 3、搜索關(guān)鍵詞查詢(xún) ★ google關(guān)鍵字查詢(xún) https://adwords.google.com/select/KeywordSandbox 4、seo項目/工具 ★網(wǎng)頁(yè)質(zhì)量 [URL=http://category.booso.com/cgi-bin/category/category.cgi][/URL]http://category.booso.com/cgi-bin/category/category.cgi ★Google Dance查詢(xún)工具:[URL=http://www.google-dance-tool.com/][/URL]http://www.google-dance-tool.com/ 5、seo網(wǎng)站 英文網(wǎng)站: 搜索觀(guān)察 [URL=http://www.searchenginewatch.com/][/URL]http://www.searchenginewatch.com/ 中文網(wǎng)站 1>美國尚奇公司 [URL=http://www.zunch.cn/][/URL]http://www.zunch.cn 全球領(lǐng)先的網(wǎng)站設計和搜索引擎優(yōu)化服務(wù)公司 ,目前中國區負責人為--柳煥斌 尚奇博客社區 blog.zunch.cn 2>搜索引擎優(yōu)化交流中心 [URL=http://www.seoonline.cn/][/URL]http://www.seoonline.cn SEO從業(yè)者網(wǎng)站 1>尚奇中國區負責人為--柳煥斌 [URL=http://blog.zunch.cn/category/robinliu/][/URL]http://blog.zunch.cn/category/robinliu/ 2>seo專(zhuān)業(yè)人士--bianyue [URL=http://www.bianyue.com/][/URL]http://www.bianyue.com/
四、各大搜索引擎公司相關(guān)資料 1、聯(lián)系方式 [URL=http://www.google.com/intl/zh-CN/contact.html][/URL]http://www.google.com/intl/zh-CN/contact.html [URL=http://d.baidu.com/contact/index.html][/URL]http://d.baidu.com/contact/index.html [URL=http://cn.yahoo.com/docs/sales/040203_contact.htm][/URL]http://cn.yahoo.com/docs/sales/040203_contact.htm [URL=http://www.zhongsou.com/kefu/kfzs.htm][/URL]http://www.zhongsou.com/kefu/kfzs.htm [URL=http://www.sohu.com/about/lianxi.htm][/URL]http://www.sohu.com/about/lianxi.htm [URL=http://ads.sina.com.cn/contact.html][/URL]http://ads.sina.com.cn/contact.html [URL=http://so.163.com/contactus.shtml][/URL]http://so.163.com/contactus.shtml |
聯(lián)系客服