(插播一則新聞:競拍這本《Don’t Make Me Think》,我出價(jià) RMB 85,留言的不算--不會(huì )有惡意競拍的吧? 要 Ping 過(guò)去才可以,失敗一次,再來(lái))
Craigslist 絕對是互聯(lián)網(wǎng)的一個(gè)傳奇公司。根據以前的一則報道:
每月超過(guò) 1000 萬(wàn)人使用該站服務(wù),月瀏覽量超過(guò) 30 億次,(Craigslist每月新增的帖子近 10 億條??)網(wǎng)站的網(wǎng)頁(yè)數量在以每年近百倍的速度增長(cháng)。Craigslist 至今卻只有 18 名員工(現在可能會(huì )多一些了)。
Tim O‘reilly 采訪(fǎng)了 Craigslist 的 Eric Scheide ,于是通過(guò)這篇 Database War Stories #5: craigslist 我們能了解一下 Craigslist 的數據庫架構以及數據量信息。
數據庫軟件使用 MySQL 。為充分發(fā)揮 MySQL 的能力,數據庫都使用 64 位 Linux 服務(wù)器, 14 塊 本地磁盤(pán)(72*14=1T ?), 16G 內存。
不同的服務(wù)使用不同方式的數據庫集群。
論壇
1 主(master) 1 從(slave)。Slave 大多用于備份. myIsam 表. 索引達到 17G。最大的表接近 4200 萬(wàn)行。分類(lèi)信息
1 主 12 從。 Slave 各有個(gè)的用途. 當前數據包括索引有 114 G , 最大表有 5600 萬(wàn)行(該表數據會(huì )定期歸檔)。 使用 myIsam。分類(lèi)信息量有多大? "Craigslist每月新增的帖子近 10 億條",這句話(huà)似乎似乎有些夸張,Eric Scheide 說(shuō)昨日就超過(guò) 330000 條數據,如果這樣估計的話(huà),每個(gè)月的新帖子信息大約在 1 億多一些。歸檔數據庫
1 主 1 從. 放置所有超過(guò) 3 個(gè)月的帖子。與分類(lèi)信息庫結構相似但是更大, 數據有 238G, 最大表有 9600 萬(wàn)行。大量使用 Merge 表,便于管理。搜索數據庫
4 個(gè) 集群用了 16 臺服務(wù)器?;顒?dòng)的帖子根據 地區/種類(lèi)劃分,并使用 myIsam 全文索引,每個(gè)只包含一個(gè)子集數據。該索引方案目前還能撐住,未來(lái)幾年恐怕就不成了。Authdb
1 主 1 從,很小。目前 Craigslist 在 Alexa 上的排名是 30,上面的數據只是反映采訪(fǎng)當時(shí)(April 28, 2006)的情況,畢竟,Craigslist 數據量還在每年 200% 的速度增長(cháng)。
Craigslist 采用的數據解決方案從軟硬件上來(lái)看還是低成本的。優(yōu)秀的 MySQL 數據庫管理員對于 Web 2.0 項目是一個(gè)關(guān)鍵因素。

