引言
數據庫的設計范式是數據庫設計所需要滿(mǎn)足的規范,滿(mǎn)足這些規范的數據庫是簡(jiǎn)潔的、結構明晰的,同時(shí),不會(huì )發(fā)生插入(insert)、刪除(delete)和更新(update)操作異常。反之則是亂七八糟,不僅給數據庫的編程人員制造麻煩,而且面目可憎,可能存儲了大量不需要的冗余信息。
設計范式是不是很難懂呢?非也,大學(xué)教材上給我們一堆數學(xué)公式我們當然看不懂,也記不住。所以我們很多人就根本不按照范式來(lái)設計數據庫。
實(shí)質(zhì)上,設計范式用很形象、很簡(jiǎn)潔的話(huà)語(yǔ)就能說(shuō)清楚,道明白。本文將對范式進(jìn)行通俗地說(shuō)明,并以筆者曾經(jīng)設計的一個(gè)簡(jiǎn)單論壇的數據庫為例來(lái)講解怎樣將這些范式應用于實(shí)際工程。
范式說(shuō)明 第一范式(1NF):數據庫表中的字段都是單一屬性的,不可再分。這個(gè)單一屬性由基本類(lèi)型構成,包括整型、實(shí)數、字符型、邏輯型、日期型等。
例如,如下的數據庫表是符合第一范式的:
而這樣的數據庫表是不符合第一范式的:
| 字段1 | 字段2 | 字段3 | 字段4 |
| | | 字段3.1 | 字段3.2 | |
很顯然,在當前的任何關(guān)系數據庫管理系統(DBMS)中,傻瓜也不可能做出不符合第一范式的數據庫,因為這些DBMS不允許你把數據庫表的一列再分成二列或多列。因此,你想在現有的DBMS中設計出不符合第一范式的數據庫都是不可能的。
第二范式(2NF):數據庫表中不存在非關(guān)鍵字段對任一候選關(guān)鍵字段的部分函數依賴(lài)(部分函數依賴(lài)指的是存在組合關(guān)鍵字中的某些字段決定非關(guān)鍵字段的情況),也即所有非關(guān)鍵字段都完全依賴(lài)于任意一組候選關(guān)鍵字。
假定選課關(guān)系表為SelectCourse(學(xué)號, 姓名, 年齡, 課程名稱(chēng), 成績(jì), 學(xué)分),關(guān)鍵字為組合關(guān)鍵字(學(xué)號, 課程名稱(chēng)),因為存在如下決定關(guān)系:
(學(xué)號, 課程名稱(chēng)) → (姓名, 年齡, 成績(jì), 學(xué)分)
這個(gè)數據庫表不滿(mǎn)足第二范式,因為存在如下決定關(guān)系:
(課程名稱(chēng)) → (學(xué)分)
(學(xué)號) → (姓名, 年齡)
即存在組合關(guān)鍵字中的字段決定非關(guān)鍵字的情況。
由于不符合2NF,這個(gè)選課關(guān)系表會(huì )存在如下問(wèn)題:
(1) 數據冗余:
同一門(mén)課程由n個(gè)學(xué)生選修,"學(xué)分"就重復n-1次;同一個(gè)學(xué)生選修了m門(mén)課程,姓名和年齡就重復了m-1次。
(2) 更新異常:
若調整了某門(mén)課程的學(xué)分,數據表中所有行的"學(xué)分"值都要更新,否則會(huì )出現同一門(mén)課程學(xué)分不同的情況。
(3) 插入異常:
假設要開(kāi)設一門(mén)新的課程,暫時(shí)還沒(méi)有人選修。這樣,由于還沒(méi)有"學(xué)號"關(guān)鍵字,課程名稱(chēng)和學(xué)分也無(wú)法記錄入數據庫。
(4) 刪除異常:
假設一批學(xué)生已經(jīng)完成課程的選修,這些選修記錄就應該從數據庫表中刪除。但是,與此同時(shí),課程名稱(chēng)和學(xué)分信息也被刪除了。很顯然,這也會(huì )導致插入異常。
把選課關(guān)系表SelectCourse改為如下三個(gè)表:
學(xué)生:Student(學(xué)號, 姓名, 年齡);
課程:Course(課程名稱(chēng), 學(xué)分);
選課關(guān)系:SelectCourse(學(xué)號, 課程名稱(chēng), 成績(jì))。
這樣的數據庫表是符合第二范式的, 消除了數據冗余、更新異常、插入異常和刪除異常。
另外,所有單關(guān)鍵字的數據庫表都符合第二范式,因為不可能存在組合關(guān)鍵字。
第三范式(3NF):在第二范式的基礎上,數據表中如果不存在非關(guān)鍵字段對任一候選關(guān)鍵字段的傳遞函數依賴(lài)則符合第三范式。所謂傳遞函數依賴(lài),指的是如果存在"A → B → C"的決定關(guān)系,則C傳遞函數依賴(lài)于A(yíng)。因此,滿(mǎn)足第三范式的數據庫表應該不存在如下依賴(lài)關(guān)系:
關(guān)鍵字段 → 非關(guān)鍵字段x → 非關(guān)鍵字段y
假定學(xué)生關(guān)系表為Student(學(xué)號, 姓名, 年齡, 所在學(xué)院, 學(xué)院地點(diǎn), 學(xué)院電話(huà)),關(guān)鍵字為單一關(guān)鍵字"學(xué)號",因為存在如下決定關(guān)系:
(學(xué)號) → (姓名, 年齡, 所在學(xué)院, 學(xué)院地點(diǎn), 學(xué)院電話(huà))
這個(gè)數據庫是符合2NF的,但是不符合3NF,因為存在如下決定關(guān)系:
(學(xué)號) → (所在學(xué)院) → (學(xué)院地點(diǎn), 學(xué)院電話(huà))
即存在非關(guān)鍵字段"學(xué)院地點(diǎn)"、"學(xué)院電話(huà)"對關(guān)鍵字段"學(xué)號"的傳遞函數依賴(lài)。
它也會(huì )存在數據冗余、更新異常、插入異常和刪除異常的情況,讀者可自行分析得知。
把學(xué)生關(guān)系表分為如下兩個(gè)表:
學(xué)生:(學(xué)號, 姓名, 年齡, 所在學(xué)院);
學(xué)院:(學(xué)院, 地點(diǎn), 電話(huà))。
這樣的數據庫表是符合第三范式的,消除了數據冗余、更新異常、插入異常和刪除異常。
鮑依斯-科得范式(BCNF):在第三范式的基礎上,數據庫表中如果不存在任何字段對任一候選關(guān)鍵字段的傳遞函數依賴(lài)則符合第三范式。
假設倉庫管理關(guān)系表為StorehouseManage(倉庫ID, 存儲物品ID, 管理員ID, 數量),且有一個(gè)管理員只在一個(gè)倉庫工作;一個(gè)倉庫可以存儲多種物品。這個(gè)數據庫表中存在如下決定關(guān)系:
(倉庫ID, 存儲物品ID) →(管理員ID, 數量)
(管理員ID, 存儲物品ID) → (倉庫ID, 數量)
所以,(倉庫ID, 存儲物品ID)和(管理員ID, 存儲物品ID)都是StorehouseManage的候選關(guān)鍵字,表中的唯一非關(guān)鍵字段為數量,它是符合第三范式的。但是,由于存在如下決定關(guān)系:
(倉庫ID) → (管理員ID)
(管理員ID) → (倉庫ID)
即存在關(guān)鍵字段決定關(guān)鍵字段的情況,所以其不符合BCNF范式。它會(huì )出現如下異常情況:
(1) 刪除異常:
當倉庫被清空后,所有"存儲物品ID"和"數量"信息被刪除的同時(shí),"倉庫ID"和"管理員ID"信息也被刪除了。
(2) 插入異常:
當倉庫沒(méi)有存儲任何物品時(shí),無(wú)法給倉庫分配管理員。
(3) 更新異常:
如果倉庫換了管理員,則表中所有行的管理員ID都要修改。
把倉庫管理關(guān)系表分解為二個(gè)關(guān)系表:
倉庫管理:StorehouseManage(倉庫ID, 管理員ID);
倉庫:Storehouse(倉庫ID, 存儲物品ID, 數量)。
這樣的數據庫表是符合BCNF范式的,消除了刪除異常、插入異常和更新異常。
范式應用
我們來(lái)逐步搞定一個(gè)論壇的數據庫,有如下信息:
(1) 用戶(hù):用戶(hù)名,email,主頁(yè),電話(huà),聯(lián)系地址
(2) 帖子:發(fā)帖標題,發(fā)帖內容,回復標題,回復內容
第一次我們將數據庫設計為僅僅存在表:
| 用戶(hù)名 | email | 主頁(yè) | 電話(huà) | 聯(lián)系地址 | 發(fā)帖標題 | 發(fā)帖內容 | 回復標題 | 回復內容 |
這個(gè)數據庫表符合第一范式,但是沒(méi)有任何一組候選關(guān)鍵字能決定數據庫表的整行,唯一的關(guān)鍵字段用戶(hù)名也不能完全決定整個(gè)元組。我們需要增加"發(fā)帖ID"、"回復ID"字段,即將表修改為:
| 用戶(hù)名 | email | 主頁(yè) | 電話(huà) | 聯(lián)系地址 | 發(fā)帖ID | 發(fā)帖標題 | 發(fā)帖內容 | 回復ID | 回復標題 | 回復內容 |
這樣數據表中的關(guān)鍵字(用戶(hù)名,發(fā)帖ID,回復ID)能決定整行:
(用戶(hù)名,發(fā)帖ID,回復ID) → (email,主頁(yè),電話(huà),聯(lián)系地址,發(fā)帖標題,發(fā)帖內容,回復標題,回復內容)
但是,這樣的設計不符合第二范式,因為存在如下決定關(guān)系:
(用戶(hù)名) → (email,主頁(yè),電話(huà),聯(lián)系地址)
(發(fā)帖ID) → (發(fā)帖標題,發(fā)帖內容)
(回復ID) → (回復標題,回復內容)
即非關(guān)鍵字段部分函數依賴(lài)于候選關(guān)鍵字段,很明顯,這個(gè)設計會(huì )導致大量的數據冗余和操作異常。
我們將數據庫表分解為(帶下劃線(xiàn)的為關(guān)鍵字):
(1) 用戶(hù)信息:用戶(hù)名,email,主頁(yè),電話(huà),聯(lián)系地址
(2) 帖子信息:發(fā)帖ID,標題,內容
(3) 回復信息:回復ID,標題,內容
(4) 發(fā)貼:用戶(hù)名,發(fā)帖ID
(5) 回復:發(fā)帖ID,回復ID
這樣的設計是滿(mǎn)足第1、2、3范式和BCNF范式要求的,但是這樣的設計是不是最好的呢?
不一定。
觀(guān)察可知,第4項"發(fā)帖"中的"用戶(hù)名"和"發(fā)帖ID"之間是1:N的關(guān)系,因此我們可以把"發(fā)帖"合并到第2項的"帖子信息"中;第5項"回復"中的"發(fā)帖ID"和"回復ID"之間也是1:N的關(guān)系,因此我們可以把"回復"合并到第3項的"回復信息"中。這樣可以一定量地減少數據冗余,新的設計為:
(1) 用戶(hù)信息:用戶(hù)名,email,主頁(yè),電話(huà),聯(lián)系地址
(2) 帖子信息:用戶(hù)名,發(fā)帖ID,標題,內容
(3) 回復信息:發(fā)帖ID,回復ID,標題,內容
數據庫表1顯然滿(mǎn)足所有范式的要求;
數據庫表2中存在非關(guān)鍵字段"標題"、"內容"對關(guān)鍵字段"發(fā)帖ID"的部分函數依賴(lài),即不滿(mǎn)足第二范式的要求,但是這一設計并不會(huì )導致數據冗余和操作異常;
數據庫表3中也存在非關(guān)鍵字段"標題"、"內容"對關(guān)鍵字段"回復ID"的部分函數依賴(lài),也不滿(mǎn)足第二范式的要求,但是與數據庫表2相似,這一設計也不會(huì )導致數據冗余和操作異常。
由此可以看出,并不一定要強行滿(mǎn)足范式的要求,對于1:N關(guān)系,當1的一邊合并到N的那邊后,N的那邊就不再滿(mǎn)足第二范式了,但是這種設計反而比較好!
對于M:N的關(guān)系,不能將M一邊或N一邊合并到另一邊去,這樣會(huì )導致不符合范式要求,同時(shí)導致操作異常和數據冗余。
對于1:1的關(guān)系,我們可以將左邊的1或者右邊的1合并到另一邊去,設計導致不符合范式要求,但是并不會(huì )導致操作異常和數據冗余。
結論 滿(mǎn)足范式要求的數據庫設計是結構清晰的,同時(shí)可避免數據冗余和操作異常。這并意味著(zhù)不符合范式要求的設計一定是錯誤的,在數據庫表中存在1:1或1:N關(guān)系這種較特殊的情況下,合并導致的不符合范式要求反而是合理的。
在我們設計數據庫的時(shí)候,一定要時(shí)刻考慮范式的要求。