對于大數據量的導入,是DBA們經(jīng)常會(huì )碰到的問(wèn)題,在這里我們討論的是SQL Server環(huán)境下百萬(wàn)級數據量的導入,希望對大家有所幫助。51CTO編輯向您推薦《SQL Server入門(mén)到精通》專(zhuān)題。
實(shí)際工作中有時(shí)候需要把大量數據導入數據庫,然后用于各種程序計算,本實(shí)驗將使用5中方法完成這個(gè)過(guò)程,并詳細記錄各種方法所耗費的時(shí)間。
本實(shí)驗中所用到工具為Visual Studio 2008和SQL Server 2000、SQL Server 2008,分別使用5中方法將100萬(wàn)條數據導入SQL Server 2000與SQL Server 2008中,實(shí)驗環(huán)境是DELL 2850雙2.0GCPU,2G內存的服務(wù)器。感興趣的朋友可以下載源代碼自己驗證一下所用時(shí)間。
還要有一點(diǎn)需要進(jìn)行說(shuō)明,本實(shí)驗中執行SQL語(yǔ)句的地方使用了IsLine FrameWork框架中的DataProvider模塊,這個(gè)模塊只是對SQL配置的讀取和封裝,并不會(huì )對最終結果有本質(zhì)性的影響,關(guān)于IsLine FrameWork框架方面的知識,請參考“IsLine FrameWork”框架系列文章。
下面進(jìn)入正題,分別使用基本的Insert 語(yǔ)句、使用BULK INSERT語(yǔ)句、在多線(xiàn)程中使用BULK INSERT、使用SqlBulkCopy類(lèi)、在多線(xiàn)程中使用SqlBulkCopy類(lèi)五種方法,挑戰4秒極限。
數據庫方面使用SQL Server 2000與SQL Server 2008,表名TableB,字段名稱(chēng)為Value1,數據庫名可以在A(yíng)pp.config中修改,默認為test。

圖1 試驗中的5種方法
方法一.使用基本的Insert 語(yǔ)句
這種方法是最基本的方法,大多數人一開(kāi)始都會(huì )想到這種方法。但是Insert語(yǔ)句似乎并不適合大批量的操作,是不是這樣呢?
本方法中將100萬(wàn)數據分為10個(gè)批次,每個(gè)批次10萬(wàn)條,每10萬(wàn)條1個(gè)事務(wù),分10次導入數據庫。
-->基本語(yǔ)句:
- Insert Into TableB (Value1) values (‘”+i+”’);
說(shuō)明:語(yǔ)句中的i是宿主程序中的一個(gè)累加變量,用于填充數據庫字段中的值。
SQL Server 2000 耗時(shí):901599
SQL Server 2008耗時(shí):497638
方法二.使用BULK INSERT語(yǔ)句
這個(gè)類(lèi)的效果,在本實(shí)驗中可以說(shuō)是最令人滿(mǎn)意的了,它的使用最簡(jiǎn)便、靈活,速度很快。
“BULK INSERT”語(yǔ)句似乎不是很常用, Aicken聽(tīng)說(shuō)Oracle中有一種可以將外部文件映射為Oracle臨時(shí)表,然后直接將臨時(shí)表中的數據導入Oracle其他表中的方法,這種方法的速度非常令人滿(mǎn)意,SQL SERVER的BULK INSERT是不是同樣令人滿(mǎn)意呢?
--> 基本語(yǔ)句:
- BULK INSERT TableB FROM 'c:\\sql.txt'
- WITH (FIELDTERMINATOR = ',',ROWTER /.,mbMINATOR='|',BATCHSIZE = 100000)
SQL Server 2000耗時(shí):4009
SQL Server 2008耗時(shí):10722
方法三.在多線(xiàn)程中使用BULK INSERT
在方法二的基礎上,將100萬(wàn)條數據分五個(gè)線(xiàn)程,每個(gè)線(xiàn)程負責20萬(wàn)條數據,每5萬(wàn)條一個(gè)事物,五個(gè)線(xiàn)程同時(shí)啟動(dòng),看看這樣的效果吧。
SQL Server 2000耗時(shí):21099
SQL Server 2008耗時(shí):10997
方法四.使用SqlBulkCopy類(lèi)
這種方法速度也很快,但是要依賴(lài)內存,對于幾千萬(wàn)條、多字段的復雜數據,可能在內存方面會(huì )有較大的消耗,不過(guò)可以使用64位解決方案處理這個(gè)問(wèn)題。
幾千萬(wàn)條、多字段的數據的情況一般在一些業(yè)務(wù)場(chǎng)景中會(huì )遇到,比如計算全球消費者某個(gè)業(yè)務(wù)周期消費額時(shí),要先獲得主數據庫表中的會(huì )員消費記錄快照,并將快照儲存至臨時(shí)表中,然后供計算程序使用這些數據。并且有些時(shí)候消費者的消費數據并不在一臺數據庫服務(wù)器中,而是來(lái)自多個(gè)國家的多臺服務(wù)器,這樣我們就必須借助內存或外存設備中轉這些數據,然后清洗、合并、檢測,最后導入專(zhuān)用表供計算程序使用。
基本語(yǔ)句:
- using (System.Data.SqlClient.SqlBulkCopy sqlBC = new System.Data.SqlClient.SqlBulkCopy(conn))
- { sqlBC.BatchSize = 100000;
- sqlBC.BulkCopyTimeout = 60;
- sqlBC.DestinationTableName = "dbo.TableB";
- sqlBC.ColumnMappings.Add("valueA", "Value1");
- sqlBC.WriteToServer(dt);
- }
BatchSize = 100000; 指示每10萬(wàn)條一個(gè)事務(wù)并提交
BulkCopyTimeout = 60; 指示60秒按超時(shí)處理
DestinationTableName = "dbo.TableB"; 指示將數據導入TableB表
ColumnMappings.Add("valueA", "Value1"); 指示將內存中valueA字段與TableB中的Value1字段匹配
WriteToServer(dt);寫(xiě)入數據庫。其中dt是預先構建好的DataTable,其中包含valueA字段。
SQL Server 2000耗時(shí):4989
SQL Server 2008耗時(shí):10412
方法五.在多線(xiàn)程中使用SqlBulkCopy類(lèi)
基于方法四,將100萬(wàn)條數據分五個(gè)線(xiàn)程,每個(gè)線(xiàn)程負責20萬(wàn)條數據,每5萬(wàn)條一個(gè)事物,五個(gè)線(xiàn)程同時(shí)啟動(dòng),看看這樣的效果吧。
SQL 2000耗時(shí):7682
SQL 2008耗時(shí):10870
總結
| 數據庫 測試方式 | SQL 2000 | SQL 2008 |
| 基本Insert Into | 901599 | 497638 |
| 單線(xiàn)程Bulk Insert | 4209 | 10722 |
| 多線(xiàn)程Bulk Insert | 21099 | 10997 |
| 單線(xiàn)程SqlBulkCopy | 4989 | 10412 |
| 多線(xiàn)程SqlBulkCopy | 7682 | 10870 |
以上就是這幾天的實(shí)驗結果了,比較令人失望的是SQL SERVER 2008導入數據的性能似乎并不想我們想象的那樣優(yōu)秀。
源碼地址:http://files.cnblogs.com/isline/sqltest.rar
測試數據下載地址:http://files.cnblogs.com/isline/Data.rar
聯(lián)系客服