中文字幕在线影院dghgzs_ Linux 2.6 調度系統分析

在 2.4 之上進(jìn)步

國防科技大學(xué)計算機學(xué)院, 2004 年 4 月

2004 年 4 月

本文從 Linux 2.4 調度系統的缺陷入手，詳細分析了 Linux 2.6 調度系統的原理和實(shí)現細節，并對與調度系統相關(guān)的負載平衡、NUMA 結構以及實(shí)時(shí)性能進(jìn)行了分析和評價(jià)。文末，作者從調度系統的發(fā)展和實(shí)現出發(fā)，對 Linux 的發(fā)展特點(diǎn)和方向提出了自己的看法。

Linux 的市場(chǎng)非常廣闊，從桌面工作站到低端服務(wù)器，它都是任何商用操作系統的有力競爭對手。目前，Linux 正全力進(jìn)軍嵌入式系統和高端服務(wù)器系統領(lǐng)域，但它的技術(shù)缺陷限制了它的競爭力：缺乏對實(shí)時(shí)任務(wù)的支持，多處理機可擴展性差。在 2.4 內核中，造成這兩個(gè)弱項的關(guān)鍵原因之一就是調度器設計上的缺陷。

2.6 調度系統從設計之初就把開(kāi)發(fā)重點(diǎn)放在更好滿(mǎn)足實(shí)時(shí)性和多處理機并行性上，并且基本實(shí)現了它的設計目標。主要設計者，傳奇式人物 Ingo Molnar 將新調度系統的特性概括為如下幾點(diǎn)：

繼承和發(fā)揚 2.4 版調度器的特點(diǎn)：交互式作業(yè)優(yōu)先

輕載條件下調度/喚醒的高性能

公平共享

基于優(yōu)先級調度

高 CPU 使用率

SMP 高效親和

實(shí)時(shí)調度和 cpu 綁定等調度手段

在此基礎之上的新特性： O(1)調度算法，調度器開(kāi)銷(xiāo)恒定（與當前系統負載無(wú)關(guān)），實(shí)時(shí)性能更好

高可擴展性，鎖粒度大幅度減小

新設計的 SMP 親和方法

優(yōu)化計算密集型的批處理作業(yè)的調度

重載條件下調度器工作更平滑

子進(jìn)程先于父進(jìn)程運行等其他改進(jìn)

在 2.5.x 的試驗版本中，新的調度器的開(kāi)發(fā)一直受到廣泛關(guān)注，實(shí)測證明它的確使系統性能得到很大改善。本文就從新設計的數據結構開(kāi)始，圍繞 2.6 對于 2.4 所作的改進(jìn)，對 2.6 調度系統的原理和實(shí)現細節進(jìn)行分析。2.6 調度器設計相當復雜，文中還存在很多需要繼續研究的地方，特別是各個(gè)調度參數的設定，隨著(zhù)核心版本的升級，可能還會(huì )繼續修正。

我們知道，在 2.4 內核中，就緒進(jìn)程隊列是一個(gè)全局數據結構，調度器對它的所有操作都會(huì )因全局自旋鎖而導致系統各個(gè)處理機之間的等待，使得就緒隊列成為一個(gè)明顯的瓶頸。

2.4 的就緒隊列是一個(gè)簡(jiǎn)單的以 runqueue_head 為頭的雙向鏈表，在 2.6 中，就緒隊列定義為一個(gè)復雜得多的數據結構 struct runqueue，并且，尤為關(guān)鍵的是，每一個(gè) CPU 都將維護一個(gè)自己的就緒隊列，--這將大大減小競爭。

O(1)算法中很多關(guān)鍵技術(shù)都與 runqueue 有關(guān)，所以，我們對調度器的分析就先從 runqueue 結構開(kāi)始。

1) prio_array_t *active, *expired, arrays[2]

runqueue 中最關(guān)鍵的數據結構。每個(gè) CPU 的就緒隊列按時(shí)間片是否用完分為兩部分，分別通過(guò) active 指針和 expired 指針訪(fǎng)問(wèn)，active 指向時(shí)間片沒(méi)用完、當前可被調度的就緒進(jìn)程，expired 指向時(shí)間片已用完的就緒進(jìn)程。每一類(lèi)就緒進(jìn)程都用一個(gè) struct prio_array 的結構表示：

struct prio_array { int nr_active; /* 本進(jìn)程組中的進(jìn)程數 */ struct list_head queue[MAX_PRIO]; /* 以?xún)?yōu)先級為索引的 HASH 表，見(jiàn)下 */ unsigned long bitmap[BITMAP_SIZE]; /* 加速以上 HASH 表訪(fǎng)問(wèn)的位圖，見(jiàn)下 */};

圖中的 task 并不是 task_struct 結構指針，而是 task_struct::run_list，這是一個(gè)小技巧，詳見(jiàn)下文 run_list 的解釋。

在 2.4 版的內核里，查找最佳候選就緒進(jìn)程的過(guò)程是在調度器 schedule() 中進(jìn)行的，每一次調度都要進(jìn)行一次（在 for 循環(huán)中調用 goodness()），這種查找過(guò)程與當前就緒進(jìn)程的個(gè)數相關(guān)，因此，查找所耗費的時(shí)間是 O(n) 級的，n 是當前就緒進(jìn)程個(gè)數。正因為如此，調度動(dòng)作的執行時(shí)間就和當前系統負載相關(guān)，無(wú)法給定一個(gè)上限，這與實(shí)時(shí)性的要求相違背。

在新的 O(1) 調度中，這一查找過(guò)程分解為 n 步，每一步所耗費的時(shí)間都是 O(1) 量級的。

prio_array 中包含一個(gè)就緒隊列數組，數組的索引是進(jìn)程的優(yōu)先級（共 140 級，詳見(jiàn)下 "static_prio" 屬性的說(shuō)明），相同優(yōu)先級的進(jìn)程放置在相應數組元素的鏈表 queue 中。調度時(shí)直接給出就緒隊列 active 中具有最高優(yōu)先級的鏈表中的第一項作為候選進(jìn)程（參見(jiàn)"調度器"），而優(yōu)先級的計算過(guò)程則分布到各個(gè)進(jìn)程的執行過(guò)程中進(jìn)行（見(jiàn)"優(yōu)化了的優(yōu)先級計算方法"）。

為了加速尋找存在就緒進(jìn)程的鏈表，2.6 核心又建立了一個(gè)位映射數組來(lái)對應每一個(gè)優(yōu)先級鏈表，如果該優(yōu)先級鏈表非空，則對應位為 1，否則為 0。核心還要求每個(gè)體系結構都構造一個(gè) sched_find_first_bit() 函數來(lái)執行這一搜索操作，快速定位第一個(gè)非空的就緒進(jìn)程鏈表。

采用這種將集中計算過(guò)程分散進(jìn)行的算法，保證了調度器運行的時(shí)間上限，同時(shí)在內存中保留更加豐富的信息的做法也加速了候選進(jìn)程的定位過(guò)程。這一變化簡(jiǎn)單而又高效，是 2.6 內核中的亮點(diǎn)之一。

arrays 二元數組是兩類(lèi)就緒隊列的容器，active 和 expired 分別指向其中一個(gè)。active 中的進(jìn)程一旦用完了自己的時(shí)間片，就被轉移到 expired 中，并設置好新的初始時(shí)間片；而當 active 為空時(shí)，則表示當前所有進(jìn)程的時(shí)間片都消耗完了，此時(shí)，active 和 expired 進(jìn)行一次對調，重新開(kāi)始下一輪的時(shí)間片遞減過(guò)程（參見(jiàn)"調度器"）。

回憶一下 2.4 調度系統，進(jìn)程時(shí)間片的計算是比較耗時(shí)的，在早期內核版本中，一旦時(shí)間片耗盡，就在時(shí)鐘中斷中重新計算時(shí)間片，后來(lái)為了提高效率，減小時(shí)鐘中斷的處理時(shí)間，2.4 調度系統在所有就緒進(jìn)程的時(shí)間片都耗完以后在調度器中一次性重算。這又是一個(gè) O(n) 量級的過(guò)程。為了保證 O(1) 的調度器執行時(shí)間，2.6 的時(shí)間片計算在各個(gè)進(jìn)程耗盡時(shí)間片時(shí)單獨進(jìn)行，而通過(guò)以上所述簡(jiǎn)單的對調來(lái)完成時(shí)間片的輪轉（參見(jiàn)"調度器"）。這又是 2.6 調度系統的一個(gè)亮點(diǎn)。

2) spinlock_t lock

runqueue 的自旋鎖，當需要對 runqueue 進(jìn)行操作時(shí)，仍然應該鎖定，但這個(gè)鎖定操作只影響一個(gè) CPU 上的就緒隊列，因此，競爭發(fā)生的概率要小多了。

3) task_t *curr

本 CPU 正在運行的進(jìn)程。

4) tast_t *idle

指向本 CPU 的 idle 進(jìn)程，相當于 2.4 中 init_tasks[this_cpu()] 的作用。

5) int best_expired_prio

記錄 expired 就緒進(jìn)程組中的最高優(yōu)先級（數值最?。?。該變量在進(jìn)程進(jìn)入 expired 隊列的時(shí)候保存（schedule_tick()），用途見(jiàn) "expired_timestamp"的解釋?zhuān)?div style="height:15px;">

6) unsigned long expired_timestamp

當新一輪的時(shí)間片遞減開(kāi)始后，這一變量記錄著(zhù)最早發(fā)生的進(jìn)程耗完時(shí)間片事件的時(shí)間（jiffies 的絕對值，在 schedule_tick() 中賦），它用來(lái)表征 expired 中就緒進(jìn)程的最長(cháng)等待時(shí)間。它的使用體現在 EXPIRED_STARVING(rq) 宏上。

上面已經(jīng)提到，每個(gè) CPU 上維護了兩個(gè)就緒隊列，active 和 expired。一般情況下，時(shí)間片結束的進(jìn)程應該從 active 隊列轉移到 expired 隊列中（schedule_tick()），但如果該進(jìn)程是交互式進(jìn)程，調度器就會(huì )讓其保持在 active 隊列上以提高它的響應速度。這種措施不應該讓其他就緒進(jìn)程等待過(guò)長(cháng)時(shí)間，也就是說(shuō)，如果 expired 隊列中的進(jìn)程已經(jīng)等待了足夠長(cháng)時(shí)間了，即使是交互式進(jìn)程也應該轉移到 expired 隊列上來(lái)，排空 active。這個(gè)閥值就體現在EXPIRED_STARVING(rq) 上：在 expired_timestamp 和 STARVATION_LIMIT 都不等于 0 的前提下，如果以下兩個(gè)條件都滿(mǎn)足，則 EXPIRED_STARVING() 返回真：

（當前絕對時(shí)間 - expired_timestamp） >= （STARVATION_LIMIT * 隊列中所有就緒進(jìn)程總數 + 1），也就是說(shuō) expired 隊列中至少有一個(gè)進(jìn)程已經(jīng)等待了足夠長(cháng)的時(shí)間；

正在運行的進(jìn)程的靜態(tài)優(yōu)先級比 expired 隊列中最高優(yōu)先級要低（best_expired_prio，數值要大），此時(shí)當然應該盡快排空 active 切換到expired 上來(lái)。

7) struct mm_struct *prev_mm

保存進(jìn)程切換后被調度下來(lái)的進(jìn)程（稱(chēng)之為 prev）的 active_mm 結構指針。因為在 2.6 中 prev 的 active_mm 是在進(jìn)程切換完成之后釋放的（mmdrop()），而此時(shí) prev 的 active_mm 項可能為 NULL，所以有必要在 runqueue 中預先保留。

8) unsigned long nr_running

本 CPU 上的就緒進(jìn)程數，該數值是 active 和 expired 兩個(gè)隊列中進(jìn)程數的總和，是說(shuō)明本 CPU 負載情況的重要參數（詳見(jiàn)"調度器相關(guān)的負載平衡"）。

9) unsigned long nr_switches

記錄了本 CPU 上自調度器運行以來(lái)發(fā)生的進(jìn)程切換的次數。

10) unsigned long nr_uninterruptible

記錄本 CPU 尚處于 TASK_UNINTERRUPTIBLE 狀態(tài)的進(jìn)程數，和負載信息有關(guān)。

11) atomic_t nr_iowait

記錄本 CPU 因等待 IO 而處于休眠狀態(tài)的進(jìn)程數。

12) unsigned long timestamp_last_tick

本就緒隊列最近一次發(fā)生調度事件的時(shí)間，在負載平衡的時(shí)候會(huì )用到（見(jiàn)"調度器相關(guān)的負載平衡"）。

13) int prev_cpu_load[NR_CPUS]

記錄進(jìn)行負載平衡時(shí)各個(gè) CPU 上的負載狀態(tài)（此時(shí)就緒隊列中的 nr_running 值），以便分析負載情況（見(jiàn)"調度器相關(guān)的負載平衡"）。

14) atomic_t *node_nr_running; int prev_node_load[MAX_NUMNODES]

這兩個(gè)屬性?xún)H在 NUMA 體系結構下有效，記錄各個(gè) NUMA 節點(diǎn)上的就緒進(jìn)程數和上一次負載平衡操作時(shí)的負載情況（見(jiàn)"NUMA 結構下的調度"）。

15) task_t *migration_thread

指向本 CPU 的遷移進(jìn)程。每個(gè) CPU 都有一個(gè)核心線(xiàn)程用于執行進(jìn)程遷移操作（見(jiàn)"調度器相關(guān)的負載平衡"）。

16) struct list_head migration_queue

需要進(jìn)行遷移的進(jìn)程列表（見(jiàn)"調度器相關(guān)的負載平衡"）。

調度系統代碼結構絕大多數調度系統的實(shí)現代碼，包括 runqueue 結構的定義，都在[kernel/sched.c]文件中，這樣做的目的是將所有調度系統的代碼集中起來(lái)，便于更新和替換。除非特別注明，本文所引代碼和函數實(shí)現均位于[kernel/sched.c]中。

2.6 版的內核仍然用 task_struct 來(lái)表征進(jìn)程，盡管對線(xiàn)程進(jìn)行了優(yōu)化，但線(xiàn)程的內核表示仍然與進(jìn)程相同。隨著(zhù)調度器的改進(jìn)，task_struct 的內容也有了改進(jìn)，交互式進(jìn)程優(yōu)先支持、內核搶占支持等新特性，在 task_struct 中都有所體現。在 task_struct 中，有的屬性是新增加的，有的屬性的值的含義發(fā)生了變化，而有的屬性?xún)H僅是改了一下名字。

進(jìn)程的狀態(tài)仍然用 state 表示，不同的是，2.6 里的狀態(tài)常量重新定義了，以方便位操作：

/* 節選自[include/linux/sched.h] */#define TASK_RUNNING 0#define TASK_INTERRUPTIBLE 1#define TASK_UNINTERRUPTIBLE 2#define TASK_STOPPED 4#define TASK_ZOMBIE 8#define TASK_DEAD 16

新增加的TASK_DEAD指的是已經(jīng)退出且不需要父進(jìn)程來(lái)回收的進(jìn)程。

進(jìn)程發(fā)生調度事件的時(shí)間（單位是 nanosecond，見(jiàn)下）。包括以下幾類(lèi)：

被喚醒的時(shí)間（在 activate_task() 中設置）；

被切換下來(lái)的時(shí)間（schedule()）；

被切換上去的時(shí)間（schedule()）；

負載平衡相關(guān)的賦值（見(jiàn)"調度器相關(guān)的負載平衡"）。

從這個(gè)值與當前時(shí)間的差值中可以分別獲得"在就緒隊列中等待運行的時(shí)長(cháng)"、"運行時(shí)長(cháng)"等與優(yōu)先級計算相關(guān)的信息（見(jiàn)"優(yōu)化了的優(yōu)先級計算方法"）。

兩種時(shí)間單位系統的時(shí)間是以 nanosecond（十億分之一秒）為單位的，但這一數值粒度過(guò)細，大部分核心應用僅能取得它的絕對值，感知不到它的精度。

時(shí)間相關(guān)的核心應用通常圍繞時(shí)鐘中斷進(jìn)行，在 Linux 2.6 中，系統時(shí)鐘每 1 毫秒中斷一次（時(shí)鐘頻率，用 HZ 宏表示，定義為 1000，即每秒中斷 1000 次，--2.4 中定義為 100，很多應用程序也仍然沿用 100 的時(shí)鐘頻率），這個(gè)時(shí)間單位稱(chēng)為一個(gè) jiffie。很多核心應用都是以 jiffies 作為時(shí)間單位，例如進(jìn)程的運行時(shí)間片。

jiffies 與絕對時(shí)間之間的轉換公式如下：

nanosecond=jiffies*1000000

核心用兩個(gè)宏來(lái)完成兩種時(shí)間單位的互換：JIFFIES_TO_NS()、NS_TO_JIFFIES()，很多時(shí)間宏也有兩種形式，例如 NS_MAX_SLEEP_AVG 和 MAX_SLEEP_AVG。

優(yōu)先級，相當于 2.4 中 goodness() 的計算結果，在 0~MAX_PRIO-1 之間取值（MAX_PRIO 定義為 140），其中 0~MAX_RT_PRIO-1 （MAX_RT_PRIO 定義為100）屬于實(shí)時(shí)進(jìn)程范圍，MAX_RT_PRIO~MX_PRIO-1 屬于非實(shí)時(shí)進(jìn)程。數值越大，表示進(jìn)程優(yōu)先級越小。

2.6 中，動(dòng)態(tài)優(yōu)先級不再統一在調度器中計算和比較，而是獨立計算，并存儲在進(jìn)程的 task_struct 中，再通過(guò)上面描述的 priority_array 結構自動(dòng)排序。

prio 的計算和很多因素相關(guān)，在"優(yōu)化了的優(yōu)先級計算方法"中會(huì )詳細討論。

靜態(tài)優(yōu)先級，與 2.4 的 nice 值意義相同，但轉換到與 prio 相同的取值區間。

nice 值沿用 Linux 的傳統，在 -20 到 19 之間變動(dòng)，數值越大，進(jìn)程的優(yōu)先級越小。nice 是用戶(hù)可維護的，但僅影響非實(shí)時(shí)進(jìn)程的優(yōu)先級。2.6 內核中不再存儲 nice 值，而代之以 static_prio。進(jìn)程初始時(shí)間片的大小僅決定于進(jìn)程的靜態(tài)優(yōu)先級，這一點(diǎn)不論是實(shí)時(shí)進(jìn)程還是非實(shí)時(shí)進(jìn)程都一樣，不過(guò)實(shí)時(shí)進(jìn)程的static_prio 不參與優(yōu)先級計算。

nice 與 static_prio 之間的關(guān)系如下：

static_prio = MAX_RT_PRIO + nice + 20

內核定義了兩個(gè)宏用來(lái)完成這一轉換：PRIO_TO_NICE()、NICE_TO_PRIO()。

表示進(jìn)程因什么原因進(jìn)入就緒態(tài)，這一原因會(huì )影響到調度優(yōu)先級的計算。activated 有四個(gè)值：

-1，進(jìn)程從 TASK_UNINTERRUPTIBLE 狀態(tài)被喚醒；

0，缺省值，進(jìn)程原本就處于就緒態(tài)；

1，進(jìn)程從 TASK_INTERRUPTIBLE 狀態(tài)被喚醒，且不在中斷上下文中；

2，進(jìn)程從 TASK_INTERRUPTIBLE 狀態(tài)被喚醒，且在中斷上下文中。

activated 初值為 0，在兩個(gè)地方修改，一是在 schedule() 中，被恢復為 0，另一個(gè)就是 activate_task()，這個(gè)函數由 try_to_wake_up() 函數調用，用于激活休眠進(jìn)程：

如果是中斷服務(wù)程序調用的 activate_task()，也就是說(shuō)進(jìn)程由中斷激活，則該進(jìn)程最有可能是交互式的，因此，置 activated=2；否則置activated=1。

如果進(jìn)程是從 TASK_UNINTERRUPTIBLE 狀態(tài)中被喚醒的，則 activated=-1（在try_to_wake_up()函數中）。

activated 變量的具體含義和使用見(jiàn)"優(yōu)化了的優(yōu)先級計算方式"。

進(jìn)程的平均等待時(shí)間（以 nanosecond 為單位），在 0 到 NS_MAX_SLEEP_AVG 之間取值，初值為 0，相當于進(jìn)程等待時(shí)間與運行時(shí)間的差值。sleep_avg 所代表的含義比較豐富，既可用于評價(jià)該進(jìn)程的"交互程度"，又可用于表示該進(jìn)程需要運行的緊迫性。這個(gè)值是動(dòng)態(tài)優(yōu)先級計算的關(guān)鍵因子，sleep_avg 越大，計算出來(lái)的進(jìn)程優(yōu)先級也越高（數值越?。?。在下文"進(jìn)程平均等待時(shí)間 sleep_avg" 中會(huì )詳細分析 sleep_avg 的變化過(guò)程。

這個(gè)變量記錄了本進(jìn)程的"交互程度"，在 -CREDIT_LIMIT 到 CREDIT_LIMIT+1 之間取值。進(jìn)程被創(chuàng )建出來(lái)時(shí)，初值為 0，而后根據不同的條件加 1 減 1，一旦超過(guò) CREDIT_LIMIT（只可能等于 CREDIT_LIMIT+1），它就不會(huì )再降下來(lái)，表示進(jìn)程已經(jīng)通過(guò)了"交互式"測試，被認為是交互式進(jìn)程了。interactive_credit具體的變化過(guò)程在"更精確的交互式進(jìn)程優(yōu)先"中會(huì )詳細描述。

進(jìn)程切換計數。

9) time_slice

進(jìn)程的時(shí)間片余額，相當于 2.4 的 counter，但不再直接影響進(jìn)程的動(dòng)態(tài)優(yōu)先級。在"新的運行時(shí)間片表現"中專(zhuān)門(mén)分析了 time_slice 的行為。

10) first_time_slice

0 或 1，表示是否是第一次擁有時(shí)間片（剛創(chuàng )建的進(jìn)程）。這一變量用來(lái)判斷進(jìn)程結束時(shí)是否應當將自己的剩余時(shí)間片返還給父進(jìn)程（見(jiàn)"新的運行時(shí)間片表現"）。

11) run_list

前面提到，優(yōu)先級數組 prio_array 結構中按順序排列了各個(gè)優(yōu)先級下的所有進(jìn)程，但實(shí)際上數組中每一個(gè)元素都是 list_head 結構，以它為表頭的鏈表中的每一個(gè)元素也是 list_head，其中鏈接的就是 task_struct 中的 run_list 成員。這是一個(gè)節省空間、加速訪(fǎng)問(wèn)的小技巧：調度器在 prio_array 中找到相應的 run_list，然后通過(guò) run_list 在 task_struct 中的固定偏移量找到對應的 task_struct（參見(jiàn) enqueue_task()、dequeue_task() 和 list.h 中的操作）。

記錄當前 CPU 的活躍就緒隊列（runqueue::active）。

當前進(jìn)程的一些運行環(huán)境信息，其中有兩個(gè)結構成員與調度關(guān)系緊密：

preempt_count：初值為 0 的非負計數器，大于 0 表示核心不宜被搶占；

flags：其中有一個(gè) TIF_NEED_RESCHED 位，相當于 2.4 中的 need_resched 屬性，如果當前運行中的進(jìn)程此位為 1，則表示應該盡快啟動(dòng)調度器。

在 2.4 中，每個(gè)進(jìn)程的 task_struct 都位于該進(jìn)程核心棧的頂端（低址部分），內核可以通過(guò)棧寄存器 ESP 輕松訪(fǎng)問(wèn)到當前進(jìn)程的 task_struct。在 2.6 中，仍然需要頻繁訪(fǎng)問(wèn)這個(gè)名為 current 的數據結構，但現在，進(jìn)程核心棧頂保存的是其中的 thread_info 屬性，而不是完整的 task_struct 了。這樣做的好處是僅將最關(guān)鍵的、訪(fǎng)問(wèn)最頻繁的運行環(huán)境保存在核心棧里（仍然是兩個(gè)頁(yè)大?。?，而將 task_struct 大部分內容通過(guò) thread_info::task 指針保存在棧外，以方便擴充。thread_info 的分配方式和訪(fǎng)問(wèn)方式與 2.4 中的 task_struct 完全相同，現在的 current 需要這樣來(lái)訪(fǎng)問(wèn)：

/* 節選自[include/asm-i386/current.h] */static inline struct task_struct * get_current(void){ return current_thread_info()->task;}#define current get_current()其中current_thread_info()定義為：/* 節選自[include/asm-i386/thread_info.h] */static inline struct thread_info *current_thread_info(void){ struct thread_info *ti; __asm__("andl %%esp,%0; ":"=r" (ti) : "0" (~8191UL)); return ti;}

2.6 中，time_slice 變量代替了 2.4 中的 counter 變量來(lái)表示進(jìn)程剩余運行時(shí)間片。time_slice 盡管擁有和 counter 相同的含義，但在內核中的表現行為已經(jīng)大相徑庭，下面分三個(gè)方面討論新的運行時(shí)間片表現：

和 counter 類(lèi)似，進(jìn)程的缺省時(shí)間片與進(jìn)程的靜態(tài)優(yōu)先級（在 2.4 中是 nice 值）相關(guān)，使用如下公式得出：

MIN_TIMESLICE + ((MAX_TIMESLICE - MIN_TIMESLICE) * (MAX_PRIO-1 - (p)->static_prio) / (MAX_USER_PRIO-1))

代入各個(gè)宏的值后，結果如圖所示：

可見(jiàn)，核心將 100~139 的優(yōu)先級映射到 200ms~10ms 的時(shí)間片上去，優(yōu)先級數值越大，則分配的時(shí)間片越小。

和 2.4 中進(jìn)程的缺省時(shí)間片比較，當 nice 為 0 時(shí)，2.6 的基準值 100ms 要大于 2.4 的 60ms。

進(jìn)程的平均時(shí)間片

核心定義進(jìn)程的平均時(shí)間片 AVG_TIMESLICE 為 nice 值為 0 的時(shí)間片長(cháng)度，根據上述公式計算所得大約是 102ms。這一數值將作為進(jìn)程運行時(shí)間的一個(gè)基準值參與優(yōu)先級計算。

進(jìn)程的 time_slice 值代表進(jìn)程的運行時(shí)間片剩余大小，在進(jìn)程創(chuàng )建時(shí)與父進(jìn)程平分時(shí)間片，在運行過(guò)程中遞減，一旦歸 0，則按 static_prio 值重新賦予上述基準值，并請求調度。時(shí)間片的遞減和重置在時(shí)鐘中斷中進(jìn)行（sched_tick()），除此之外，time_slice 值的變化主要在創(chuàng )建進(jìn)程和進(jìn)程退出過(guò)程中：

a) 進(jìn)程創(chuàng )建

和 2.4 類(lèi)似，為了防止進(jìn)程通過(guò)反復 fork 來(lái)偷取時(shí)間片，子進(jìn)程被創(chuàng )建時(shí)并不分配自己的時(shí)間片，而是與父進(jìn)程平分父進(jìn)程的剩余時(shí)間片。也就是說(shuō)，fork 結束后，兩者時(shí)間片之和與原先父進(jìn)程的時(shí)間片相等。

b) 進(jìn)程退出

進(jìn)程退出時(shí)（sched_exit()），根據 first_time_slice 的值判斷自己是否從未重新分配過(guò)時(shí)間片，如果是，則將自己的剩余時(shí)間片返還給父進(jìn)程（保證不超過(guò) MAX_TIMESLICE）。這個(gè)動(dòng)作使進(jìn)程不會(huì )因創(chuàng )建短期子進(jìn)程而受到懲罰（與不至于因創(chuàng )建子進(jìn)程而受到"獎勵"相對應）。如果進(jìn)程已經(jīng)用完了從父進(jìn)程那分得的時(shí)間片，就沒(méi)有必要返還了（這一點(diǎn)在 2.4 中沒(méi)有考慮）。

在 2.4 中，進(jìn)程剩余時(shí)間片是除 nice 值以外對動(dòng)態(tài)優(yōu)先級影響最大的因素，并且休眠次數多的進(jìn)程，它的時(shí)間片會(huì )不斷疊加，從而算出的優(yōu)先級也更大，調度器正是用這種方式來(lái)體現對交互式進(jìn)程的優(yōu)先策略。但實(shí)際上休眠次數多并不表示該進(jìn)程就是交互式的，只能說(shuō)明它是 IO 密集型的，因此，這種方法精度很低，有時(shí)因為誤將頻繁訪(fǎng)問(wèn)磁盤(pán)的數據庫應用當作交互式進(jìn)程，反而造成真正的用戶(hù)終端響應遲緩。

2.6 的調度器以時(shí)間片是否耗盡為標準將就緒進(jìn)程分成 active、expired 兩大類(lèi)，分別對應不同的就緒隊列，前者相對于后者擁有絕對的調度優(yōu)先權--僅當active 進(jìn)程時(shí)間片都耗盡，expired 進(jìn)程才有機會(huì )運行。但在 active 中挑選進(jìn)程時(shí)，調度器不再將進(jìn)程剩余時(shí)間片作為影響調度優(yōu)先級的一個(gè)因素，并且為了滿(mǎn)足內核可剝奪的要求，時(shí)間片太長(cháng)的非實(shí)時(shí)交互式進(jìn)程還會(huì )被人為地分成好幾段（每一段稱(chēng)為一個(gè)運行粒度，定義見(jiàn)下）運行，每一段運行結束后，它都從 cpu 上被剝奪下來(lái)，放置到對應的 active 就緒隊列的末尾，為其他具有同等優(yōu)先級的進(jìn)程提供運行的機會(huì )。

這一操作在 schedule_tick() 對時(shí)間片遞減之后進(jìn)行。此時(shí)，即使進(jìn)程的時(shí)間片沒(méi)耗完，只要該進(jìn)程同時(shí)滿(mǎn)足以下四個(gè)條件，它就會(huì )被強制從 cpu 上剝奪下來(lái)，重新入隊等候下一次調度：

進(jìn)程當前在 active 就緒隊列中；

該進(jìn)程是交互式進(jìn)程（TASK_INTERACTIVE()返回真，見(jiàn)"更精確的交互式進(jìn)程優(yōu)先",nice 大于 12 時(shí)，該宏返回恒假）；

該進(jìn)程已經(jīng)耗掉的時(shí)間片（時(shí)間片基準值減去剩余時(shí)間片）正好是運行粒度的整數倍；

剩余時(shí)間片不小于運行粒度

運行粒度的定義運行粒度 TIMESLICE_GRANULARITY 被定義為與進(jìn)程的 sleep_avg 和系統總 CPU 數相關(guān)的宏。因為 sleep_avg 實(shí)際上代表著(zhù)進(jìn)程的非運行時(shí)間與運行時(shí)間的差值，與交互程度判斷關(guān)系密切，所以，運行粒度的定義說(shuō)明了內核的以下兩個(gè)調度策略：進(jìn)程交互程度越高，運行粒度越小，這是交互式進(jìn)程的運行特點(diǎn)所允許的；與之對應，CPU-bound 的進(jìn)程為了避免 Cache 刷新，不應該分片；

系統 CPU 數越多，運行粒度越大。

在 2.4 內核中，優(yōu)先級的計算和候選進(jìn)程的選擇集中在調度器中進(jìn)行，無(wú)法保證調度器的執行時(shí)間，這一點(diǎn)在前面介紹 runqueue 數據結構的時(shí)候已經(jīng)提及。2.6 內核中候選進(jìn)程是直接從已按算法排序的優(yōu)先級隊列數組中選取出來(lái)的，而優(yōu)先級的計算則分散到多處進(jìn)行。這一節分成兩個(gè)部分對這種新的優(yōu)先級計算方法進(jìn)行描述，一部分是優(yōu)先級計算過(guò)程，一部分是優(yōu)先級計算（以及進(jìn)程入隊）的時(shí)機。

動(dòng)態(tài)優(yōu)先級的計算主要由 effect_prio() 函數完成，該函數實(shí)現相當簡(jiǎn)單，從中可見(jiàn)非實(shí)時(shí)進(jìn)程的優(yōu)先級僅決定于靜態(tài)優(yōu)先級（static_prio）和進(jìn)程的sleep_avg 值兩個(gè)因素，而實(shí)時(shí)進(jìn)程的優(yōu)先級實(shí)際上是在 setscheduler() 中設置的（詳見(jiàn)"調度系統的實(shí)時(shí)性能"，以下僅考慮非實(shí)時(shí)進(jìn)程），且一經(jīng)設定就不再改變。相比較而言，2.4 的 goodness() 函數甚至要更加復雜,它考慮的 CPU Cache 失效開(kāi)銷(xiāo)和內存切換的開(kāi)銷(xiāo)這里都已經(jīng)不再考慮。

2.6 的動(dòng)態(tài)優(yōu)先級算法的實(shí)現關(guān)鍵在 sleep_avg 變量上，在 effective_prio() 中，sleep_avg 的范圍是 0~MAX_SLEEP_AVG，經(jīng)過(guò)以下公式轉換后變成-MAX_BONUS/2~MAX_BONUS/2 之間的 bonus：

(NS_TO_JIFFIES((p)->sleep_avg) * MAX_BONUS / MAX_SLEEP_AVG) - MAX_BONUS/2

如下圖所示：

再用這個(gè) bonus 去減靜態(tài)優(yōu)先級就得到進(jìn)程的動(dòng)態(tài)優(yōu)先級（并限制在 MAX_RT_PRIO和MAX_PRIO 之間），bonus 越小，動(dòng)態(tài)優(yōu)先級數值越大，優(yōu)先級越低。也就是說(shuō)，sleep_avg 越大，優(yōu)先級也越高。

MAX_BONUS 定義為 MAX_USER_PRIO*PRIO_BONUS_RATIO/100，也就是說(shuō)，sleep_avg 對動(dòng)態(tài)優(yōu)先級的影響僅在靜態(tài)優(yōu)先級的用戶(hù)優(yōu)先級區（100~140）的1/4區間（±5）之內，相對而言，靜態(tài)優(yōu)先級，也就是用戶(hù)指定的 nice 值在優(yōu)先級計算的比重要大得多。這也是 2.6 調度系統中變化比較大的一個(gè)地方，調度器傾向于更多地由用戶(hù)自行設計進(jìn)程的執行優(yōu)先級。

sleep_avg 反映了調度系統的兩個(gè)策略：交互式進(jìn)程優(yōu)先和分時(shí)系統的公平共享，在下一節中我們還要專(zhuān)門(mén)分析。

優(yōu)先級的計算不再集中在調度器選擇候選進(jìn)程的時(shí)候進(jìn)行了，只要進(jìn)程狀態(tài)發(fā)生改變，核心就有可能計算并設置進(jìn)程的動(dòng)態(tài)優(yōu)先級：

a) 創(chuàng )建進(jìn)程

在wake_up_forked_process()中，子進(jìn)程繼承了父進(jìn)程的動(dòng)態(tài)優(yōu)先級，并添加到父進(jìn)程所在的就緒隊列中。

如果父進(jìn)程不在任何就緒隊列中（例如它是 IDLE 進(jìn)程），那么就通過(guò) effect_prio() 函數計算出子進(jìn)程的優(yōu)先級，而后根據計算結果將子進(jìn)程放置到相應的就緒隊列中。

b) 喚醒休眠進(jìn)程

核心調用 recalc_task_prio() 設置從休眠狀態(tài)中醒來(lái)的進(jìn)程的動(dòng)態(tài)優(yōu)先級，再根據優(yōu)先級放置到相應就緒隊列中。

c) 調度到從 TASK_INTERRUPTIBLE 狀態(tài)中被喚醒的進(jìn)程

實(shí)際上此時(shí)調度器已經(jīng)選定了候選進(jìn)程，但考慮到這一類(lèi)型的進(jìn)程很有可能是交互式進(jìn)程，因此此時(shí)仍然調用 recalc_task_prio() 對該進(jìn)程的優(yōu)先級進(jìn)行修正（詳見(jiàn)"進(jìn)程平均等待時(shí)間 sleep_avg"），修正的結果將在下一次調度時(shí)體現。

d) 進(jìn)程因時(shí)間片相關(guān)的原因被剝奪 cpu

在 schedule_tick() 中（由時(shí)鐘中斷啟動(dòng)），進(jìn)程可能因兩種原因被剝奪 cpu，一是時(shí)間片耗盡，一是因時(shí)間片過(guò)長(cháng)而分段。這兩種情況都會(huì )調用effect_prio() 重新計算優(yōu)先級，重新入隊。

e) 其它時(shí)機

這些其它時(shí)機包括 IDLE 進(jìn)程初始化（init_idle()）、負載平衡（move_task_away()，詳見(jiàn)"調度器相關(guān)的負載平衡"）以及修改 nice 值（set_user_nice()）、修改調度策略（setscheduler()）等主動(dòng)要求改變優(yōu)先級的情況。

由上可見(jiàn)，2.6 中動(dòng)態(tài)優(yōu)先級的計算過(guò)程在各個(gè)進(jìn)程運行過(guò)程中進(jìn)行，避免了類(lèi)似 2.4 系統中就緒進(jìn)程很多時(shí)計算過(guò)程耗時(shí)過(guò)長(cháng)，從而無(wú)法預計進(jìn)程的響應時(shí)間的問(wèn)題。同時(shí)，影響動(dòng)態(tài)優(yōu)先級的因素集中反映在 sleep_avg 變量上。

進(jìn)程的 sleep_avg 值是決定進(jìn)程動(dòng)態(tài)優(yōu)先級的關(guān)鍵，也是進(jìn)程交互程度評價(jià)的關(guān)鍵，它的設計是 2.6 調度系統中最為復雜的一個(gè)環(huán)節，可以說(shuō)，2.6 調度系統的性能改進(jìn)，很大一部分應該歸功于 sleep_avg 的設計。這一節，我們將專(zhuān)門(mén)針對 sleep_avg 的變化和它對調度的影響進(jìn)行分析。

內核中主要有四個(gè)地方會(huì )對 sleep_avg 進(jìn)行修改：休眠進(jìn)程被喚醒時(shí)（activate_task()調用 recalc_task_prio() 函數）、TASK_INTERRUPTIBLE 狀態(tài)的進(jìn)程被喚醒后第一次調度到（schedule()中調用 recalc_task_prio()）、進(jìn)程從 CPU 上被剝奪下來(lái)（schedule()函數中）、進(jìn)程創(chuàng )建和進(jìn)程退出，其中recalc_task_prio() 是其中復雜度最高的，它通過(guò)計算進(jìn)程的等待時(shí)間（或者是在休眠中等待，或者是在就緒隊列中等待）對優(yōu)先級的影響來(lái)重置優(yōu)先級。

此時(shí) activate_task() 以喚醒的時(shí)間作為參數調用 recalc_task_prio()，計算休眠等待的時(shí)間對優(yōu)先級的影響。

在 recalc_task_prio() 中，sleep_avg 可能有四種賦值，并最終都限制在 NS_MAX_SLEEP_AVG 以?xún)龋?div style="height:15px;">

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久