Linux进程调度

调度定义

1
2
3
4
5
   In computing, scheduling is the method by which work is assigned
   to resources that complete the work. The work may be virtual
   computation elements such as threads, processes or data flows,
   which are in turn scheduled onto hardware resources such as
   processors, network links or expansion cards.

在计算机领域里，调度是一种将任务分配给完成任务的资源的方法。任务可能是虚拟计算元素，例如线程，进程或数据流，这些虚拟计算元素又被安排在硬件资源（例如处理器，网络链接或扩展卡）上。

任务的分类:

对于要调度的任务分类:

按照依赖资源：
- CPU-bound: 任务处理效率受CPU处理速度的影响;
- I/O-bound: 任务处理效率受I/O处理速度的影响;
按照执行特点:
- Interactive: 交互式,如shell.
- Batch: 后台服务式，不需要与用户交互的，如数据库引擎.
- Real-Time: 及时响应式.

调度目标

所有系统
- 公平: 给每个进程CPU资源
- 策略强制执行: 保证规定的策略被执行
- 平衡: 保持系统所有部分都忙碌
批处理系统
- 吞吐量: 每小时最大作业数
- 周转时间: 从提交到终止的最小时间
- CPU利用率: 保持CPU时钟忙碌
交互式系统
- 响应时间: 快速响应请求;
- 均衡性: 满足用户期望
实时系统
- 满足截止时间: 避免丢失数据
- 可预测性: 在多媒体系统中避免品质降低

历史及发展

概述

wiki Scheduling(coputing)把Linux scheduler按照调度算法时间复杂度分为三个阶段：

O(n) -> O(1) -> O(logN)

调度器由最早版本比较原始的基于优先级和时间片的优先级队列调度策略,这个时期主要应用是单核处理器. 2.0版本逐步引入对多处理器(SMP)支持，通过big lock对整个系统访问进行序列化, 随着应用的规模逐步壮大，以及PC中多核的逐步普及. 2.4版本，各个版本中逐步完善调度策略、实时任务的支持，这个时期调度策略时间复杂度O(n). 2.5版本进一步完善交互式任务支持,对多处理器支持, 实时性方面的增强，在2.5开发版本中引入的O(1)调度器, 随后被加入到2.6发布版本中， O(1)是以其算法闻名; 之后出现了更加公平的调度算法 SD,RSDL，这启发了Ingo Molnár. CFS调度器产生, CFS- 完全公平调度器做为目前Linux调度器，一直使用到现在(V5.3)。

以下阶段主要参考M. Jones Inside the Linux 2.6 Completely Fair Scheduler文章中内核版本阶段划分

原始阶段；基于优先级队列的调度策略

V0.12 版本为例, 这个阶段Linux Kernel针对单核处理器设计的, 调度器简单高效, 主要是基于时间片和优先级队列方式实现调度。

大约是在 ~ v1.2之前,具体的版本可能不准确，那时的pc cpu还是单核

数据结构

task_struct : 任务核心数据结构,进程相关信息
- state Linux的进程状态：
- TASK_RUNNING，相当于运行态和就绪态；
- TASK_INTERRUPTIBLE 被挂起可中断;
- TASK_UNINTERRUPTIBLE 被挂起不可中断;
- TASK_STOPPED 用于SIGSTP等IPC信号响应;
- TASK_ZOMBIE: 已退出但是暂时没有被父进程回收的僵尸进程;
- priority 用于给counter赋值,在 Linux 0.12 中这个初值为 15 个系统时钟周期时间
- counter 该属性记录的是当前时间片内该进程还允许运行的时间（以CPU时钟tick值为单位，每个进程的counter初值与nice值有关，nice越小则counter越大，即优先级越高的进程所允许获得的CPU时间也相对越多）
- signal 字段是进程当前所收到信号的位图，共 32 个比特位，每个比特位代表一种信号，信号值=位偏移值+1。因此 Linux 内核最多有 32 个信号。在每个系统调用处理过程的最后，系统会使用该信号位图对信号进行预处理。
- blocked 字段是进程当前不想处理的信号的阻塞位图。与 signal 字段类似，其每一比特位代表一种被阻塞的信号。
- timeout 内核定时超时值
- tss
  是进程的任务状态段 TSS（Task State Segment）信息结构。在任务从执行中被切换出时 tss_struct 结构保存了当前处理器的所有寄存器值
task_union 每个任务（进程）在内核态运行时都有自己的内核态堆栈。这里定义了任务的内核态堆栈结构。这里定义任务联合（任务结构成员和 stack 字符数组成员）。因为一个任务的数据结构与其内核态堆栈放在同一内存页中，所以从堆栈段寄存器 ss 可以获得其数据段选择符
1 2 3 4
union task_union { struct task_struct task; char stack[PAGE_SIZE]; };

\linux-0.12\kernel\sched.c

定义了数组task[NR_TASKS]存放当前运行的任务

1
struct task_struct * task[NR_TASKS] = {&(init_task.task), };

\linux-0.12\kernel\sched.c

调度策略

通过时间片与优先级排队实现调度.

调度算法

调度程序扫描任务数组tasks唤醒收到信号,状态是TASK_INTERRUPTIBLE的任务，随后扫描数组counter最大的那个，调用switch_to进行切换.

如果所有任务时间片用完后使用，下面的公式在更新一下:

counter = counter / 2 + prority

如果没有任务可执行，将调用init_task任务这个0号进程，这个任务调用pause

调度算法

Linux调度算法通过将CPU时间划分为多个epoch来工作, 每个进程有一个指定的 time quantum, 当进程完成他的time quantum时，这个进程被抢占，也可以多次被调用，比如再等待资源如I/O而挂起，再资源到位后可以再次被调用，如果一个epoch结束，所有进程重新计算time quantum.

进程优先级分为静态优先级和动态优先级,前者为实时进程设置范围1-99,后者为普通进程使用, 进程调度顺序实时进程调用完毕后,调用普通进程.

特别的,所有的任务都放在一个全局的runqueue中供调度

小结

这个时期的逐步完善SMP支持,增加了对实时进程的支持

O(n) scheduler

以2.4.37版本为例

经过前几个版本的迭代，2.4 版本 O(n) scheduler 相关功能逐步完善.

数据结构

task_struct : 任务核心数据结构,进程相关信息
- state Linux的进程状态主要分为几类：
- TASK_RUNNING，相当于运行态和就绪态；
- TASK_INTERRUPTIBLE 被挂起可中断;
- TASK_UNINTERRUPTIBLE 被挂起不可中断;
- TASK_STOPPED 用于SIGSTP等IPC信号响应;
- TASK_ZOMBIE: 已退出但是暂时没有被父进程回收的僵尸进程;
- need_resched
  在调度器中用于表示该进程需要申请调度
- policy
调度策略
- SCHED_FIFO: 先进先出式调度
- SCHED_RR: 轮转式调度
- SCHED_OTHER : 常规的分时调度策略另外，policy中还包含了一个SCHED_YIELD位，置位时表示主动放弃CPU。
- rt_priority
用于表征实时进程的优先级，从1-99取值，非实时进程该项应该为0。
- counter
该属性记录的是当前时间片内该进程还允许运行的时间
- nice
  用户可支配的进程优先级
- cpus_allowed
以位向量的形式表示可用于该进程运行的CPU
- cpus_runnable
以位向量的形式表示当前运行该进程的CPU（相应位为1）。如果不在任何CPU上运行，则为全1。这一属性和cpus_allowed属性结合，可以迅速判断该进程是否能调度到某一CPU上运行（位"与"）。
- processor
本进程当前（或最近）所在CPU编号。
- thread
用于保存进程执行环境（各个寄存器的值以及IO操作许可权映射表），内容与TSS相近。因为TSS以CPU id为索引，而Linux无法预测被替换下来的进程下一次将在哪个CPU上运行，所以这些信息不能保存在TSS中。
- current 核心经常需要获知当前在某CPU上运行的进程的task_struct，在Linux中用current指针指向这一描述符。

schedule_data: 对应cpu，可以利用它访问到某cpu上运行的进程

1
2
3
4
5
6
7
static union {
 struct schedule_data {
   struct task_struct * curr;
   cycles_t last_schedule;
 } schedule_data;
 char __pad [SMP_CACHE_BYTES];
} aligned_data [NR_CPUS] __cacheline_aligned = { {{&init_task,0}}};

init_tasks: 所有进程存放的双向链表
runqueue_head: 双向链表，所有处于就绪状态TASK_RUNNING的进程

linux\kernel\sched.c

调度策略

无大变化

1
2
3
#define SCHED_OTHER   0
#define SCHED_FIFO    1
#define SCHED_RR      2

linux\include\linux\sched.h

调度算法

进程优先级分为静态优先级和动态优先级,前者为实时进程设置范围1-99,后者为普通进程使用, 进程调度顺序实时进程调用完毕后,调用普通进程.

特别的,所有的任务都放在一个全局的runqueue中供调度, 调度算法要遍历所有runqueue中任务, 时间复杂度与任务个数N有关 .

这个时期的调度器又被称作The O(n) scheduler

小结

这个阶段之前的调度器太大的变化

经过前几个版本的迭代，2.4 版本 O(n) scheduler 相关功能逐步完善. 由于都是放到一个runqueue里调度, 处理还是比较简单的.

但是由于其针对进程数量巨大的低效，预定义时间片过长，优先I/O密集型应用对用户交互型应用不是总是有效，对实时性应用支持有限,仍然有很大要改进的空间.

调度器保证只有当所有 RUNNING 进程的时间片都被用完之后，才对所有进程重新分配时间片。这段时间被称为一个 epoch（调度周期）
每个epoch内，每个任务都可以运行一段时间, 调度器保证只有当所有 RUNNING 进程的时间片都被用完之后，才对所有进程重新分配时间片
调度器倾向提高交互进程优先级，普通进程优先级由进程counter确认，进程创建子进程,子进程counter减半.
优先级调整方式：调度器将重新计算所有进程的 counter 值，所有进程不仅包括 RUNNING 进程，也包括处于睡眠状态的进程。处于睡眠状态的进程的 counter 本来就没有用完，在重新计算时，他们的 counter 值会加上这些原来未用完的部分，从而提高了它们的优先级。
缺点；
扩展性不好: 要遍历所有runqueue队列，counter计算随着进程数量增加代价增高
高负载系统调度性能比较低 :分配给进程时间片比较大，高负载情况下效率较低
交互式进程的优化不完善 :批量进程频繁的IO操作影响了交互式进程调度.
实时进程支持不够内核是非抢占式的对于实时任务来说很弱

O(1) scheduler

O(1) scheduler从2.5 版本引入, 正式进入2.6正式版本, 调度器开销恒定, 更好支持实时性, 多处理器并行. 2.6引入了per-CPU变量,为每一个cpu配置了一个runqueue队列, 大家再也不用抢了

数据结构

struct rq : per-CPU runqueue data structure.

任务存放:

prio_array_t *active, *expired, arrays[2]; active可被调度的队列, expired时间片用完的就绪队列, O(1)使用最关键部分

1
2
3
4
5
6
7
8
#define DECLARE_BITMAP(name,bits) \
  unsigned long name[BITS_TO_LONGS(bits)

  struct prio_array {
  unsigned int nr_active;
  DECLARE_BITMAP(bitmap, MAX_PRIO+1); 
  struct list_head queue[MAX_PRIO];
  };

同步(锁):

spinlock_t rq->lock
自旋锁只针对一个cpu上的队列

调度策略

V2.6版本增加了SCHED_BATCH调度策略, 普通进程调度策略名称调整了一下, 细化成了SCHED_NORMAL, SCHED_BATCH

1
2
3
4
#define SCHED_NORMAL       0
#define SCHED_FIFO     1
#define SCHED_RR       2
#define SCHED_BATCH        3

调度算法

对于一个数据结构四种基本操作，访问，搜索，插入，删除，O(1)调度器使用了active，expired 数组，数组中的元素着保存某一优先级的进程队列指针。系统一共有140个不同的优先级，因此这两个数组大小都是140。并在active，expired队列上各维护了一个bitmap, 在active bitmap 中. 通过公式计算动态优先级和区分交互进程动态优先级计算公式： C dynamic priority = max (100, min ( static priority – bonus +5, 139)) 其中bonus 取决于进程的平均睡眠时间。由此可以看出，在linux2.6中，一个普通进程的优先级和平均睡眠时间的关系为：平均睡眠时间越长，其bonus越大，从而得到更高的优先级。平均睡眠时间也被用来判断进程是否是一个交互式进程。如果满足下面的公式，进程就被认为是一个交互式进程：

1
Dynamic priority ≤ 3 x static priority /4 + 28

选择当前最高优先级的进程: 1. 在 active bitmap 里，寻找最高优先级的位置，找到对应进程队列 2. 从队列中取出一个进程，如果队列为空，将active bitmap中对应位设置为0； 3. 对于当前执行完的进程，重新计算其优先级，然后将进程放入对应的expired队列； 4. 将进程放入到 expired 相应的队里，如果其优先级对应的 expired bitmap为0，将其t置 1。 5. 如果 active bitmap全为零，将 active bitmap 和 expired bitmap交换一下。

为了提高交互式进程的响应时间，O(1)调度器不仅动态地提高该类进程的优先级,还采用一下方法： 1. 每次时钟tick中断中，进程的时间片(time_slice)被减1； 2. 当time_slice为0时，调度器判断当前进程的类型，如果是交互式进程或者实时进程，则重置其时间片并重新插入active数组； 3. 如果不是交互式进程则从active数组中移到expired数组。这样实时进程和交互式进程就总能优先获得CPU。

小细节

可以看到一些RCU的操作

1
    rcu_qsctr_inc(task_cpu(prev));

子进程退出时归还时间片

根据 first_time_slice 的值判断自己是否从未重新分配过时间片，如果是，则将自己的剩余时间片返还给父进程（保证不超过 MAX_TIMESLICE）。这个动作使进程不会因创建短期子进程而受到惩罚（与不至于因创建子进程而受到"奖励"相对应）。如果进程已经用完了从父进程那分得的时间片，就没有必要返还了

1
2
3
4
5
6
7
void release_task(struct task_struct * p)
{
  ...

  sched_exit(p);
  ...
}

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
void fastcall sched_exit(struct task_struct *p)
{
    unsigned long flags;
    struct rq *rq;

    /*
     * If the child was a (relative-) CPU hog then decrease
     * the sleep_avg of the parent as well.
     */
    rq = task_rq_lock(p->parent, &flags);
    if (p->first_time_slice && task_cpu(p) == task_cpu(p->parent)) {
        p->parent->time_slice += p->time_slice;
        if (unlikely(p->parent->time_slice > task_timeslice(p)))
            p->parent->time_slice = task_timeslice(p);
    }
    if (p->sleep_avg < p->parent->sleep_avg)
        p->parent->sleep_avg = p->parent->sleep_avg /
        (EXIT_WEIGHT + 1) * EXIT_WEIGHT + p->sleep_avg /
        (EXIT_WEIGHT + 1);
    task_rq_unlock(rq, &flags);
}

小结

O(1)引入了平均等待时间,确定动态优先级,交互进程评价更加细致, 内核支持了抢占, 支持负载的,并支持NUMA结构下的调度.

O(1)里的经验公式比较多, 不能提炼出有效模型.对于后续分析和改进都存在很大障碍.

正如Ingo Monar 在接受采访时说，他设计的 O(1) 调度算法，基本上来自于个人的创意，没有参考市面上以及研究领域中已有的调度算法。从调度器设计上可以看出，2.6 调度系统考虑了很多细节，但总体上并没有清晰的主线，且无法（或者也无意于）在理论上对 O(1) 模型进行性能分析。

公平算法, CFS

数据结构

sched_class const struct sched_class *sched_class;
sched_class 执行时也是按照此顺序进行
- stop_sched_class: 最高优先级;
- dl_sched_class:对应deadline调度策略;
- rt_sched_class:实时进程调度算法
- fair_sched_class:普通进程调度策略
- idle_sched_class:空闲进程调度算法

可以从pick_next_task中看到是从高优先级的调度类到低优先级的调度类依次调用的,保证高优先级任务先执行, 由于普通进程占大多数这里有针对fair_sched_class部分的优化*

调度类，这是一个可扩展的调度程序模块层次结构。这些模块封装了调度策略的详细信息，并由调度程序核心处理，而核心不需要关心他的实现细节。

调度类是通过sched_class结构实现的，该结构包含必须在发生相关事件时调用的函数的钩子。

部分hooks(功能实现)的列表：
- enqueue_task(…)
在任务进入可运行状态时调用。它将调度实体（任务）放入红黑树中并递增nr_running变量。
- dequeue_task(…)
当任务不再可运行时，将调用此函数以使相应的调度实体保持在红黑树之外。它递减nr_running变量。
- yield_task(…)
除非打开compat_yield，否则此函数基本上只是一个队列后出队列的队列; 在这种情况下，它将调度实体放在红黑树的最右端。
- check_preempt_curr(…)
该函数将检查当前运行的任务是否被抢占。在实际抢占正在运行的任务之前，CFS 调度程序模块将执行公平性测试。这将驱动唤醒式（wakeup）抢占。
- pick_next_task(…)
此功能选择最适合下次运行的任务。
- set_curr_task(…)
当任务更改其调度类或更改其任务组时，将调用此函数。
- task_tick（…）
该函数通常调用自 time tick 函数；它可能引起进程切换。这将驱动运行时（running）抢占。
task_struct
- struct sched_entity : cfs调度实体,按照红黑树组织
- struct sched_rt_entity : 实时调度实体
- struct sched_dl_entity :dealline调度实体
struct rq, cfs_rq, rt_rq
存放所运行任务的队列

调度策略

在目前版本的Linux中进程分为一下两类:

实时进程: 需要尽快执行的任务。
- 实时调度策略
- SCHED_FIFO
- SCHED_RR
- SCHED_DEADLINE
- 优先级
- 范围 [0, 99]
普通进程:
- 普通调度策略
- SCHED_NORMAL
- SCHED_BATCH
- SCHED_IDLE
- 优先级
- 范围 [100, 139]

调度算法

SD/RSDL算法

楼梯调度算法 staircase scheduler: 楼梯算法(SD)在思路上和O(1)算法有很大不同，它抛弃了动态优先级的概念,还淘汰了expire数组，从而简化了代码。它最重要的意义在于证明了完全公平这个思想的可行性。
- 普通进程：设任务本身优先级为P，当它从第N级台阶开始下楼梯并到达底部后，将回到第N+1级台阶。并且赋予该任务N+1倍的时间片.
- 实时进程：FIFO, RR调度策略
RSDL算法:(The Rotating Staircase Deadline Schedule): 重新引入了expire队列，每个优先级都分配一个组时间配置- Tg, 同一优先级的每一个进程都拥有同样的优先级时间配额 -Tp Tp小于进程时间片, 进程自身Tp用完后下降到下一个优先级进程组中。这个过程称 minor rotation, 与SD相同当优先级队列从N降到底部后，再回到N+1台阶开始, 与SD不同的是楼梯底部的低优先级进程必须等待所有的高优先级进程执行完才能获得CPU， RSDL中当高优先级进程用完Tg时，无论该组中是否有Tp尚未完成都会被强制降低到下一个优先级。这样低优先级任务就可以在一个可以预计的未来得到调度. 当active数组为空或者所有进程将为最低优先级，发生major rotation，active数组与expire数组交换。

CFS调度算法

Completely Fair Scheduler CFS通过设置vruntime维持某任务的时间量: 与之前调度器不同，它没有将任务维护到运行队列，CFS维护了一个以时间为顺序的红黑树

任务存储在以时间为顺序的红黑树中, 对处理器需求最多的任务（最低虚拟运行时）存储在树的左侧,处理器需求少的放到右边，调度器选取最左侧的节点进行调整，以便保持公平性，任务通过将其运行时间通过权重计算方法添加到虚拟运行时间中,如果可运行再次插回树中。

C vruntime + = 实际运行时间 delta_exec * NICE_0_LOAD/权重 这样树右侧的任务就迁移到左侧以保持公平。

参考/引用

Does /proc/sys/kernel/sched_child_runs_first work? Kernel Tuning: kernel.sched_child_runs_first Linus Torvalds 关于 Child-runs-first is now off 回复的邮件当我谈 scheduling 时我在谈什么？谈谈调度 - Linux O(1) Linux 调度器发展简述 The Linux Scheduler CFS调度器（1）-基本原理 The Linux Scheduler 2.4 vs 2.6 Inside the Linux scheduler Linux 2.4.x内核软中断机制 Linux 2.4调度系统分析 Linux 2.6 调度系统分析 O(n)、O(1)和CFS调度器 Scheduling in Linux (webserver scheduling) O(n)、O(1)和CFS调度器(这篇文章讲的很棒) Linux 核心設計: 不只挑選任務的排程器 Scheduling (computing) Multiprocessor system architecture Linux 2.4.x内核软中断机制

Operating System	Preempition	Alogrithm
Amiga OS	Yes	Prioritized round-robin scheduling
classic Mac OS pre-9	None	Cooperative scheduler
FreeBSD	Yes	Multilevel feedback queue
Linux kernel 2.6.0–2.6.23	Yes	O(1) scheduler
Linux kernel after 2.6.23	Yes	Completely Fair Scheduler
Linux kernel before 2.6.0	Yes	Multilevel feedback queue
Mac OS 9	Some	Preemptive scheduler for MP tasks, and cooperative for processes and threads
macOS	Yes	Multilevel feedback queue
NetBSD	Yes	Multilevel feedback queue
Solaris	Yes	Multilevel feedback queue
Windows 3.1x	None	Cooperative scheduler
Windows 95, 98, Me	Half	Preemptive scheduler for 32-bit processes, and cooperative for 16-bit processes
Windows NT (including 2000, XP, Vista, 7, and Server)	Yes	Multilevel feedback queue

调度定义#

任务的分类:#

调度目标#

历史及发展#

概述#

原始阶段；基于优先级队列的调度策略#

数据结构#

调度策略#

调度算法#

相关源码#

相关函数#

一些细节:#

小结#

发展阶段：支持非实时与实时，非抢占任务的调度#

数据结构#

调度策略#

调度算法#

相关源码#

一些细节:#

小结#

O(n) scheduler#

数据结构#

调度策略#

调度算法#

相关源码#

一些细节:#

小结#

O(1) scheduler#

数据结构#

调度策略#

调度算法#

相关源码#

小细节#

小结#

公平算法, CFS#

数据结构#

调度策略#

调度算法#

SD/RSDL算法#

CFS调度算法#

相关源码#

相关#

相关OS调度算法#

应用级别的调度#

多处理器#

软中断#

参考/引用#

调度定义

任务的分类:

调度目标

历史及发展

概述

原始阶段；基于优先级队列的调度策略

数据结构

调度策略

调度算法

相关源码

相关函数

一些细节:

小结

发展阶段：支持非实时与实时，非抢占任务的调度

数据结构

调度策略

调度算法

相关源码

一些细节:

小结

O(n) scheduler

数据结构

调度策略

调度算法

相关源码

一些细节:

小结

O(1) scheduler

数据结构

调度策略

调度算法

相关源码

小细节

小结

公平算法, CFS

数据结构

调度策略

调度算法

SD/RSDL算法

CFS调度算法

相关源码

相关

相关OS调度算法

应用级别的调度

多处理器

软中断

参考/引用