0%

Linux 内核栈溢出分析

由于内核栈的大小是有限的,就会有发生溢出的可能,比如调用嵌套太多、参数太多都会导致内核栈的使用超出设定的大小。本文分析内核栈溢出。

Linux 系统进程运行分为 用户态内核态,进入内核态之后使用的是内核栈,作为基本的安全机制,用户程序不能直接访问内核栈,所以尽管内核栈属于进程的地址空间,但与用户栈是分开的。内核栈需要方便快捷的访问用户态进程信息 thread_info,这部分数据就压在内核栈的底部,大小默认为 16Kb。如下图所示:

内核栈

内核栈溢出的结果往往是系统崩溃,因为溢出会覆盖掉本不该触碰的数据,首当其冲的就是 thread_info — 它就在内核栈的底部,内核栈是从高地址往低地址生长的,一旦溢出首先就破坏了 thread_info,thread_info 里存放着指向进程的指针等关键数据,迟早会被访问到,那时系统崩溃就是必然的事。

overflow

内核栈溢出导致的系统崩溃有时会被直接报出来,比如你可能会看到:

...
Call Trace:
[<ffffffff8106e3e7>] ? warn_slowpath_common+0x87/0xc0
BUG: unable to handle kernel NULL pointer dereference at 00000000000009e8
IP: [<ffffffff8100f4dd>] print_context_stack+0xad/0x140
PGD 5fdb8ae067 PUD 5fdbee9067 PMD 0
Thread overran stack, or stack corrupted
Oops: 0000 [#1] SMP
...

但更多的情况是不直接报错,而是各种奇怪的 panic。在分析 vmcore 的时候,它们的共同点是 thread_info 被破坏了。

以下是一个实例,注意在 task_struct 中 stack 字段直接指向内核栈底部也就是 thread_info 的位置,我们看到 thread_info 显然被破坏了:cpu 的值大得离谱,而且指向 task 的指针与 task_struct 的实际地址不匹配:

crash64> struct task_struct ffff8800374cb540
struct task_struct {
  state = 2,
  stack = 0xffff8800bae2a000,
...

crash64> thread_info 0xffff8800bae2a000
struct thread_info {
  task = 0xffff8800458efba0,
  exec_domain = 0xffffffff,
  flags = 0,
  status = 0,
  cpu = 91904,
  preempt_count = 0,
...

作为一种分析故障的手段,可以监控内核栈的大小和深度,方法如下:

# mount -t debugfs nodev /sys/kernel/debug
# echo 1 > /proc/sys/kernel/stack_tracer_enabled

然后检查下列数值,可以看到迄今为止内核栈使用的峰值和对应的 backtrace:

# cat /sys/kernel/debug/tracing/stack_max_size
# cat /sys/kernel/debug/tracing/stack_trace