PAJEROHEL7系统一管理理之内核管理

作者:杏彩
  1. Kdump工具

什么是Kdump?

Kdump是二个基于kexec的基石崩溃转储机制,当系统崩溃时,kdump使用kexec运维到第贰个基础。地球热能个基础叫做捕获内核或许又叫“2nd kernel”,它以非常少的内部存款和储蓄器运行捕获内核,并抓获转储镜像。Kdump的定义是当前最保证的基本转储工夫,已被第一的linux商家使用。(举例Red Hat连串)

  Kdump的干活机制是在基础崩溃时, 通过kexec 工具由BIOS运营七个备用水源, 由备用水源实践一文山会海任务,保存内存中崩溃内核的事态, 供后续故障解析用.

什么是Kexec?

Kexec是一种能够根据现已运转基础的上下文赶快运维新基础的一种体制,而不通过BIOS。BIOS的启航在一些特大型机械或然有大批量外设的机器上时特地耗费时间。这种机制能够节约须要在分裂基础之间切换的开垦人士的年月。
Kexec在基础空间和客商空间都有相应的零件,内核提供了多少个kexec重启成效的系统调用。客户空间的软件包"kexec-tools"使用那几个类别调用,并进行加载和教导第二个根本(捕获内核)。
Kexec由两部分构成,一是基本空间的种类调用kexec_load,肩负在生产基础(可能叫第八个水源)运维时将捕获内核(也许叫第三个根本)加载到钦定的地点。而是顾客空间的kexec-tools,它将捕获内核(second kernel)的地方传递给生产基础(first kernel),让系统在崩溃的时候能够找到捕获内核(second kernel)的地点并运维。

  本文暗中认可英特尔或INTEL X86_64架构, 奇骏HEL7类别情形. 

Kdump怎么工作?

在脚下系统产生崩溃时,新的抓获内核被加载,然后依照已安装的下令去将近年来事先爆发崩溃的类别的内部存储器保存到贰个特别的文件(vmcore)中。

上边以Fedora26做为测试演示。(Fedora和CentOS体系的种类现已在kenrel中开采了CONFIG_KEXEC*选项。)

率先需求在系统运维时留下出给第4个基础运营的内部存款和储蓄器。内核参数"crashkernel=160M"会在系统运转时预留出160M内部存款和储蓄器的空中给捕获内核运营使用。"crashkerel=xM"还协助任何的参数,详细的能够参照内核参数文书档案 基本参数。

# dmesg | grep -i reserving
[    0.000000] Reserving 160MB of memory at 656MB for crashkernel (System RAM: 2047MB)

系统运营后大家得以从位置的命令中见到已经预留出了160M的内部存款和储蓄器从内部存款和储蓄器的656M处。

设置客户态的包"kexec-tools",软件包中会提供kdump所需的劳务和"kexec"飞快内核运维命令,和减弱过滤内部存款和储蓄器的"makedumpfile"命令。

[root@localhost ~]# dnf install -y kexec-tools

配置,修改kdump相关的配备文件。

[root@localhost ~]# grep -v ^# /etc/kdump.conf 

path /var/crash
core_collector makedumpfile -l --message-level 1 -d 31


[root@localhost ~]# grep -v ^# /etc/sysconfig/kdump
KDUMP_KERNELVER=""

KDUMP_COMMANDLINE=""

KDUMP_COMMANDLINE_REMOVE="hugepages hugepagesz slub_debug quiet"

KDUMP_COMMANDLINE_APPEND="irqpoll nr_cpus=1 reset_devices cgroup_disable=memory mce=off numa=off udev.children-max=2 panic=10 rootflags=nofail acpi_no_memhotplug transparent_hugepage=never nokaslr"

KEXEC_ARGS=""

KDUMP_IMG="vmlinuz"

KDUMP_IMG_EXT=""

布局文件/etc/kdump.conf设置了kdump产生时vmcore文件的囤积方式,此文件修改后须要重启kdump的劳动。

布署文件/etc/sysconfig/kdump,假设只是修改了COMMANDLINE相关的参数,则不必要去重新build生成新的initramfs文件。

启动kdump服务:

[root@localhost ~]# systemctl restart kdump
[root@localhost ~]# systemctl status kdump
● kdump.service - Crash recovery kernel arming
   Loaded: loaded (/usr/lib/systemd/system/kdump.service; enabled; vendor preset: disabled)
   Active: active (exited) since Sat 2017-07-15 10:46:22 UTC; 36s ago
  Process: 2172 ExecStop=/usr/bin/kdumpctl stop (code=exited, status=0/SUCCESS)
  Process: 2180 ExecStart=/usr/bin/kdumpctl start (code=exited, status=0/SUCCESS)
 Main PID: 2180 (code=exited, status=0/SUCCESS)

Jul 15 10:46:21 localhost dracut[4264]: -rw-r--r--   1 root     root          127 Mar 28 02:15 usr/share/zoneinfo/Etc/UTC
Jul 15 10:46:21 localhost dracut[4264]: drwxr-xr-x   3 root     root            0 Jun 22 13:38 var
Jul 15 10:46:21 localhost dracut[4264]: lrwxrwxrwx   1 root     root           11 Jun 22 13:38 var/lock -> ../run/lock
Jul 15 10:46:21 localhost dracut[4264]: lrwxrwxrwx   1 root     root            6 Jun 22 13:38 var/run -> ../run
Jul 15 10:46:21 localhost dracut[4264]: drwxr-xr-x   2 root     root            0 Jun 22 13:38 var/tmp
Jul 15 10:46:21 localhost dracut[4264]: ========================================================================
Jul 15 10:46:21 localhost dracut[4264]: *** Creating initramfs image file '/boot/initramfs-4.11.9-300.fc26.x86_64kdump.img' done ***
Jul 15 10:46:22 localhost kdumpctl[2180]: kexec: loaded kdump kernel
Jul 15 10:46:22 localhost kdumpctl[2180]: Starting kdump: [OK]
Jul 15 10:46:22 localhost systemd[1]: Started Crash recovery kernel arming.

怀有的服务都布置实现,如若此刻系统一发布出了panic或然其余的部分导致系统崩溃的情况,那是kdump服务会将即时的内部存款和储蓄器镜像依照顾客的配备保存起来。三个简练的法子是因此命令来触发:

[root@localhost ~]# echo c > /proc/sysrq-trigger

[some console log]
... ...
         Starting Kdump Vmcore Save Service...
kdump: dump target is /dev/vda1
kdump: saving to /sysroot//var/crash/127.0.0.1-2017-07-16-04:21:36/
[    2.718001] EXT4-fs (vda1): re-mounted. Opts: data=ordered
kdump: saving vmcore-dmesg.txt
kdump: saving vmcore-dmesg.txt complete
kdump: saving vmcore
Copying data                       : [100.0 %] -
kdump: saving vmcore complete
... ...
[/some console log]

当系统重启后就能够在钦命的目录下观察变化的vmcore文件。能够参照他事他说加以考察布局文件"/etc/kdump.conf"里的"path"字段。

[root@localhost ~]# ls -lt /var/crash/*/
total 33492
-rw-------. 1 root root 34253115 Jul 16 04:21 vmcore
-rw-r--r--. 1 root root    40360 Jul 16 04:21 vmcore-dmesg.txt

转储文件被保存后能够用"crash"这些软件包来深入分析这几个"vmcore"文件。

起来波及了Kexec内核部分提供了一些系统调用,"kexec_load()" 和 "kexec_file_load()",在这之中贰个用来加载捕获内核 - "kexec -l",其余二个来提供系统重启 - "kexec -e"。

系统调用"kexec_load()"能够加载三个新的木本并从此能够被"reboot()"调用。它是被如此定义的:

long kexec_load(unsigned long entry, unsigned long nr_segments,
                       struct kexec_segment *segments, unsigned long flags);

内部三个相比关键的是"kexec_segment"结构体:

struct kexec_segment {
    void   *buf;        /* Buffer in user space */
    size_t  bufsz;      /* Buffer length in user space */
    void   *mem;        /* Physical address of kernel */
    size_t  memsz;      /* Physical address length */
};

当reboot()的参数为"LINUX_REBOOT_CMD_KEXEC"并被调用时,则运维新的内核时就调用"kexec_load()"系统调用。其他“CONFIG_KEXEC”必得在编写翻译kernel时被张开。

系统调用"kexec_load_file()"会安装2个参数"kernel"和"initramfs"给"kexec"命令。"kexec"会读取这一个数量来创设对应的数据段。

long kexec_file_load(int kernel_fd, int initrd_fd,
                           unsigned long cmdline_len, const char *cmdline,
                           unsigned long flags);

同样的"CONFIG_KEXEC_FILE"参数也要在根本编写翻译时被张开。

时下的大部发行版都已展开了"KEXEC"相关的铺排参数。

上述就是二个kdump的轻巧流程。有关"kdump"能够捕获到的基本崩溃时间足以参照文书档案"/usr/share/doc/kexec-tools/kexec-kdump-howto.txt"。或然请参见大家写的测量检验用例 kdump-test。

参照他事他说加以考察资料:
kdump-paper
kdump-introduction
fedora-kexec-tools

1.1 内核管理工具Kdump安装

  Kdump是RHEL7中自带的基石管理工科具.在智跑HEL7.1事先的本子,kdump作为安装到位之后的可选组件自动安装,从途乐HEL7.1始发kdump被植入安装界面,作为系统基础工具供安装选择.

能够由此下边发号施令直接RPM包安装.

yum -y install kexec-tools
rpm -q kexec-tools

再者,Kdump还配置了图形化管理工科具,能够因而上面发号施令安装.

yum -y install system-config-kdump

  对于奥德赛HEL7.4及未来的版本,kdump协助INTEL IOMMU. 而不援救福睿斯HEL7.3及前边的版本.

1.2 通过命令行配置kdump内部存款和储蓄器容积

  kdump能监督种类基本运行状态,其地位比较特殊. kdump的内部存款和储蓄器空间是在系统运营时,由辅导程序分配的,相对于系统基本,kdump内部存款和储蓄器是四个独门的空间.

能够透过如下命令钦赐kdump的内部存款和储蓄器空间大小.

crashkernel=128M     #为kdump保留128M的内存空间.

   crashkernel的值能够设置成“auto",在一部分存有十分大内部存款和储蓄器的连串中,利于达成Kdump的自动化管理.

crashkernel=auto

  当然,crashkernel的值还足以因而如下情势落到实处更加灵敏的配置.

  crashkernel=<范围1>:<大小1>, <范围2>:<大小2>

crashkernel=512M-2G:64M,2G-:128M    #当系统内存在512M-2G之间时,为Kdump保留64M的内存空间;当系统内存大于2G时,为Kdump保留128M的内存空间.

  仍是可以够那样:

crashkernel=128M@16M    #为Kdump保留128M的内存空间,内存地址从16M(physical address 0x01000000)开始.

1.3 Kdump的存储

  Kdump的布置在/etc/kdump.cnf中. kdump提供二种措施将捕获到基本崩溃数据本地保存或保存到长途主机.

#path /var/crash    #kdump本地存储目录,默认是存放在/var/crash目录下,可以根据使用习惯设置.
path /usr/local/cores 
...
#raw /dev/vg/lv_kdump    #kdump可以直接写入移动介质.
raw /dev/sdb1
...
#nfs my.server.com:/export/tmp    #kdump可以通过NFS保存到网络上其它存储设备中.
nfs test.example.com:/export/cores
...
#ssh user@my.server.com      #kdump可以通过SSH传输协议,保存远程主机上.
#sshkey /root/.ssh/kdump_id_rsa
ssh user@test.example.com
sshkey /root/.ssh/mykey

  kdump.conf中还能在 core_collector makedumpfile 选项后增进" -c ", 使kdump文件能够被减去,以节省存款和储蓄空间.

core_collector makedumpfile -c

systemctl start kdump.service    #启动Kdump服务
systemctl enable kdump.service    #使Kdump开机自启
systemctl is-active kdump       #检查Kdump是否已启动
active
echo 1 > /proc/sys/kernel/sysrq   #模拟内核崩溃,检查/var/crash/是否自动保存Kdump捕获的内核崩溃数据, 以确定Kdump是否正常工作
echo c > /proc/sysrq-trigger

  需求注意的是

  (1)在帕杰罗HEL7在此之前的本子中,kdump的存款和储蓄目录会趁着kdump服务的运行而由系统自动成立. PRADOHEL7中,借使改造了kdump的积存目录,则必得在起步kdump服务在此以前,手动创制kdump的积存目录,不然kdump服务会运营败北.

  (2)假若在设置分界面禁用了kdump, 而安装完结今后再经过systemctl start kdump运营kdump, 会报内部存储器不足不可能起动的错误. kdump的内部存款和储蓄器空间是在基础加载从前由boot分配的, 所以必得修改boot. 最棒应用kdump的图形管理工科具 system-config-kdump 加载kdump的暗许配置, 使kdump处于可用状态, 然后重启系统, systemctl status kdump 服务处于激活状态(active).

1.4 利用crash成效深入分析内核崩溃

  利用crash作用组件能够深入分析linux内核崩溃时的网络、磁盘、CPU、系统基本状态,快速牢固故障点.

本文由杏彩发布,转载请注明来源

关键词: