平均负载

平均负载是指单位时间内,系统处于可运行状态不可中断状态的平均进程数,也就是平均活跃进程数,它和 CPU 使用率并没有直接关系。

  1. 使用uptime命令,依次是过去 1 分钟、5 分钟、15 分钟的平均负载(Load Average;
  2. 理解平均负载, 比如当平均负载为 2 时,意味着什么呢?
    • 在只有 2 个 CPU 的系统上,意味着所有的 CPU 都刚好被完全占用。
    • 在 4 个 CPU 的系统上,意味着 CPU 有 50% 的空闲。
    • 而在只有 1 个 CPU 的系统中,则意味着有一半的进程竞争不到 CPU。
  3. 一般来说,当平均负载高于 CPU 数量 70% 的时候,就应该分析排查负载高的问题;

平均负载和CPU使用率

平均负载是指单位时间内,处于可运行状态和不可中断状态的进程数。所以,它不仅包括了正在使用 CPU 的进程,还包括等待 CPU等待 I/O 的进程。而 CPU 使用率,是单位时间内 CPU 繁忙情况的统计,跟平均负载并不一定完全对应。比如:

  • CPU 密集型进程,使用大量 CPU 会导致平均负载升高,此时这两者是一致的;
  • I/O 密集型进程,等待 I/O 也会导致平均负载升高,但 CPU 使用率不一定很高;
  • 大量等待 CPU 的进程调度也会导致平均负载升高,此时的 CPU 使用率也会比较高。

工具使用

  1. mpstat 是一个常用的多核 CPU 性能分析工具,用来实时查看每个 CPU 的性能指标,以及所有 CPU 的平均指标。
    • mpstat -P ALL 5 1,显示所有CPU的指标,并在间隔5秒输出一组数据
  2. pidstat 是一个常用的进程性能分析工具,用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标。
    • pidstat -u 5 1,间隔5秒输出一组数据,-u 表示CPU指标