01-Linux的内存是如何工作的?

Linux****的内存是如何工作的?

1. 内存映射

  ( 1 )物理内存也称为主存,大多数计算机用的主存都是动态随机访问内存( DRAM )。只有内核才可以直接访问物理内存。

  ( 2 ) Linux 内核给每个进程都提供了一个独立的虚拟地址空间,并且这个地址空间是连续的。虚拟地址空间的内部又被分为内核空间用户空间 两部分。

  ( 3 )所有进程的虚拟内存加起来,自然要比实际的物理内存大得多。所以,并不是所有的虚拟内存都会分配物理内存,只有那些实际使用的虚拟内存才分配物理内存,并且分配后的物理内存,是通过内存映射 来管理的。

  ( 4 )内存映射,其实就是将虚拟内存地址映射到物理内存地址。为了完成内存映射,内核为每个进程都维护了一张页表,记录虚拟地址与物理地址的映射关系,如下图所示:

     ( 5**)页表实际上存储在****CPU 的内存管理单元MMU ****中,****TLB 其实就是MMU **中页表的高速缓存。通过它来管理虚拟内存到物理内存的映射关系。

**    ** ( 6 ) MMU 并不以字节为单位来管理内存,而是规定了一个内存映射的最小单位,也就是页,通常是 4 KB 大小。这样,每一次内存映射,都需要关联 4 KB 或者 4KB 整数倍的内存空间。

    ( 7 )页的大小只有 4 KB ,导致的另一个问题就是,整个页表会变得非常大。比方说,仅 32 位系统就需要 100 多万个页表项( 4GB/4KB ),才可以实现整个地址空间的映射。为了解决页表项过多的问题, Linux 提供了两种机制,也就是多级页表大页

    ( 8 )多级页表就是把内存分成区块来管理,将原来的映射关系改成区块索引和区块内的偏移。由于虚拟内存空间通常只用了很少一部分,那么,多级页表就只保存这些使用中的区块,这样就可以大大地减少页表的项数。

    Linux 用的正是四级页表来管理内存页,如下图所示,虚拟地址被分为 5 个部分,前 4 个表项用于选择页,而最后一个索引表示页内偏移。

      ( 9 )大页,顾名思义,就是比普通页更大的内存块,常见的大小有 2MB 和 1GB 。大页通常用在使用大量内存的进程上,比如 Oracle 、 DPDK 等。

 

2. 虚拟内存空间分布

      通过这张图你可以看到,用户空间内存,从低到高分别是五种不同的内存段。

      

  1. 只读段,包括代码和常量等。
  2. 数据段,包括全局变量等。
  3. 堆,包括动态分配的内存,从低地址开始向上增长。
  4. 文件映射段,包括动态库、共享内存等,从高地址开始向下增长。
  5. 栈,包括局部变量和函数调用的上下文等。栈的大小是固定的,一般是

8 MB 。

 

3. 内存分配和回收

( 1 ) brk() 和 mmap() 方法

malloc() 是 C 标准库提供的内存分配函数,对应到系统调用上,有两种实现方式,即 brk() 和 mmap() 。

  1. **对小块内存(小于128K),****C 标准库使用brk() **来分配

,也就是通过移动堆顶的位置来分配内存。这些内存释放后并不会立刻归还系统,而是被缓存起来,这样就可以重复使用。

  1. **而大块内存(大于128K),则直接使用内存映射****mmap() **来分配

,也就是在文件映射段找一块空闲内存分配出去。

( 2 ) brk() 和 mmap() 方法优缺点

  1. **brk() **方式的缓存,可以减少缺页异常的发生,提高内存访问效率。

不过,由于这些内存没有归还系统,在内存工作繁忙时,频繁的内存分配和释放会造成内存碎片。

  1. **而****mmap() 方式分配的内存,会在释放时直接归还系统,所以每次mmap **都会发生缺页异常。

在内存工作繁忙时,频繁的内存分配会导致大量的缺页异常,使内核的管理负担增大。这也是 malloc 只对大块内存使用 mmap 的原因。

( 3 ) free() 或 unmap() 方法

对内存来说,如果只分配而不释放,就会造成内存泄漏,甚至会耗尽系统内存。所以,在应用程序用完内存后,还需要调用 free() 或 unmap() ,来释放这些不用的内存。

( 4 )内存回收的三种方式

  1. 回收缓存,比如使用

LRU ( Least Recently Used )算法,回收最近使用最少的内存页面;

  1. 回收不常访问的内存,把不常用的内存通过交换分区直接写到磁盘中;回收不常访问的内存时,会用到交换分区(以下简称

Swap )。 Swap 其实就是把一块磁盘空间当成内存来用。它可以把进程暂时不用的数据存储到磁盘中(这个过程称为换出),当进程访问这些内存时,再从磁盘读取这些数据到内存中(这个过程称为换入)。

  1. 杀死进程,内存紧张时系统还会通过

OOM ( Out of Memory ),直接杀掉占用大量内存的进程。它监控进程的内存使用情况,并且使用 oom_score 为每个进程的内存使用情况进行评分:一个进程消耗的内存越大, oom_score 就越大;一个进程运行占用的CPU 越多,oom_score **就越小 。这样,进程的 oom_score 越大,代表消耗的内存越多,也就越容易被 OOM 杀死,从而可以更好保护系统。当然,为了实际工作的需要,管理员可以通过 /proc 文件系统,手动设置进程的 oom_adj ,从而调整进程的 oom_score 。**oom_adj 的范围是[-17, 15],数值越大,表示进程越容易被OOM 杀死;数值越小,表示进程越不容易被OOM 杀死,其中-17 表示禁止OOM

 

**4. 查看系统的内存使用情况——**free

你可以看到, free 输出的是一个表格,其中的数值都默认以字节为单位。表格总共有两行六列,这两行分别是物理内存 Mem 和交换分区 Swap 的使用情况,而六列中,每列数据的含义分别为:

第一列, total 是总内存大小;

第二列, used 是已使用内存的大小,包含了共享内存;

第三列, free 是未使用内存的大小;

第四列, shared 是共享内存的大小;

第五列, buff/cache 是缓存和缓冲区的大小;

最后一列, available 是新进程可用内存的大小。这里尤其注意一下,最后一列的可用内存 available 。 available 不仅包含未使用内存,还包括了可回收的缓存,所以一般会比未使用内存更大。

 

**5. 查看进程的内存使用情况——**top

这些数据,包含了进程最重要的几个内存使用情况,我们挨个来看。

  1. VIRT

是进程虚拟内存的大小,只要是进程申请过的内存,即便还没有真正分配物理内存,也会计算在内。

  1. RES

是常驻内存的大小,也就是进程实际使用的物理内存大小,但不包括 Swap 和共享内存。

  1. SHR

是共享内存的大小,比如与其他进程共同使用的共享内存、加载的动态链接库以及程序的代码段等。

  1. %MEM

是进程使用物理内存占系统总内存的百分比。

除了要认识这些基本信息,在查看 top 输出时,你还要注意两点。

**    第一,虚拟内存通常并不会全部分配物理内存。从上面的输出,你可以发现每个进程的虚拟内存都比常驻内存大得多。**

**    第二,共享内存****SHR 并不一定是共享的,比方说,程序的代码段、非共享的动态链接库,也都算在SHR ****里。当然,****SHR 也包括了进程间真正共享的内存。所以在计算多个进程的内存使用时,不要把所有进程的SHR **直接相加得出结果。

 

**6 . **查询文件页、匿名页大小

当然,你可以从 /proc/meminfo 中,查询它们的大小,比如:

代码交流 2021