Linux中的冷热页机制简述

2025-12-12 18:26:18

什么是冷热页？

在Linux Kernel的物理内存管理的Buddy System中，引入了冷热页的概念。冷页表示该空闲页已经不再高速缓存中了(一般是指L2 Cache)，热页表示该空闲页仍然在高速缓存中。冷热页是针对于每CPU的，每个zone中，都会针对于所有的CPU初始化一个冷热页的per-cpu-pageset.

为什么要有冷热页？

作用有3点：

Buddy Allocator在分配order为0的空闲页的时候，如果分配一个热页，那么由于该页已经存在于L2 Cache中了。CPU写访问的时候，不需要先把内存中的内容读到Cache中，然后再写。如果分配一个冷页，说明该页不在L2 Cache中。一般情况下，尽可能用热页，是容易理解的。什么时候用冷页呢？While allocating a physical page frame, there is a bit specifying whether we would like a hot or a cold page (that is, a page likely to be in the CPU cache, or a page not likely to be there). If the page will be used by the CPU, a hot page will be faster. If the page will be used for device DMA the CPU cache would be invalidated anyway, and a cold page does not waste precious cache contents.

简单翻译一下：当内核分配一个物理页框时，有一些规范来约束我们是分配热页还是冷页。当页框是CPU使用的，则分配热页。当页框是DMA设备使用的，则分配冷页。因为DMA设备不会用到CPU高速缓存，所以没必要使用热页。
Buddy System在给某个进程分配某个zone中空闲页的时候，首先需要用自旋锁锁住该zone,然后分配页。这样，如果多个CPU上的进程同时进行分配页，便会竞争。引入了per-cpu-set后，当多个CPU上的进程同时分配页的时候，竞争便不会发生，提高了效率。另外当释放单个页面时，空闲页面首先放回到per-cpu-pageset中，以减少zone中自旋锁的使用。当页面缓存中的页面数量超过阀值时，再将页面放回到伙伴系统中。

使用每CPU冷热页还有一个好处是，能保证某个页一直黏在1个CPU上，这有助于提高Cache的命中率。

冷热页的数据结构

 struct per_cpu_pages {
  int count;    // number of pages in the list
  int high;    // high watermark, emptying needed
  int batch;    // chunk size for buddy add/remove
   // Lists of pages, one per migrate type stored on the pcp-lists
   每个CPU在每个zone上都有MIGRATE_PCPTYPES个冷热页链表（根据迁移类型划分）
   struct list_head lists[MIGRATE_PCPTYPES];
 };

在Linux中，对于UMA的架构，冷热页是在一条链表上进行管理。热页在前，冷页在后。CPU每释放一个order为0的页，如果per-cpu-pageset中的页数少于其指定的阈值，便会将释放的页插入到冷热页链表的开始处。这样，之前插入的热页便会随着其后热页源源不断的插入向后移动，其页由热变冷的几率便大大增加。

怎样分配冷热页

在分配order为0页的时候(冷热页机制只处理单页分配的情况)，先找到合适的zone,然后根据需要的migratetype类型定位冷热页链表（每个zone，对于每个cpu,有3条冷热页链表，对应于：MIGRATE_UNMOVABLE、MIGRATE_RECLAIMABLE、MIGRATE_MOVABLE）。若需要热页，则从链表头取下一页（此页最“热”）；若需要冷页，则从链表尾取下一页（此页最“冷”）。

分配函数（关键部分已添加注释）：

 /*
 * Really, prep_compound_page() should be called from __rmqueue_bulk(). But
 * we cheat by calling it from here, in the order > 0 path. Saves a branch
 * or two.
 */
static inline
struct page *buffered_rmqueue(struct zone *preferred_zone,
   struct zone *zone, int order, gfp_t gfp_flags,
   int migratetype)
{
 unsigned long flags;
 struct page *page;
 //分配标志是__GFP_COLD才分配冷页
 int cold = !!(gfp_flags & __GFP_COLD);
again:
 if (likely(order == 0)) {
  struct per_cpu_pages *pcp;
  struct list_head *list;
  local_irq_save(flags);
  pcp = &this_cpu_ptr(zone->pageset)->pcp;
  list = &pcp->lists[migratetype];
  if (list_empty(list)) {
   //如果缺少页，则从Buddy System中分配。
   pcp->count += rmqueue_bulk(zone, 0,
     pcp->batch, list,
     migratetype, cold);
   if (unlikely(list_empty(list)))
    goto failed;
  }
  if (cold)
  //分配冷页时，从链表尾部分配，list为链表头，list->prev表示链表尾
   page = list_entry(list->prev, struct page, lru);
  else
  //分配热页时，从链表头分配
   page = list_entry(list->next, struct page, lru);
  //分配完一个页框后从冷热页链表中删去该页
  list_del(&page->lru);
  pcp->count--;
 } else {//如果order!=0(页框数>1)，则不从冷热页链表中分配
  if (unlikely(gfp_flags & __GFP_NOFAIL)) {
   /*
    * __GFP_NOFAIL is not to be used in new code.
    *
    * All __GFP_NOFAIL callers should be fixed so that they
    * properly detect and handle allocation failures.
    *
    * We most definitely don't want callers attempting to
    * allocate greater than order-1 page units with
    * __GFP_NOFAIL.
    */
   WARN_ON_ONCE(order > 1);
  }
  spin_lock_irqsave(&zone->lock, flags);
  page = __rmqueue(zone, order, migratetype);
  spin_unlock(&zone->lock);
  if (!page)
   goto failed;
  __mod_zone_page_state(zone, NR_FREE_PAGES, -(1 << order));
 }
 __count_zone_vm_events(PGALLOC, zone, 1 << order);
 zone_statistics(preferred_zone, zone, gfp_flags);
 local_irq_restore(flags);
 VM_BUG_ON(bad_range(zone, page));
 if (prep_new_page(page, order, gfp_flags))
  goto again;
 return page;
failed:
 local_irq_restore(flags);
 return NULL;
}

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们。

Linux系统（X64）安装Oracle11g完整安装图文教程另附基本操作

一.修改操作系统核心参数在Root用户下执行以下步骤: 1)修改用户的SHELL的限制,修改/etc/security/limits.conf文件输入命令:vi /etc/security/limits.conf,按i键进入编辑模式,将下列内容加入该文件. oracle soft nproc 2047 oracle hard nproc 16384 oracle soft nofile 1024 oracle hard nofile 65536 编辑完成后按Esc键,输入":wq"
linux系统下实现mysql热备份详细步骤(mysql主从复制)

主从的作用: 1.可以当做一种备份方式 2.用来实现读写分离,缓解一个数据库的压力 MySQL主从备份原理: Mysql的主从复制至少是需要两个Mysql的服务,当然Mysql的服务是可以分布在不同的服务器上,也可以在一台服务器上启动多个服务. 如果想配置成为同一台上的话,注意安装的时候,选择两个不同的prefix=路径,同时开启服务器的时候,端口不能相同. (1)首先确保主从服务器上的Mysql版本相同(做主从服务器的原则是,MYSQL版本要相同,如果不能满足,最起码从服务器的MYSQL的版本
Linux中执行shell脚本的4种方法总结

bash shell 脚本的方法有多种,现在作个小结.假设我们编写好的shell脚本的文件名为hello.sh,文件位置在/data/shell目录中并已有执行权限. 方法一:切换到shell脚本所在的目录(此时,称为工作目录)执行shell脚本: 复制代码代码如下: cd /data/shell ./hello.sh ./的意思是说在当前的工作目录下执行hello.sh.如果不加上./,bash可能会响应找到不到hello.sh的错误信息.因为目前的工作目录(/data/shell)可能不在
linux下安装apache与php;Apache+PHP+MySQL配置攻略

1.apache 在如下页面下载apache的for Linux 的源码包 http://www.apache.org/dist/httpd/; 存至/home/xx目录,xx是自建文件夹,我建了一个wj的文件夹. 命令列表: cd /home/wj tar -zxvf httpd-2.0.54.tar.gz mv httpd-2.0.54 apache cd apache ./configure --prefix=/usr/local/apache2 --enable-mod
linux 内存管理机制详细解析

物理内存和虚拟内存我们知道,直接从物理内存读写数据要比从硬盘读写数据要快的多,因此,我们希望所有数据的读取和写入都在内存完成,而内存是有限的,这样就引出了物理内存与虚拟内存的概念. 物理内存就是系统硬件提供的内存大小,是真正的内存,相对于物理内存,在linux下还有一个虚拟内存的概念,虚拟内存就是为了满足物理内存的不足而提出的策略,它是利用磁盘空间虚拟出的一块逻辑内存,用作虚拟内存的磁盘空间被称为交换空间(Swap Space). 作为物理内存的扩展,linux会在物理内存不足时,使用交换分区的
linux 可执行文件与写操作的同步问题(文件读写操作产生的锁机制)

当一个可执行文件已经为write而open时,此时的可执行文件是不允许被执行的.反过来,一个文件正在执行时,它也是不允许同时被write模式而open的.这个约束很好理解,因为文件执行和文件被写应该需要同步保护,因此内核会保证这种同步.那么内核是如何实现该机制的呢?Inode结点中包含一个数据项,叫做i_writecount,很明显是用于记录文件被写的个数的,用于同步的,其类型也是atomic_t. 内核中有两个我们需要了解的函数,与write操作有关,分别是: 复制代码代码如下: int g
Linux下安装mysql-5.6.4 的图文教程

在开始安装前,先说明一下mysql-5.6.4与较低的版本在安装上的区别,从mysql-5.5起,mysql源码安装开始使用cmake了,因此当我们配置安装目录./configure --perfix=/.....的时候和以前的会有些区别,这点我们稍后会提到. 一:解压缩mysql-5.6.4-m7-tar.zip 1> unzip mysql-5.6.4-m7-tar.zip 会生成mysql-5.6.4-m7-tar.gz的压缩文件 2> tar -zxvf mysql-5.6.4-
linux命令详解之useradd命令使用方法

Linux 系统是一个多用户多任务的分时操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统.用户的账号一方面可以帮助系统管理员对使用系统的用户进行跟踪,并控制他们对系统资源的访问:另一方面也可以帮助用户组织文件,并为用户提供安全性保护.每个用户账号都拥有一个惟一的用户名和各自的口令.用户在登录时键入正确的用户名和口令后,就能够进入系统和自己的主目录. 实现用户账号的管理,要完成的工作主要有如下几个方面:用户账号的添加.删除与修改.用户口令的管
linux shell中 if else以及大于、小于、等于逻辑表达式介绍

比如比较字符串.判断文件是否存在及是否可读等,通常用"[]"来表示条件测试. 注意:这里的空格很重要.要确保方括号的空格.笔者就曾因为空格缺少或位置不对,而浪费好多宝贵的时间. if ....; then....elif ....; then....else....fi[ -f "somefile" ] :判断是否是一个文件[ -x "/bin/ls" ] :判断/bin/ls是否存在并有可执行权限[ -n "$var" ]
linux下用cron定时执行任务的方法

名称 : crontab 使用权限 : 所有使用者使用方式 : crontab file [-u user]-用指定的文件替代目前的crontab. crontab-[-u user]-用标准输入替代目前的crontab. crontab-1[user]-列出用户目前的crontab. crontab-e[user]-编辑用户目前的crontab. crontab-d[user]-删除用户目前的crontab. crontab-c dir- 指定crontab的目录. crontab文件的格式

Linux中的冷热页机制简述

相关推荐

随机推荐