C++性能剖析教程之循环展开

什么是循环展开?

循环展开,英文中称Loop unwinding或loop unrolling,是一种牺牲程序的尺寸来加快程序的执行速度的优化方法。可以由程序员完成,也可由编译器自动优化完成。循环展开最常用来降低循环开销,为具有多个功能单元的处理器提供指令级并行。也有利于指令流水线的调度。

循环展开能从两方面改进程序的性能:

  • 减少了不直接有助于程序结果的操作的数量,例如循环索引计算和分支条件。
  • 提供了一些方法,可以进一步变化代码,减少整个计算中关键路径上的操作数量。

循环展开对程序性能的影响

我们直接以实际代码向大家展示循环展开的作用,首先看未经过循环展开优化的代码:

#include <iostream>
#include <chrono>

int main(){
 auto start = std::chrono::system_clock::now();
 int sum = 0;
 int count = 10000;
 //循环10000次累加
 for(int i = 0;i < count;i++){
 sum += i;
 }
 auto end = std::chrono::system_clock::now();
 std::chrono::duration<double> dura = end - start;
 std::cout <<"共耗时:"<< dura.count() << "s" << std::endl;
 return 0;
}

类似于上面的这段代码是我们平常工作中经常见到的,函数目的就是求得1+2+……+9998+9999的累加和,每次循环把i累加到sum变量上,循环次数一共10000次。代码运行结果如下:

可以看出代码运行耗时0.0000279秒。

下面我们将循环展开一次,即把上述代码中的循环改为如下代码:

for(int i = 0;i < count;i += 2){
 sum += i;
 sum += i+1;
}

即每次循环将i和i+1一起累加到sum变量上,这样可以把循环次数从10000次降低到5000次,由于CPU的高度流水线化,连续两个加法指令增加耗时很低,所以此版本代码可以一定程度上提高程序运行速度,运行结果如下:

代码运行耗时0.0000159秒,相较于未优化代码速度快了将近一倍。

当然,我们可以继续增加循环展开次数以进一步提高程序运行速度,但是这个增加循环展开次数也是有限度的,当达到了CPU的最高吞吐量之后,继续增加循环展开次数是没有意义的。

上述循环展开后的代码依然有进一步优化的空间,那就是消除连续指令的相关性,以达到指令级并行,我们可以看到循环展开后的代码,循环体中有两条语句:sum += i 和 sum += i+1,第二条语句sum += i+1依赖于第一条命来sum += i的执行结果,所以这两条语句只能依次执行,限制了CPU进一步提高性能的可能。如果我们将循环体改为如下代码:

int sum1=0,sum2=0;
for(int i=0;i < count;i+=2){
 sum1 += i;
 sum2 += i+1;
}
sum = sum1 + sum2;

我们新建了两个变量sum1和sum2用于存储循环展开时两个累加语句的累加结果,最后在循环体外将两部分结果相加得到最终结果。该代码中两个累加语句之间是互不相关的,所以CPU可以并行执行这两条指令,以达到性能的进一步提高。下面是运行结果:

代码运行耗时0.0000073秒,相较于只进行循环展开的代码速度又快了将近一倍。

总结

由上面三段代码的运行速度对比可以看出,循环展开对程序性能有着很重要的影响,可以减少分支预测错误次数,增加取消数据相关进一步利用并行执行提高速度的机会。但是,并不建议大家进行手动的循环展开,在代码中进行循环展开会导致程序的可读性下降,代码膨胀。为了直观感受循环展开对性能的影响,上述代码运行结果均是在不开编译器优化的情况下进行的测试,其实在我们开启了编译器优化的时候,编译器会自动对我们的循环代码进行循环展开,让我们可以在保持了代码可读性的同时,又能享受到循环展开对我们程序性能的提高。

好了,以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对我们的支持。

(0)

相关推荐

  • C++循环链表之约瑟夫环的实现方法

    本文实例形式展示了C++实现循环链表中约瑟夫环的方法,分享给大家供大家参考之用.具体方法如下: 主要功能代码如下: #include <iostream> using namespace std; typedef struct student { int data; struct student* next; }node,*LinkList; //约瑟夫环 void printfList(LinkList head){ LinkList p=head; if (head!=NULL) { do

  • 如何用C++实现双向循环链表

    双向循环链表,即每个节点都拥有一前一后两个指针且头尾互链的链表.各种链表的简单区别如下:单向链表:基本链表:单向循环链表:不同于单向链表以 NULL 判断链表的尾部,单向循环链表的尾部链接到表头,因此当迭代操作到表头前即是尾部:双向链表:比单向链表多出指向前一个节点的指针,但实际上使用双向链表时很少使用不循环的:双向循环链表:相对于单向循环链表,双向循环链表可从头部反向迭代,这在链表长度很大且需要获取.插入或删除靠近链表尾部元素的时候十分高效.单向循环列表只能从表头正向迭代,执行的时间大于从反向

  • 用C++实现单向循环链表的解决方法

    用C++实现一个单向循环链表,从控制台输入整型数字,存储在单项循环链表中,实现了求链表大小.不足之处,还望指正! 复制代码 代码如下: // TestSound.cpp : 定义控制台应用程序的入口点.//实现单向循环链表#include "stdafx.h"#include <iostream>#include <string>using namespace std;//定义链表一个节点的结构体template <class T>struct NO

  • 详解C++循环创建多级目录及判断目录是否存在的方法

    C++循环创建多级目录 #include "unitfiles.h" #ifdef WIN32 #include <direct.h> #include <io.h> #elif LINUX #include <stdarg.h> #include <sys/stat.h> #endif #ifdef WIN32 #define ACCESS _access #define MKDIR(a) _mkdir((a)) #elif LINUX

  • 讲解C++的do while循环和循环语句的嵌套使用方法

    用do-while语句构成循环 do-while语句的特点是先执行循环体,然后判断循环条件是否成立.其一般形式为: do 语句 while (表达式); 它是这样执行的:先执行一次指定的语句(即循环体),然后判别表达式,当表达式的值为非零("真") 时,返回重新执行循环体语句,如此反复,直到表达式的值等于0为止,此时循环结束.可以用下图表示其流程. [例]用do-while语句求1+2+3+-+100. #include <iostream> using namespace

  • 解析C++中的for循环以及基于范围的for语句使用

    for循环语句 重复执行语句,直到条件变为 false. 语法 for ( init-expression ; cond-expression ; loop-expression ) statement; 备注 使用 for 语句可构建必须执行指定次数的循环. for 语句包括三个可选部分,如下表所示. for 循环元素 下面的示例将显示使用 for 语句的不同方法. #include <iostream> using namespace std; int main() { // The co

  • C++中的while循环和for循环语句学习教程

    C++ while循环 while语句的一般形式如下: while (表达式) 语句 其作用是: 当指定的条件为真(表达式为非0)时,执行while语句中的内嵌语句.其流程图见下图. 其特点是:先判断表达式,后执行语句.while循环称为当型循环. 例:求1+2+3+-+100. #include <iostream> using namespace std; int main( ) { int i=1,sum=0; while (i<=100) { sum=sum+i; i++; }

  • c++中for双循环的那些事

    情况1:如下,这样我们会发现,n输出为100,虽然两层循环的标识符都是i,然是两个做管辖的范围不同,具体情况不明~~~求大神解释 复制代码 代码如下: int main(int argc,char* argv[]){    int n=0;    int mx;    for (int i=0;i<10;i++)    {        for (int i=0;i<10;i++)        {            n++;        }    }    cout<<n&

  • C++循环队列实现模型

    本文实例讲述了C++循环队列实现模型.分享给大家供大家参考.具体分析如下: 前段时间在知乎上看到这样一个小题目: 用基本类型实现一队列,队列要求size是预先定义好的的.而且要求不可以使用语言自带的api,如C++的STL.普通的实现很简单,但是现在要求要尽可能的时间和空间复杂度的优化,要和语言自带的api比较时间和空间.这个队列还要支持如下的操作: constructor: 初始化队列 enqueue:入队 dequeue:出队 队列是一种基本的数据结构,在平常的应用中十分广泛,多数情况队列都

  • C++条件及循环语句的综合运用实例

    用下面公式求π的近似值.π/4≈1-1/3+1/5-1/7+-直到最后一项的绝对值小于10-7为止.根据给定的算法很容易编写程序如下: #include <iostream> #include <iomanip> #include <cmath> using namespace std; int main( ) { int s=1; double n=1,t=1,pi=0; while((fabs(t))>1e-7) { pi=pi+t; n=n+2; s=-s;

随机推荐