Go编译原理之函数内联

2025-04-05 04:27:15

前言

在前一篇文章中分享了编译器优化的变量捕获部分，本文分享编译器优化的另一个内容—函数内联。函数内联是指将将较小的函数内容，直接放入到调用者函数中，从而减少函数调用的开销

函数内联概述

我们知道每一个高级编程语言的函数调用，成本都是在与需要为它分配栈内存来存储参数、返回值、局部变量等等，Go的函数调用的成本在于参数与返回值栈复制、较小的栈寄存器开销以及函数序言部分的检查栈扩容（Go语言中的栈是可以动态扩容的，因为Go在分配栈内存不是逐渐增加的，而是一次性分配，这样是为了避免访问越界，它会一次性分配，当检查到分配的栈内存不够用时，它会扩容一个足够大的栈空间，并将原来栈中的内容拷贝过来）

下边写一段代码，通过Go的基准测试来测一下函数内联带来的效率提升

import "testing"
//go:noinline //禁用内联。如果要开启内联，将该行注释去掉即可
func max(a, b int) int {
	if a > b {
		return a
	}
	return b
}
var Result int
func BenchmarkMax(b *testing.B)  {
	var r int
	for i:=0; i< b.N; i++ {
		r = max(-1, i)
	}
	Result = r
}

在编译的过程中，Go的编译器其实会计算函数内联花费的成本，所以只有简单的函数，才会触发函数内联。在后边函数内联的源码实现中，我们可以看到下边这些情况不会被内联：

递归函数
函数前有如下注释的：go:noinline、go:norace、go:nocheckptr、go:uintptrescapes等
没有函数体
函数声明的抽象语法树中节点数大于5000（我的Go版本是1.16.6）（也就是函数内部语句太多的情况，也不会被内联）
函数中包含闭包（OCLOSURE）、range（ORANGE）、select（OSELECT）、go（OGO）、defer（ODEFER）、type（ODCLTYPE）、返回值是函数（ORETJMP）的，都不会内联

我们也可以构建或编译的时候，通过参数去控制它是否可以内联。如果希望程序中所有的函数都不执行内联操作

go build -gcflags="-l" xxx.go
go tool compile -l xxx.go

同样我们在编译时，也可以查看哪些函数内联了，哪些函数没内联，以及原因是什么

go tool compile -m=2 xxx.go

看一个例子

package main
func test1(a, b int) int {
	return a+b
}
func step(n int) int {
	if n &lt; 2 {
		return n
	}
	return step(n-1) + step(n-2)
}
func main()  {
	test1(1, 2)
	step(5)
}

可以看到test1这个函数是可以内联的，因为它的函数体很简单。step这个函数因为是递归函数，所以它不会进行内联

函数内联底层实现

这里边其实每一个函数调用链都很深，我这里不会一行一行的解释代码的含义，仅仅会将一些核心的方法拿出来介绍一下，感兴趣的小伙伴可以自己去调试一下(前边有发相关文章)（Go源码调试方法）

还是前边提到多次的Go编译入口文件，你可以在入口文件中找到这段代码

Go编译入口文件：src/cmd/compile/main.go -> gc.Main(archInit)
// Phase 5: Inlining
if Debug.l != 0 {
		// 查找可以内联的函数
		visitBottomUp(xtop, func(list []*Node, recursive bool) {
			numfns := numNonClosures(list)
			for _, n := range list {
				if !recursive || numfns > 1 {
					caninl(n)
				} else {
					......
				}
				inlcalls(n)
			}
		})
	}
	for _, n := range xtop {
		if n.Op == ODCLFUNC {
			devirtualize(n)
		}
	}

下边就看一下每个方法都在做哪些事情

visitBottomUp

该方法有两个参数：

xtop：前边已经见过它了，它存放的是每个声明语句的抽象语法树的根节点数组
第二个参数是一个函数（该函数也有两个参数，一个是满足是函数类型声明的抽象语法树根节点数组，一个是bool值，true表示是递归函数，false表示不是递归函数）

进入到visitBottomUp方法中，你会发现它主要是遍历xtop，并对每个抽象语法树的根节点调用了visit这个方法（仅针对是函数类型声明的抽象语法树）

func visitBottomUp(list []*Node, analyze func(list []*Node, recursive bool)) {
	var v bottomUpVisitor
	v.analyze = analyze
	v.nodeID = make(map[*Node]uint32)
	for _, n := range list {
		if n.Op == ODCLFUNC && !n.Func.IsHiddenClosure() { //是函数，并且不是闭包函数
			v.visit(n)
		}
	}
}

而visit方法的核心是调用了inspectList方法，通过inspectList对抽象语法树按照深度优先搜索进行遍历，并将每一个节点作为inspectList方法的第二个参数（是一个函数）的参数，比如验证这个函数里边是否有递归调用等（具体就是下边的switch case）

func (v *bottomUpVisitor) visit(n *Node) uint32 {
	if id := v.nodeID[n]; id > 0 {
		// already visited
		return id
	}
	......
	v.stack = append(v.stack, n)
	inspectList(n.Nbody, func(n *Node) bool {
		switch n.Op {
		case ONAME:
			if n.Class() == PFUNC {
				......
			}
		case ODOTMETH:
			fn := asNode(n.Type.Nname())
			......
			}
		case OCALLPART:
			fn := asNode(callpartMethod(n).Type.Nname())
			......
		case OCLOSURE:
			if m := v.visit(n.Func.Closure); m < min {
				min = m
			}
		}
		return true
	})
		v.analyze(block, recursive)
	}
	return min
}

后边通过调用visitBottomUp的第二个参数传递的方法，对抽象语法树进行内联的判断及内联操作，具体就是caninl和inlcalls这两个方法

caninl

该方法的作用就是验证是函数类型声明的抽象语法树是否可以内联

这个方法的实现很简单，首先是通过很多的if语句验证函数前边是否有像go:noinline等这种标记

func caninl(fn *Node) {
	if fn.Op != ODCLFUNC {
		Fatalf("caninl %v", fn)
	}
	if fn.Func.Nname == nil {
		Fatalf("caninl no nname %+v", fn)
	}
	var reason string // reason, if any, that the function was not inlined
	......
	// If marked "go:noinline", don't inline
	if fn.Func.Pragma&Noinline != 0 {
		reason = "marked go:noinline"
		return
	}
	// If marked "go:norace" and -race compilation, don't inline.
	if flag_race && fn.Func.Pragma&Norace != 0 {
		reason = "marked go:norace with -race compilation"
		return
	}
	......
	// If fn has no body (is defined outside of Go), cannot inline it.
	if fn.Nbody.Len() == 0 {
		reason = "no function body"
		return
	}
	visitor := hairyVisitor{
		budget:        inlineMaxBudget,
		extraCallCost: cc,
		usedLocals:    make(map[*Node]bool),
	}
	if visitor.visitList(fn.Nbody) {
		reason = visitor.reason
		return
	}
	if visitor.budget < 0 {
		reason = fmt.Sprintf("function too complex: cost %d exceeds budget %d", inlineMaxBudget-visitor.budget, inlineMaxBudget)
		return
	}
	n.Func.Inl = &Inline{
		Cost: inlineMaxBudget - visitor.budget,
		Dcl:  inlcopylist(pruneUnusedAutos(n.Name.Defn.Func.Dcl, &visitor)),
		Body: inlcopylist(fn.Nbody.Slice()),
	}
	......
}

这里边还有一个主要的方法就是visitList，它是用来验证函数里边是否有我们上边提到的go、select、range等等这些语句。对于满足内联条件的，它会将改写该函数声明抽闲语法树的内联字段(Inl)

inlcalls

该方法中就是具体的内联操作，比如将函数的参数和返回值转换为调用者中的声明语句等。里边的调用和实现都比较复杂，这里不粘代码了，大家可自行去看。函数内联的核心方法都在如下文件中

src/cmd/compile/internal/gc/inl.go

以上就是Go编译原理之函数内联的详细内容，更多关于Go编译原理函数内联的资料请关注我们其它相关文章！

Go语言编译原理之源码调试

目录前言 Goland的debug调试Go源码 dlv工具调试Go源码安装常用命令 dlv调试抽象语法树构建前言在前边几篇文章中分享了Go编译过程中的源码实现,本文主要是想分享一下我是怎么调试Go的源代码的(如果你很熟悉的话,可以跳过本文).本文主要是分享两种Go源码的调试方法 Goland的debug dlv工具本文我还会以抽象语法树为例,来通过dlv对它的构建过程进行调试 Goland的debug调试Go源码下边以调试Go编译的入口文件为例编辑debug配置填写配置信息打
go json编译原理XJSON实现四则运算

目录前言转义字符性能优化实现四则运算总结前言在上一篇中介绍了xjson的功能特性以及使用查询语法快速方便的获取JSON中的值. 同时这次也更新了一个版本,主要是两个升级: 对转义字符的支持. 性能优化,大约提升了30%️. 转义字符先说第一个转义字符,不管是原始JSON字符串中存在转义字符,还是查询语法中存在转义字符都已经支持,具体用法如下: str = `{"1a.b.[]":"b"}` get = Get(str, "1a\\.b\\.
Go语言编译原理之变量捕获

目录前言变量捕获概述变量捕获底层实现总结前言在前边的几篇文章中已经基本分享完了编译器前端的一些工作,后边的几篇主要是关于编译器对抽象语法树进行分析和重构,然后完成一系列的优化,其中包括以下五个部分: 变量捕获函数内联逃逸分析闭包重写遍历函数后边的五篇文章主要就是上边这五个主题,本文分享的是变量捕获,变量捕获主要是针对闭包场景的,因为闭包函数中可能引用闭包外的变量,因此变量捕获需要明确在闭包中通过值引用或地址引用的方式来捕获变量变量捕获概述下边通过一个示例来看一下什么是变
Go编译原理之函数内联

目录前言函数内联概述函数内联底层实现 visitBottomUp caninl inlcalls 前言在前一篇文章中分享了编译器优化的变量捕获部分,本文分享编译器优化的另一个内容—函数内联.函数内联是指将将较小的函数内容,直接放入到调用者函数中,从而减少函数调用的开销函数内联概述我们知道每一个高级编程语言的函数调用,成本都是在与需要为它分配栈内存来存储参数.返回值.局部变量等等,Go的函数调用的成本在于参数与返回值栈复制.较小的栈寄存器开销以及函数序言部分的检查栈扩容(Go语言中的栈
C++编程中队内联函数的理解和使用

函数调用过程 c++经过编译生成可执行程序文件exe,存放在外存储器中.程序启动,系统从外存储器中将可执行文件装载到内存中,从入口地址(main函数起始处)开始执行.程序执行中遇到了对其他函数的调用,就暂停当前函数的执行,并保存下一条指令的地址作为从被调函数返回后继续执行的入口点,保存现场.然后转到被调函数的入口地址执行被调函数.遇到return语句或者被调函数结束后,恢复先前保存的现场,从先前保存的返回地址处继续执行主调函数的其余部分. 内联函数函数调用需要进行现场保护,以便在函数调用之后继
C++ 引用与内联函数详情

目录引用初阶什么是引用为何要有引用引用指向同一块空间引用的特性定义时必须初识化一个变量可以多次引用引用一旦引用了一个实例,不能在再引用其他的实例引用进阶常引用权限临时变量具有常属性引用的场景做参数返回值引用做返回值引用不会开辟空间引用和指针比较内联函数为何存在内联函数展开短小的函数内联函数的特性较大的函数编译器不会发生内联声明定义一起引用初阶引用是C++的特性的之一,不过C++没有没有给引用特意出一个关键字,使用了操作符的重载.引用在C++中
浅谈内联函数与宏定义的区别详解

用内联取代宏:1.内联函数在运行时可调试,而宏定义不可以;2.编译器会对内联函数的参数类型做安全检查或自动类型转换(同普通函数),而宏定义则不会: 3.内联函数可以访问类的成员变量,宏定义则不能: 4.在类中声明同时定义的成员函数,自动转化为内联函数.文章(一)内联函数与宏定义在C中,常用预处理语句#define来代替一个函数定义.例如: #define MAX(a,b) ((a)>(b)?(a):(b)) 该语句使得程序中每个出现MAX(a,b)函数调用的地方都被宏定义中后面的表达式((a)
C++入门(命名空间,缺省参数,函数重载,引用,内联函数,auto,范围for)

一.C++关键字 C++总共有63个关键字,在入门阶段我们只是大致了解一下就可,在后续博客中会逐渐讲解二.命名空间相信学过C++的同学,一定都写过下面这个简单的程序 #include<iostream> using namespace std; int main() { cout<<"hello world"<<endl; return 0; } 我们先来看第二行代码,using namespace std , 这行代码是什么意思呢 ? 这里我们
深入理解C++内联函数

目录内联函数的概念内联函数和宏内联函数的特性总结内联函数的概念以inline修饰的函数叫做内联函数,编译时C++编译器会在调用内联函数的地方展开,没有函数压栈的开销,内联函数的使用可以提升程序的运行效率. 举个例子: 在C++中我们通常定义以下函数来求两个整数的最大值: 代码如下: int max(int a, int b) { return a > b ? a : b; } 为这么一个小的操作定义一个函数的好处有: 阅读和理解函数 max 的调用,要比读一条等价的条件表达式并解释它
C++深入分析内联函数的使用

目录一.常量与宏回顾二.内联函数三.内联函数使用注意事项四.小结一.常量与宏回顾 C++中的const常量可以替代宏常数定义,如︰但是C++中是否有解决方替代宏代码片段呢?这里就要引入内联函数. 二.内联函数 C++中推荐使用内联函数替代宏代码片段 C++中使用 inline 关键字声明内联函数内联函数声明时inline关键字必须和函数定义结合在一起,否则编译器会直接忽略内联请求 C++编译器可以将一个函数进行内联编译被C++编译器内联编译的函数叫做内联函数 C++编译器直接将函
C++超详细分析讲解内联函数

目录宏函数(带参数的宏)的缺点 inline修饰的函数就是内联函数内联函数的特点宏函数和内联函数的区别宏函数(带参数的宏)的缺点第一个问题:宏函数看起来像一个函数调用,但是会有隐藏一些难以发现的问题. 例如: #define FUN(x, y) (x * y) printf("%d", add(3, 3 + 2)) //3 * 3 + 2 = 11 以上情况可以通过加 “()” 解决: #define FUN(x, y) (x * y) printf("%d&quo
c++ 内联函数和普通函数的区别

前言内联函数是c++为了提高程序的运行速度做的改进,它与普通函数区别在于: 编译器如何将它们组合到程序中.所以我们需要深入到程序内部. 我们的最终的可执行程序由一组机器指令组成.程序运行时,计算机逐步执行指令. Ⅰ.常规函数常规函数调用时会使程序跳到另一个地址(函数的地址),并且在函数结束时返回. 执行函数调用指令,立即存储该指令的地址,并将函数参数保存到的堆栈. 跳到函数起点的内存单元,执行函数代码(将返回值保存到寄存器中. 跳回被保存指令的地址处. 这一过程和系统中的中断很类似.来回跳
C++中类的成员函数及内联函数使用及说明

目录成员函数成员函数中出现的参数类相关的非成员函数自己定义的对象作为函数的形参成员函数返回值是对象的引用成员函数调用成员函数内联函数成员函数即在类内定义的方法.通过对象名.成员函数()的方式可以调用. 一般将成员函数定义在类外,因为成员函数一般比较复杂. 简单的成员函数可以定义在类内,定义在类外的方式如下所示: 成员函数中出现的参数对于成员函数中出现的参数,首先先在成员函数内部查找其声明,如在成员函数内没找到,则在类内寻找,类内所有权限的成员都可以被考虑,即使声明部分出现在函