如何调用C标准库的exit函数详解

编译大于运算符

原定的计划中这一篇应当是要讲如何编译if表达式的,但是我发现没什么东西可以作为if的test-form的部分的表达式,所以觉得,要不还是先实现一下比较两个数字这样子的功能吧。说干就干,我决定用大于运算符来作为例子——大于运算符就是指>啦。所以,我的目标是要编译下面这样的代码

(> 1 2)

并且比较之后的结果要放在EAX寄存器中。鉴于现在这门语言还非常地简陋,没有布尔类型这样子的东西,所以在此仿照C语言的处置方式,以数值0表示逻辑假,其它的值表示逻辑真。所以上面的表达式在编译成汇编代码并最终运行后,应当可以看到EAX寄存器中的值为0。

为了编译大于运算符,并且将结果放入到EAX寄存器中,需要用到新的指令CMP、JG,以及JMP了。我的想法是,先将第一个操作数放入到EAX寄存器,将第二个操作数放入到EBX寄存器。然后,使用CMP指令比较这两个寄存器。如果EAX中的数值大于EBX,那么就使用JG指令跳到一个MOV指令上,这道MOV会将寄存器EAX的值修改为1;否则,JG不被执行,执行后续的一道MOV指令,将数值0写入到EAX寄存器,然后使用JMP跳走,避免又执行到了刚才的第一道MOV指令。思路还是挺简单的。

在修改jjcc2之前,还需要在inside-out/aux中对>予以支持,但没什么特别的,就是往member的参数中加入>这个符号而已。之后,将jjcc2改为如下的形式

(defun jjcc2 (expr globals)
 "支持两个数的四则运算的编译器"
 (check-type globals hash-table)
 (cond ((eq (first expr) '+)
  `((movl ,(get-operand expr 0) %eax)
  (movl ,(get-operand expr 1) %ebx)
  (addl %ebx %eax)))
 ((eq (first expr) '-)
  `((movl ,(get-operand expr 0) %eax)
  (movl ,(get-operand expr 1) %ebx)
  (subl %ebx %eax)))
 ((eq (first expr) '*)
  ;; 将两个数字相乘的结果放到第二个操作数所在的寄存器中
  ;; 因为约定了用EAX寄存器作为存放最终结果给continuation用的寄存器,所以第二个操作数应当为EAX
  `((movl ,(get-operand expr 0) %eax)
  (movl ,(get-operand expr 1) %ebx)
  (imull %ebx %eax)))
 ((eq (first expr) '/)
  `((movl ,(get-operand expr 0) %eax)
  (cltd)
  (movl ,(get-operand expr 1) %ebx)
  (idivl %ebx)))
 ((eq (first expr) 'progn)
  (let ((result '()))
  (dolist (expr (rest expr))
  (setf result (append result (jjcc2 expr globals))))
  result))
 ((eq (first expr) 'setq)
  ;; 编译赋值语句的方式比较简单,就是将被赋值的符号视为一个全局变量,然后将eax寄存器中的内容移动到这里面去
  ;; TODO: 这里expr的second的结果必须是一个符号才行
  ;; FIXME: 不知道应该赋值什么比较好,先随便写个0吧
  (setf (gethash (second expr) globals) 0)
  (values (append (jjcc2 (third expr) globals)
    ;; 为了方便stringify函数的实现,这里直接构造出RIP-relative形式的字符串
    `((movl %eax ,(get-operand expr 0))))
   globals))
 ((eq (first expr) '_exit)
  ;; 因为知道_exit只需要一个参数,所以将它的第一个操作数塞到EDI寄存器里面就可以了
  ;; TODO: 更好的写法,应该是有一个单独的函数来处理这种参数传递的事情(以符合calling convention的方式)
  `((movl ,(get-operand expr 0) %edi)
  (movl #x2000001 %eax)
  (syscall)))
 ((eq (first expr) '>)
  ;; 为了可以把比较之后的结果放入到EAX寄存器中,以我目前不完整的汇编语言知识,可以想到的方法如下
  (let ((label-greater-than (intern (symbol-name (gensym)) :keyword))
  (label-end (intern (symbol-name (gensym)) :keyword)))
  ;; 根据这篇文章(https://en.wikibooks.org/wiki/X86_Assembly/Control_Flow#Comparison_Instructions)中的说法,大于号左边的数字应该放在CMP指令的第二个操作数中,右边的放在第一个操作数中
  `((movl ,(get-operand expr 0) %eax)
  (movl ,(get-operand expr 1) %ebx)
  (cmpl %ebx %eax)
  (jg ,label-greater-than)
  (movl $0 %eax)
  (jmp ,label-end)
  ,label-greater-than
  (movl $1 %eax)
  ,label-end)))))

然后便可以在REPL中运行下列代码了

(let* ((ht (make-hash-table))
 (asm (jjcc2 (inside-out '(_exit (> 1 2))) ht)))
 (stringify asm ht))

输出的汇编代码为

 .data
G809: .long 0
 .section __TEXT,__text,regular,pure_instructions
 .globl _main
_main:
 MOVL $1, %EAX
 MOVL $2, %EBX
 CMPL %EBX, %EAX
 JG G810
 MOVL $0, %EAX
 JMP G811
G810:
 MOVL $1, %EAX
G811:
 MOVL %EAX, G809(%RIP)
 MOVL G809(%RIP), %EDI
 MOVL $33554433, %EAX
 SYSCALL

编译链接运行后,就可以得到预期的结果了。下面开始本文的正文

调用C标准库的exit函数

在上面的介绍中,实现了对大于号(>)的处理,那么对if表达式的编译也就是信手拈来的事了,不解释太多。在本篇中,将会讲述一下如何产生可以调用来自于C语言标准库的exit(3)函数的汇编代码。

在Common Lisp中并没有一个叫做EXIT的内置函数,所以如同之前实现的_exit一样,我会新增一种需要识别的(first expr),即符号exit。为了可以调用C语言标准库中的exit函数,需要遵循调用约定。对于exit这种只有一个参数的函数而言,情形比较简单,只需要跟对_exit一样处理即可。刚开始,我写下的代码是这样的

(defun jjcc2 (expr globals)
 ;; 省略不必要的内容
 (cond ;; 省略不必要的内容
 ((member (first expr) '(_exit exit))
  ;; 暂时以硬编码的方式识别一个函数是否来自于C语言的标准库
  `((movl ,(get-operand expr 0) %edi)
  (call :|_exit|)))))

对(exit 1)进行编译,会得到如下的代码

 .data
 .section __TEXT,__text,regular,pure_instructions
 .globl _main
_main:
 MOVL $1, %EDI
 CALL _exit

不过这样的代码经过编译链接之后,一运行就会遇到段错误(segmentation fault)。经过一番放狗搜索后,才知道原来在macOS上调用C函数的时候,需要先将栈对齐到16字节——我将其理解为将指向栈顶的指针对齐到16字节。于是乎,我将jjcc2修改为如下的形式

(defun jjcc2 (expr globals)
 ;; 省略不必要的内容
 (cond ;; 省略不必要的内容
 ((member (first expr) '(_exit exit))
  ;; 暂时以硬编码的方式识别一个函数是否来自于C语言的标准库
  `((movl ,(get-operand expr 0) %edi)
  ;; 据这篇回答(https://stackoverflow.com/questions/12678230/how-to-print-argv0-in-nasm)所说,在macOS上调用C语言函数,需要将栈对齐到16位
  ;; 假装要对齐的是栈顶地址。因为栈顶地址是往低地址增长的,所以只需要将地址的低16位抹掉就可以了
  (and ,(format nil "$0x~X" #XFFFFFFF0) %esp)
  (call :|_exit|)))))

结果发现还是不行。最后,实在没辙了,只好先写一段简单的C代码,然后用gcc -S生成汇编代码,来看看究竟应当如何处理这个栈的对齐要求。一番瞎折腾之后,发现原来是要处理RSP寄存器而不是ESP寄存器——我也不晓得这是为什么,ESP不就是RSP的低32位而已么。

最后,把jjcc2写成下面这样后,终于可以成功编译(exit 1)了

(defun jjcc2 (expr globals)
 "支持两个数的四则运算的编译器"
 (check-type globals hash-table)
 (cond ((eq (first expr) '+)
   `((movl ,(get-operand expr 0) %eax)
   (movl ,(get-operand expr 1) %ebx)
   (addl %ebx %eax)))
  ((eq (first expr) '-)
   `((movl ,(get-operand expr 0) %eax)
   (movl ,(get-operand expr 1) %ebx)
   (subl %ebx %eax)))
  ((eq (first expr) '*)
   ;; 将两个数字相乘的结果放到第二个操作数所在的寄存器中
   ;; 因为约定了用EAX寄存器作为存放最终结果给continuation用的寄存器,所以第二个操作数应当为EAX
   `((movl ,(get-operand expr 0) %eax)
   (movl ,(get-operand expr 1) %ebx)
   (imull %ebx %eax)))
  ((eq (first expr) '/)
   `((movl ,(get-operand expr 0) %eax)
   (cltd)
   (movl ,(get-operand expr 1) %ebx)
   (idivl %ebx)))
  ((eq (first expr) 'progn)
   (let ((result '()))
   (dolist (expr (rest expr))
    (setf result (append result (jjcc2 expr globals))))
   result))
  ((eq (first expr) 'setq)
   ;; 编译赋值语句的方式比较简单,就是将被赋值的符号视为一个全局变量,然后将eax寄存器中的内容移动到这里面去
   ;; TODO: 这里expr的second的结果必须是一个符号才行
   ;; FIXME: 不知道应该赋值什么比较好,先随便写个0吧
   (setf (gethash (second expr) globals) 0)
   (values (append (jjcc2 (third expr) globals)
       ;; 为了方便stringify函数的实现,这里直接构造出RIP-relative形式的字符串
       `((movl %eax ,(get-operand expr 0))))
     globals))
  ;; ((eq (first expr) '_exit)
  ;; ;; 因为知道_exit只需要一个参数,所以将它的第一个操作数塞到EDI寄存器里面就可以了
  ;; ;; TODO: 更好的写法,应该是有一个单独的函数来处理这种参数传递的事情(以符合calling convention的方式)
  ;; `((movl ,(get-operand expr 0) %edi)
  ;; (movl #x2000001 %eax)
  ;; (syscall)))
  ((eq (first expr) '>)
   ;; 为了可以把比较之后的结果放入到EAX寄存器中,以我目前不完整的汇编语言知识,可以想到的方法如下
   (let ((label-greater-than (intern (symbol-name (gensym)) :keyword))
    (label-end (intern (symbol-name (gensym)) :keyword)))
   ;; 根据这篇文章(https://en.wikibooks.org/wiki/X86_Assembly/Control_Flow#Comparison_Instructions)中的说法,大于号左边的数字应该放在CMP指令的第二个操作数中,右边的放在第一个操作数中
   `((movl ,(get-operand expr 0) %eax)
    (movl ,(get-operand expr 1) %ebx)
    (cmpl %ebx %eax)
    (jg ,label-greater-than)
    (movl $0 %eax)
    (jmp ,label-end)
    ,label-greater-than
    (movl $1 %eax)
    ,label-end)))
  ((eq (first expr) 'if)
   ;; 假定if语句的测试表达式的结果也是放在%eax寄存器中的,所以只需要拿%eax寄存器中的值跟0做比较即可(类似于C语言)
   (let ((label-else (intern (symbol-name (gensym)) :keyword))
    (label-end (intern (symbol-name (gensym)) :keyword)))
   (append (jjcc2 (second expr) globals)
     `((cmpl $0 %eax)
      (je ,label-else))
     (jjcc2 (third expr) globals)
     `((jmp ,label-end)
      ,label-else)
     (jjcc2 (fourth expr) globals)
     `(,label-end))))
  ((member (first expr) '(_exit exit))
   ;; 暂时以硬编码的方式识别一个函数是否来自于C语言的标准库
   `((movl ,(get-operand expr 0) %edi)
   ;; 据这篇回答(https://stackoverflow.com/questions/12678230/how-to-print-argv0-in-nasm)所说,在macOS上调用C语言函数,需要将栈对齐到16位
   ;; 假装要对齐的是栈顶地址。因为栈顶地址是往低地址增长的,所以只需要将地址的低16位抹掉就可以了
   (and ,(format nil "$0x~X" #XFFFFFFFFFFFFFFF0) %rsp)
   (call :|_exit|)))))

生成的汇编代码如下

  .data
  .section __TEXT,__text,regular,pure_instructions
  .globl _main
_main:
  MOVL $1, %EDI
  AND $0xFFFFFFFFFFFFFFF0, %RSP
  CALL _exit

好了,这个时候我就在想,如果想要支持其它来自C语言标准库的函数的话,只要依葫芦画瓢就好了,好像还挺简单的——天真的我如此天真地想着。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对我们的支持。

(0)

相关推荐

  • C++ 中exit(),_exit(),return,abort()函数的区别

    exit()函数与_exit()函数及return关键字的区别: exit()和_exit()函数都可以用于结束进程,不过_exit()调用之后会立即进入内核,而exit()函数会先执行一些清理之后才会进入内核,比如调用各种终止处理程序,关闭所有I/O流等,我建议直接在Linux的终端中查看man手册,手册的内容是最官方的,而且不会有错,手册的英文是为全世界的程序员做的,所以手册的英语不会难. 1. 实例代码: #include <unistd.h> void _exit(int status

  • 详解C语言中return与exit的区别

    详解C语言中return与exit的区别 1,exit用于在程序运行的过程中随时结束程序,exit的参数是返回给OS的.main函数结束时也会隐式地调用exit函数.exit函数运行时首先会执行由atexit()函数登记的函数,然后会做一些自身的清理工作,同时刷新所有输出流.关闭所有打开的流并且关闭通过标准I/O函数tmpfile()创建的临时文件.exit是结束一个进程,它将删除进程使用的内存空间,同时把错误信息返回父进程,而return是返回函数值并退出函数 2,return是语言级别的,它

  • c语言中return与exit的区别浅析

    1. exit 用于在程序运行的过程中随时结束程序,exit 的参数是返回给OS的.main函数结束时也会隐式地调用exit函数.exit函数运行时首先会执行由atexit()函数登记的函数,然后会做一些自身的清理工作,同时刷新所有输出流.关闭所有打开的流并且关闭通过标准I/O函数tmpfile()创建的临时文件.exit是结束一个进程,它将删除进程使用的内存空间,同时把错误信息返回父进程,而return是返回函数值并退出函数. 2. return是语言级别的,它表示了调用堆栈的返回:而exit

  • 如何调用C标准库的exit函数详解

    编译大于运算符 原定的计划中这一篇应当是要讲如何编译if表达式的,但是我发现没什么东西可以作为if的test-form的部分的表达式,所以觉得,要不还是先实现一下比较两个数字这样子的功能吧.说干就干,我决定用大于运算符来作为例子--大于运算符就是指>啦.所以,我的目标是要编译下面这样的代码 (> 1 2) 并且比较之后的结果要放在EAX寄存器中.鉴于现在这门语言还非常地简陋,没有布尔类型这样子的东西,所以在此仿照C语言的处置方式,以数值0表示逻辑假,其它的值表示逻辑真.所以上面的表达式在编译成

  • Golang 标准库 tips之waitgroup详解

    WaitGroup 用于线程同步,很多场景下为了提高并发需要开多个协程执行,但是又需要等待多个协程的结果都返回的情况下才进行后续逻辑处理,这种情况下可以通过 WaitGroup 提供的方法阻塞主线程的执行,直到所有的 goroutine 执行完成. 本文目录结构: WaitGroup 不能被值拷贝 Add 需要在 Wait 之前调用 使用 channel 实现 WaitGroup 的功能 Add 和 Done 数量问题 WaitGroup 和 channel 控制并发数 WaitGroup 和

  • python 标准库原理与用法详解之os.path篇

    os中的path 查看源码会看到,在os.py中有这样几行 if 'posix' in _names: name = 'posix' linesep = '\n' from posix import * #省略若干代码 elif 'nt' in _names: from nt import * try: from nt import _exit __all__.append('_exit') except ImportError: pass import ntpath as path #...

  • Python标准库time使用方式详解

    目录 1.time库 1.1.获取格林威治西部的夏令时地区的偏移秒数 1.2.时间函数 1.3.格式化时间.日期 1.4.单调时钟 1.time库 时间戳(timestamp)的方式:通常来说,时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量 结构化时间(struct_time)方式:struct_time元组共有9个元素 格式化的时间字符串(format_string),时间格式的字符串 1.1.获取格林威治西部的夏令时地区的偏移秒数 如果该地区在格林威治东部会返回负值(

  • 对python3标准库httpclient的使用详解

    如下所示: import http.client, urllib.parse import http.client, urllib.parse import random USER_AGENTS = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; M

  • PHP SPL标准库之接口(Interface)详解

    PHP SPL标准库总共有6个接口,如下: 1.Countable 2.OuterIterator 3.RecursiveIterator 4.SeekableIterator 5.SplObserver 6.SplSubject 其中OuterIterator.RecursiveIterator.SeekableIterator都是继承Iterator类的,下面会对每种接口作用和使用进行详细说明. Coutable接口: 实现Countable接口的对象可用于count()函数计数. 复制代码

  • Python标准库shutil用法实例详解

    本文实例讲述了Python标准库shutil用法.分享给大家供大家参考,具体如下: shutil模块提供了许多关于文件和文件集合的高级操作,特别提供了支持文件复制和删除的功能. 文件夹与文件操作 copyfileobj(fsrc, fdst, length=16*1024): 将fsrc文件内容复制至fdst文件,length为fsrc每次读取的长度,用做缓冲区大小 fsrc: 源文件 fdst: 复制至fdst文件 length: 缓冲区大小,即fsrc每次读取的长度 import shuti

  • python标准库OS模块函数列表与实例全解

    Python OS模块库详解 os就是"operating system"的缩写,顾名思义,os模块提供的就是各种 Python 程序与操作系统进行交互的接口.通过使用os模块,一方面可以方便地与操作系统进行交互,另一方面页可以极大增强代码的可移植性.如果该模块中相关功能出错,会抛出OSError异常或其子类异常. 注意 如果是读写文件的话,建议使用内置函数open(): 如果是路径相关的操作,建议使用os的子模块os.path: 如果要逐行读取多个文件,建议使用fileinput模块

  • c/c++ 标准库 bind 函数详解

    bind函数定义在头文件 functional 中.可以将 bind 函数看作一个通用的函数适配器,它接受一个可调用对象,生成一个新的可调用对象来"适应"原对象的参数列表. bind函数:接收一个函数名作为参数,生成一个新的函数. auto newCallable = bind(callbale, arg_list); arg_list中的参数可能包含入_1, _2等,这些是新函数newCallable的参数. 在这篇博客lambda 表达式 介绍 中,讨论了find_if的第三个参数

  • 详解C标准库堆内存函数

    概述 C标准库堆内存函数有4个:malloc.free.calloc.realloc,其函数声明放在了#include <stdlib.h>中,主要用来申请和释放堆内存. 堆内存的申请和释放(wiki,chs),需要发起系统调用,会带来昂贵的上下文切换(用户态切换到内核态),十分耗时.另外,这些过程可能是带锁的,难以并行化. 对于操作系统而言,内存管理的基本单位是页(通常为4K),而不是需要4 Bytes时,就给你分配4 Bytes,释放4 Bytes时,就给你释放4 Bytes. 因此,为了

随机推荐