C指针原理教程之AT&T汇编

汇编在LINUX系统下的意义远远大于WINDOWS系统,LINUX内核部分代码就是汇编编写的。然后,绝大多数 Linux 程序员以前只接触过DOS/Windows 下的汇编语言,这些汇编代码都是 Intel 风格的。但在 Unix 和 Linux 系统中,更多采用的还是 AT&T 格式,两者在语法格式上有着很大的不同,因此应对AT&T汇编应有一个基本的了解和熟悉。

我们在LINUX下用C编写一段最简单的helloworld程序,命令为hello.c

#include <stdio.h>
 int main()
{
printf("hello,world\n");
 exit(0);
}

然后,使用GCC编译,同时使用-s参数生成中间汇编代码,看看AT&T汇编的真实面目

.section .data#初始化的变量
output:
   .ascii "hello,world\n"
   #要打印的字符串,.data为初始化值的变量。output是标签,指示字符串开始的位置,ascii为数据类型
.section .bss#未初始化的变量,由0填充的缓冲区
   .lcomm num,20
   #lcomm为本地内存区域,即本地汇编外的不能进行访问。.comm是通用内存区域。
.section .text#汇编语言指令码
   .globl _start#启动入口
   _start:
   movl $4,%eax#调用的系统功能,4为write  
   movl $output,%ecx#要打印的字符串
   movl $1,%ebx#文件描述符,屏幕为1  
   movl $12,%edx#字符串长度
   int $0x80#显示字符串hello,world
   movl $0,%eax
   movl $num,%edi
   movl $65,1(%edi)#A 的ascii
   movl $66,2(%edi)#B 的ascii
   movl $67,3(%edi)#C 的ascii
   movl $68,4(%edi)#D 的ascii
   movl $10,5(%edi)#\n的ascii
   movl $4,%eax#调用的系统功能,4为write   
   movl $num,%ecx#要打印的字符串 
   movl $1,%ebx#文件描述符,屏幕为1  
   movl $6,%edx#字符串长度
   int $0x80#显示字符串ABCD
   movl $1,%eax#1为退出
   movl $0,%ebx#返回给shell的退出代码值
   int $0x80#内核软中断,退出系统

gcc -S hello.c

.file  "hello.c"

  .section  .rodata

.LC0:

  .string "hello,world"

  .text

.globl main

  .type  main, @function

main:

  pushl  %ebp

  movl  %esp, %ebp

  andl  $-16, %esp

  subl  $16, %esp

  movl  $.LC0, (%esp)

  call  puts

  movl  $0, (%esp)

  call  exit

  .size  main, .-main

  .ident "GCC: (Ubuntu 4.4.3-4ubuntu5) 4.4.3"

  .section  .note.GNU-stack,"",@progbits

汇编器(assembler)的作用是将用汇编语言编写的源程序转换成二进制形式的目标代码。Linux 平台的标准汇编器是 GAS,它是 GCC 所依赖的后台汇编工具,通常包含在 binutils 软件包中。
AT&T汇编主要有以下特点:
1、在 AT&T 汇编格式中,寄存器名要加上 '%' 作为前缀。

如:

把eax寄存器的内容复制到ebx中

movl %eax,%ebx
2、用 '$' 前缀表示一个立即操作数。

如:将1复制到eax中

movl $1, %eax
3、目标操作数在源操作数的右边

movl %eax,%ebx
eax是源操作数,ebx是目标操作数
4、在 AT&T 汇编格式中,操作数的字长由操作符的最后一个字母决定,后缀'b'、'w'、'l'分别表示操作数为字节(byte,8 比特)、字(word,16 比特)和长字(long,32比特)

比如:

movl对32位进行操作,将eax寄存器32位的内容复制到ebx中

movl %eax, %ebx

movw对16位进行操作,将ax寄存器的内容复制到bx中

movw %ax, %bx

movb对8位进行操作,将al寄存器的内容复制到bl中

movb %al, %bl

我们再以入栈为例:

pushl %ecx  # 32位ecx的内容入栈

pushw %cx   # 16位ecx的内容入栈

pushl $180  # 80做为一个32位整数入栈

pushl data  # data变量内容入栈,长度为32位

pushl $data # 这一个操作很特别,在变量前面加上$表示取变量的地址,这是将data变量的地址入栈
5、在 AT&T 汇编格式中,绝对转移和调用指(jump/call)的操作数前要加上'*'作为前缀
6、远程转移指令和远程子调用指令的操作码,在 AT&T 汇编格式中为 ljump和lcall
我们从生成的中间代码可以看出这几个特点。

我们再来看一段用AT&T汇编编写的helloworld程序。

.section .data#初始化的变量
output:
  .ascii "hello,world\n"
  #要打印的字符串,.data为初始化值的变量。output是标签,指示字符串开始的位置,ascii为数据类型
.section .bss#未初始化的变量,由0填充的缓冲区
  .lcomm num,20
  #lcomm为本地内存区域,即本地汇编外的不能进行访问。.comm是通用内存区域。
.section .text#汇编语言指令码
  .globl _start#启动入口
  _start:
  movl $4,%eax#调用的系统功能,4为write
  movl $output,%ecx#要打印的字符串
  movl $1,%ebx#文件描述符,屏幕为1
  movl $12,%edx#字符串长度
  int $0x80#显示字符串hello,world

  movl $0,%eax
  movl $num,%edi
  movl $65,1(%edi)#A 的ascii
  movl $66,2(%edi)#B 的ascii
  movl $67,3(%edi)#C 的ascii
  movl $68,4(%edi)#D 的ascii
  movl $10,5(%edi)#\n的ascii 

  movl $4,%eax#调用的系统功能,4为write
  movl $num,%ecx#要打印的字符串
  movl $1,%ebx#文件描述符,屏幕为1
  movl $6,%edx#字符串长度
  int $0x80#显示字符串ABCD

  movl $1,%eax#1为退出
  movl $0,%ebx#返回给shell的退出代码值

  int $0x80#内核软中断,退出系统

我们对上面这段汇编代码的结构和内容进行解说:

1、.section .data段存放着初始化的变量, .section .bss段存放着未初始化的变量

2、变量的定义采用以下格式:
变量名:
  变量类型 变量值
上面代码中的output变量就是这么定义的
output:
   .ascii "hello,world\n"
下面例子定义了多个变量
.section .data
msg:
.ascii “This is a text”
x:
.double 109.45, 2.33, 19.16
y:
.int 89
z:
.int 21, 85, 27
 
.equ  a 8
 
其中,msg为字符符,x为双精度符点数,y和z为整数,a是一个特别的定义,它的是一个静态变量的定义,使用.equ 变量名 变量值来实现

3、.section .bss段中变量访问区域的定义规则为:

lcomm为本地内存区域,即本地汇编外的不能进行访问,而.comm是通用内存区域
比如上面的定义
 .lcomm num,20 
num为本地内存区域。

4、section .text段为汇编语言指令码,使用.globl _start指示_start标记后的代码为程序启动入口。

5、#表示注释,上面代码的其它部分均有注释,有汇编基础的程序员应很容易理解

变量的类型有以下几种:
.ascii 文本字符串
.asciz 以NULL结束的文本字符串
.byte  字节值
.double 双精度符点数
.float 单精度符点数
.int 32位整数
.long 32位整数
.octa 16位整数
.quad 8位整数
.short 16位整数
.single 单精度符点数

此外,AT&T汇编经常会涉及字节顺序反转,比较加载,交换,压入弹出所有寄存器等操作,以下例子涉及了这些操作,
每行代码都有详细的注释。

.bss段定义的数据元素为未初始化的变量,在运行时对其进行初始化。

可分为数据通用内存区域和本地通用内存区域

本地通用内存区域不能从本地汇编代码之外进行访问。

.text段存放代码

(0)

相关推荐

  • C指针原理教程之Ncurses介绍

    1.安装Ncurses Ncurses是一个能提供功能键定义(快捷键),屏幕绘制以及基于文本终端的图形互动功能的动态库. Ncurses是一个能提供基于文本终端窗口功能的动态库. Ncurses可以: · 只要您喜欢,您可以使用整个屏幕 · 创建和管理一个窗口 · 使用8种不同的彩色 · 为您的程序提供鼠标支持 · 使用键盘上的功能键 Ubuntu下 mysea@mysea-desktop:~$ sudo apt-get install libncurses5-dbg libncurses5-d

  • C指针原理教程之垃圾回收-内存泄露

    一.内存泄露 1.正常的链表操作 下面程序建立一个10元素的链表,输出它们的节点,每个节点是一个员工的工号和年龄.最后删除每个节点,释放列表. dp@dp:~/memorytest % cat 1.c #include <stdlib.h> #include <stdio.h> //code:myhaspl@myhaspl.com //author:myhaspl //date:2014-01-10 typedef struct listnode mynode; struct li

  • C指针原理教程之C指针基础

    tcctok.h定义了C语言的词法分析的基本元素,主要定义了关键字. / keywords /      DEF(TOK_INT, "int")      DEF(TOK_VOID, "void")      DEF(TOK_CHAR, "char")      DEF(TOK_IF, "if")      DEF(TOK_ELSE, "else")      DEF(TOK_WHILE, "wh

  • C指针原理教程之C快速入门

    一.C简介 1.C语言简介 C语言是一门语法 精简的语言,它的关键字仅有32个,C语言以main函数为主函数,程序编译运行后后,执行的就是main函数的内容,因此,纵观很多C语言程序,形成了一道有趣的风景线:头文件和许多c代码文件以main函数为中心和起始点构造,在main函数中调用了这些文件中编写的代码,引用头文件.C语言程序实质就是在程序中调用 C标准库提供的函数.其它C库提供的函数.操作系统提供的API接口.自己定义的函数,同时应用适当的数据结构和算法来完成工作. C语言虽然精简,但却很强

  • C指针原理教程之语法树及其实现

    下面完成一个简单的计算器通过语法树进行计算,首先定义一个语法树的结构,然后编写flex文件,解析数字或符号,对于 符号返回本身,对于数字,返回NUMBER,并对yylval的d进行赋值,yylval指向一个联合类型,接着,在语法分析器中完成语法树的节点的增加,分别对应数字和符号有不同的增加方式,最后有一个单独的C代码处理计算,以及语法树相关计算的函数.对结果的计算的方式是对语法树进行递归. 词法分析器为: dp@dp:~/flexbison % cat myast.l %option noyyw

  • C指针原理教程之编译原理-小型计算器实现

    1.打开cygwin,进入home目录,home目录在WINDOWS系统的cygwin安装目录映射为home目录. 2.首先,在home目录中新建文件夹,在文件夹中放置如下内容的test1.l /*统计字数*/ %{ int chars=0; int words=0; int lines=0; %} %% [a-zA-Z]+ {words++;chars+=strlen(yytext);} \n {chars++;lines++;} . {chars++;} %% main(int argc,c

  • C指针原理教程之C内嵌汇编

    内联汇编的重要性体现在它能够灵活操作,而且可以使其输出通过 C 变量显示出来.因为它具有这种能力,所以 "asm" 可以用作汇编指令和包含它的 C 程序之间的接口.简单得说,内联汇编,就是可以让程序员在C语言中直接嵌入汇编代码,并与汇编代码交互C程序中的C表达式,享受汇编的高运行效率. 内联汇编的格式是直接在C代码中插入以下格式: asm( .... .... ) 其中的"..."为汇编代码,比如下面例子中,在 result=a*b和printf("%d\

  • C指针原理教程之AT&T汇编

    汇编在LINUX系统下的意义远远大于WINDOWS系统,LINUX内核部分代码就是汇编编写的.然后,绝大多数 Linux 程序员以前只接触过DOS/Windows 下的汇编语言,这些汇编代码都是 Intel 风格的.但在 Unix 和 Linux 系统中,更多采用的还是 AT&T 格式,两者在语法格式上有着很大的不同,因此应对AT&T汇编应有一个基本的了解和熟悉. 我们在LINUX下用C编写一段最简单的helloworld程序,命令为hello.c #include <stdio.h

  • 汇编中的数组分配和指针的实现代码

    数组简介 如果各位猿友是一路跟着LZ看到这里的,那么数组的定义就非常简单了,它就是一个相同数据类型的数据集合.数组存储在一系列逻辑上连续的内存块当中,之所以说是逻辑上连续,是因为整个内存或者说存储器本身就是逻辑上连续的一个大内存数组.如果我们用Java语言的类型来表示我们的存储器的话,可以看做是byte[] memory这样的类型. 数组的定义非常简单,它遵循以下这样简单的规则. T N[L]; 这当中T表示数据类型,N是变量名称,L是数组长度.这样的声明会做两件事,首先是在内存当中开辟一个长为

  • 浅谈Java 并发的底层实现

    并发编程的目的是让程序运行更快,但是使用并发并不定会使得程序运行更快,只有当程序的并发数量达到一定的量级的时候才能体现并发编程的优势.所以谈并发编程在高并发量的时候才有意义.虽然目前还没有开发过高并发量的程序,但是学习并发是为了更好理解一些分布式架构.那么当程序的并发量不高,比如是单线程的程序,单线程的执行效率反而比多线程更高.这又是为什么呢?熟悉操作系统的应该知道,CPU是通过给每个线程分配时间片的方式实现多线程的.这样,当CPU从一个任务切换到另一个任务的时候,会保存上一个任务的状态,当执行

  • 易语言地下城与勇士拾取卖物功能类源码

    DNF辅助功能类 仅供学习参考,禁止商业用途 .版本 2 .程序集 功能 .子程序 自动攻击 .局部变量 A, 整数型 .局部变量 数值, 整数型 .判断循环首 (A = 0) 置随机数种子 () 数值 = 取随机数 (0, 2) .如果真 (是否有怪物 () = 真) .如果真 (数值 = 0) 内存按键 (#X键) .如果真结束 .如果真 (数值 = 1) 内存按键 (#Z键) .如果真结束 .如果真 (数值 = 2) 内存按键 (#X键) .如果真结束 .如果真结束 超级延时 (200)

  • Redis核心原理与实践之字符串实现原理

    本文分析Redis字符串的实现原理,内容摘自新书<Redis核心原理与实践>.这本书深入地分析了Redis常用特性的内部机制与实现方式,内容源自对Redis源码的分析,并从中总结出设计思路.实现原理.通过阅读本书,读者可以快速.轻松地了解Redis的内部运行机制. Redis是一个键值对数据库(key-value DB),下面是一个简单的Redis的命令: > SET msg "hello wolrd" 该命令将键"msg".值"hell

  • C++ 引用与内联函数详情

    目录 引用初阶 什么是引用 为何要有引用 引用指向同一块空间 引用的特性 定义时必须初识化 一个变量可以多次引用 引用一旦引用了一个实例,不能在再引用其他的实例 引用进阶 常引用 权限 临时变量具有常属性 引用的场景 做参数 返回值 引用做返回值 引用不会开辟空间 引用和指针比较 内联函数 为何存在 内联函数 展开短小的函数 内联函数的特性 较大的函数编译器不会发生内联 声明定义一起 引用初阶 引用是C++的特性的之一,不过C++没有没有给引用特意出一个关键字,使用了操作符的重载.引用在C++中

随机推荐