Linux操作文件的底层系统调用,探究父子进程是否可以共享文件问题
目录
- open()——打开或者创建一个文件
- write()
- read()
- close()
- lseek函数
- 应用:利用读写对文件进行复制
- 打开文件后,fork的子进程能否共享和父进程共享访问同一个文件?
- 总结
linux操作系统奉行一切皆文件的理念,所有文件设备几乎都可以用一套系统调用即open()/close()/write()/read()等来操作。系统调用和C库调用操作文件类似。Linux自带的man手册是最权威的。通过查看man手册来查看系统调用用法。
代号 —— 代表的含义
- 1 —— 用户在shell环境下可操作/可执行的命令
- 2 —— 系统内核可调用的函数与工具
- 3 —— 一些常用的函数与函数库,大部分C的函数库
- 4 —— 设备文件的说明,通常是在 /dev下的设备
- 5 —— 配置文件或某些文件的格式
- 6 —— 游戏
- 7 —— 管理与协议等,例如Linux文件系统、网络协议等
- 8 —— 系统管理员可用的命令
- 9 —— 与Kernel有关的文件
注意,系统的头文件在Linux中一般存放在/usr/include
目录下;下面包含的一些头文件有的带了sys,其实是include底下的子目录中的头文件
open()——打开或者创建一个文件
返回值类型: int——文件描述符fd,每打开一个文件,就会得到一个文件描述符,这个文件描述符是整形的,我们通过文件描述符进行读写操作。
- 失败:-1
- 成功:>= 0,即文件描述符;
- mode_t是一个类型别名,实际上就是一个有符号的整数,对open函数而言,仅仅当创建新文件时才使用第三个参数
flag:打开标志
注意: 这些其实都是定义的一些宏,当需要使用到多个参数时,使用按位或“ |
”构成多个flag参数
也可跟随下面的方式一起使用:
其他不一一介绍,需要使用时自查。
write()
返回值:
- 若成功为已经写入的字节数;
- 若出错为-1;
注意:计划写入的字节数和函数的返回值不相等时,表示写入出现了错误,可以用来检验写入是否成功;
参数:
fd
:写入文件的文件描述符;buf
:存放待写数据的缓存;count
:要求写入一次数据的字节数;
注意:
对于普通文件,写操作从文件的当前位移量处开始,若如果在打开该文件时,指定了O_APPEND选择项,则在每次写操作之前,将文件位移量设置在文件的当前结尾处。在一次成功写之后,该文件位移量增加实际写的字节数。
read()
返回值 :读到的字节数
- 若已到文件尾为0;若出错为-1;
参数
fd
:读取文件的文件描述符;buf
:存放读取数据的缓存;count
:要求读取一次数据的字节数;注意返回值是实际读到的字节数,二者并不相同;
注意:读操作从文件的当前位移量开始,在成功返回之前,该位移量增加实际读得的字节数(这个位移量是可以自己设置的);
close()
注意:当一个进程终止时,它所打开的文件都由内核自动关闭。
注:这些不带缓存的函数都是内核提供的系统调用;这正是和我们在C语言中学到的那些IO操作不同的地方,他们不是标准C的组成部分,但是POSIX的组成部分。
标准C对文件操作时都是通过对FILE的结构体指针进行操作的,而这里使用的是文件描述符。
文件描述符的范围是0——OPEN MAX,早期的Unix采用的上限为19(即允许每个进程打开20个文件),现在很多系统将即增加到63,Linux为1024,具体多少可以在<unistd.h>的头文件中查找。
文件描述符与文件指针
- FILE *fdopen(int fd,const char *mode),将文件描述符转为文件指针;
- int fileno(FILE *stream),将文件指针转换为文件描述符;
lseek函数
功能: 定位一个已打开的文件
off_t lseek(int fd,off_t offset,int whence);
fd
:已经打开的文件描述符;offset
:位移量;whence
:定位的位置,即基准点SEEK_SET
:将该文件的位移量设置为距文件开始处offset个字节;SEEK_CUR
:将该文件的位移量设置为其当前值加offset,offset可正可负;SEEK_END
:将该文件的位移量设置为文件长度加offset,offset可正可负(此时若为正值,就涉及到空洞文件了,请看下面的讲解);- 返回值:**若成功则返回新的文件位移量(绝对位移量)**若出错为-1;定位到文件尾部时,可以返回文件的大小;
- lseek函数也可以用来确定所涉及的文件是否可以设置位移量,如果文件描述符所引用的是一个管道或者FIFO,则lseek返回-1,并将errno设置为EPLPE;
空洞文件示例:
#include<stdio.h> #include<fcntl.h> #include<string.h> #include<stdlib.h> #include<unistd.h> #include<errno.h> //生成空洞文件 char *buffer = "0123456789"; int main(int argc,char *argv[]) { if(argc < 2) { fprintf(stderr,"-usage:%s [file]\n",argv[0]); exit(1); } int fd = open(argv[1],O_WRONLY | O_CREATE | O_TRUNC,0777); if(fd < 0) { perror("open error"); exit(1); } size_t size = strlen(buffer) * sizeof(char); //将字符串写入到空洞文件中 if(write(fd,buffer,size) != size) { perror("write error"); exit(1); } //定位到文件尾部的10个字节处 if(lseek(fd,10L;SEERK_END) < 0) { perror("lseek error"); exit(1); } //从文件尾部的10个字节处再写入字符串 if(write(fd,buffer,size) != size) { perror("write error"); exit(1); } close(fd); return 0; }
我们可以看到用more命令查看文件内容时,发现显示的内容只有一次写入的结果,用od
-c命令查看文件的ASSCI码,我们会发现在两次内容之间,有10个\0,这就是空洞,用vim打开该文件内容也可以看到,有10个^@符。
注:每个文件都有一个与其相关联的“当前文件偏移量”,它是一个非负整数,用以度量从文件开始处计算的字节数。通常读写操作都以文件当前偏移量处开始,并使得偏移量增加所读或所写的字节数。按系统默认,当打开一个文件时,除非指定O_APPEND选择项,否则该文件位移量被设置为0;
示例:
运行结果如下:
fd = 3的原因是:
系统内部PCB存在一个文件表,以记录打开的文件,文件描述符其实就是文件表的下标
- 0——FILE* stdin,标准输入
- 1——FILE* stdout,标准输出
- 3——FILE* stderr,标准错误输出
- 本程序已经默认打开了三个文件,fd排到第四个,所以编号为3
接下来进行文件读取
运行结果如下:
应用:利用读写对文件进行复制
首先声明:我们不区分文本文件还是二进制文件
完成对一个图片的复制,我们可以使用以下的方案:
- 先打开原来的二进制文件
- 打开一个新的文件
- 从原来的二进制文件中读取一部分写入新文件
- 反复读写
- 直到读完,写完就停止【read() == 0作为循环停止的条件,读不到就是读完了】
- 完成复制
复制完成
打开文件后,fork的子进程能否共享和父进程共享访问同一个文件?
我们每次打开文件以后,会在内核中产生struct file这样一个结构体,以表示打开的文件,记录着以下信息:
- 文件偏移量(起始从0开始,文件指针随着写入数据进行偏移)
- 引用计数(几个进程正在使用这个打开的文件)
- inode节点(存放进程的属性信息:谁创建了,名字是什么,在磁盘哪里存储。通过这个inode节点,我们才能找到对应的这个具体的文件)
- 打开方式:比如只读方式,只写方式打开
测试1:先打开文件再fork
close(fd)写在最外侧,父子进程都会关闭,每关闭一次,引用计数减1,直到为0。
运行结果如下:
原因如下:
测试2:先fork再打开文件
修改代码后,运行结果发生如下变化:
因为父子进程分离后,打开了各自的文件,产生了各自的struct file,不再共享文件偏移量。
在实际的应用场景中,我们更多地使用父进程打开的文件,子进程去访问这种形式。
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持我们。