首先我们来简单看看进程与程序的区别
程序可以理解为硬盘上的普通二进制文件;进程是加载到内存中的二进制文件,除了加载到内存中的二进制文件外,还附有所有对于该二进制文件描述信息的结构体,描述该进程的结构体叫PCB(进程控制块),这在前文中已经介绍,在这就不在讨论。对于程序与进程,也就可以简单地理解为是否有PCB(进程控制块)。下面我们再来讨论PCB与file_struct的关系。
在每一个PCB中,都有一个文件描述符表,通过文件描述符索引指向file_struct(系统打开文件表)。
文件描述符在形式上是一个非负整数,实际上,它是一个索引值,指向内核为每一个进程所维护的该进程打开文件的记录表,当程序打开一个现有文件或创建一个新文件时,内核向进程返回一个文件描述符。也就是说,一个程序能够访问文件是因为给这个程序分配了文件描述符。
下面我们来看一个例子:
输出的结果为:
这个程序就是当系统打开两个文件时,fd与fd1用来接收open函数的返回值,其值分别为3,4。它们代表了该程序运行起来后,其返回的文件描述符分别为3,4。那么该进程文件描述符表中,索引值为3其内容代表第一个open函数打开的mylog文件,而索引值为4其内容代表第二个open函数打开的mylog1文件。而在一个进程的文件描述符表中,文件描述符0,1,2分别与之对应的是stdin,stdout,stderror。当把close(0)加上,其输出结果为:
fd与fd1的输出结果变为了3,0,当打开第一个文件时,fd返回文件描述符3,然后关闭了文件描述符0号位置,则打开第二个文件时,fd1则返回了文件描述符1号位置。
下面我们来讨论file_struct里面具体有哪些内容。
file_struct结构如下:
struct file {
union {
struct list_head fu_list; //文件对象链表指针linux/include/linux/list.h
struct rcu_head fu_rcuhead; //RCU(Read-Copy Update)是Linux 2.6内核中新的锁机制
} f_u;
struct path f_path; //包含dentry和mnt两个成员,用于确定文件路径
#define f_dentry f_path.dentry //f_path的成员之一,当统的挂载根目录
const struct file_operations //*f_op; 与该文件相关联的操作函数
atomic_t f_count; //文件的引用计数(有多少进程打开该文件)
unsigned int f_flags; //对应于open时指定的flag
mode_t f_mode; //读写模式:open的mod_t mode参数
off_t f_pos; //该文件在当前进程中的文件偏移量
struct fown_struct f_owner; //该结构的作用是通过信号进行I/O时间通知的数据。
unsigned int f_uid, f_gid; //文件所有者id,所有者组id
struct file_ra_state f_ra; //在linux/include/linux/fs.h中定义,文件预读相关
unsigned long f_version;
#ifdef CONFIG_SECURITY
void *f_security;
#endif
void *private_data;
#ifdef CONFIG_EPOLL
struct list_head f_ep_links;
spinlock_t f_ep_lock;
#endif
struct address_space *f_mapping;
};
其中重要参数参数介绍如下:
f_flags:表示打开文件的权限
f_pos:表示当前读写文件的位置
f_count:这个是一个相对来说比较重要的参数,表示打开文件的引用计数,如果有多个文件指针指向它,就会增加f_count的值。
f_mode:设置对文件的访问模式,例如:只读,只写等。
当然其中还定义了许多结构体等内容,这里就不在深究,下面我们来讨论一个fd与files_struct的关系。files_struct不同于file_struct。在这里要区分清楚。
每个进程用一个files_struct结构来记录文件描述符的使用情况,这个files_struct结构称为用户打开文件表,它是进程的私有数据。files_struct结构在include/linux/sched.h中定义如下:
struct files_struct {
atomic_t count; /* 共享该表的进程数 */
rwlock_t file_lock; /* 保护以下的所有域,以免在tsk->alloc_lock中的嵌套*/
int max_fds; /*当前文件对象的最大数*/
int max_fdset; /*当前文件描述符的最大数*/
int next_fd; /*已分配的文件描述符加1*/
struct file ** fd; /* 指向文件对象指针数组的指针 */
fd_set *close_on_exec; /*指向执行exec( )时需要关闭的文件描述符*/
fd_set *open_fds; /*指向打开文件描述符的指针*/
fd_set close_on_exec_init;/* 执行exec( )时需要关闭的文件描述符的初 值集合*/
fd_set open_fds_init; /*文件描述符的初值集合*/
struct file * fd_array[32];/* 文件对象指针的初始化数组*/
};
fd
域指向文件对象的指针数组。该数组的长度存放在max_fds域中。通常,fd域指向files_struct结构的fd_array域,该域包括32个文件对象指针。如果进程打开的文件数目多于32,内核就分配一个新的、更大的文件指针数组,并将其地址存放在fd域中;内核同时也更新max_fds域的值。
对于在
fd数组中有入口地址的每个文件来说,数组的索引就是文件描述符(
file descriptor)。通常,数组的第一个元素(索引为
0)是进程的标准输入文件,数组的第二个元素(索引为
1)是进程的标准输出文件,数组的第三个元素(索引为
2)是进程的标准错误文件。请注意,借助于
dup( )、
dup2( )和
fcntl( ) 系统调用,两个文件描述符就可以指向同一个打开的文件,也就是说,数组的两个元素可能指向同一个文件对象。当用户使用
shell结构(如
2>&1)将标准错误文件重定向到标准输出文件上时,用户总能看到这一点。
open_fds域包含
open_fds_init域的地址,
open_fds_init域表示当前已打开文件的文件描述符的图。
max_fdset域存放位图中的位数。由于数据结构
fd_set有
1024位,通常不需要扩大位图的大小。不过,如果确实必须的话,内核仍能动态增加位图的大小,这非常类似文件对象的数组的情形。
当开始使用一个文件对象时调用内核提供的
fget( )函数。这个函数接收文件描述符
fd作为参数,返回在
current->files->fd[fd]中的地址,即对应文件对象的地址,如果没有任何文件与
fd对应,则返回
NULL。在第一种情况下,
fget( )使文件对象引用计数器
f_count的值增
1。
当内核完成对文件对象的使用时,调用内核提供的
fput( ) 函数。该函数将文件对象的地址作为参数,并递减文件对象引用计数器
f_count的值,另外,如果这个域变为
NULL,该函数就调用文件操作的“释放”方法(如果已定义),释放相应的目录项对象,并递减对应索引节点对象的
i_writeaccess域的值(如果该文件是写打开),最后,将该文件对象从“正在使用”链表移到“未使用”链表。
file_struct与文件描述符就介绍到这,当然file_struct里面具体的内容还需做进一步深究。