Python脚本提取fasta文件单序列信息实现

2025-06-16 02:58:27

Python脚本编辑

使用Python对fasta格式的序列进行基本信息统计

预期设计输出文件中包括fasta文件名，序列长度，GC含量以及ATCG各自的含量。

使用的文件

test.fasta

stat.py

输入 sys模块

#!/usr/bin/env python
import sys

从命令行获得文件名称

file_fasta = sys.argv[1]
#获得文件名
file_name = file_fasta.split('.')
name = file_name[0]

sys.argv[1]模块是从程序外部获取参数的桥梁，可以将命令行的参数输入到py程序内。

sys.argv[0]是程序本身，sys.argv[1]是程序后跟着第一个参数。

我们将文件名作为输入参数，这一步在最后运行有展示。

在结束输出时会输出一个包含统计信息的txt文件，我们将用fasta文件名作为txt文件的前缀，所以我们需要获取fasta文件的名字。

.split('.')是将file_fasta以.为分隔符分开会生成'test','txt'，赋值给file_name则file_name会包含着两个字符。

file_name[0]则是取第一个值'test'，python中默认第一个数字是0，所以不能输入1。

进行序列信息统计的函数

序列的长度很好统计使用len函数即可，但是GC含量和ACTG的百分比计算需要费点事情。

使用def制作一个函数

Python 使用def 开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码

def get_info(chr):
    chr = chr.upper()
    count_g = chr.count('G')
    count_c = chr.count('C')
    count_a = chr.count('A')
    count_t = chr.count('T')

命名这个函数为get_info，内部参数为chr

在咱们会将fasta中ATCG的碱基内容赋值给chr，碱基可能有大写有小写，所以我们使用.upper将所以字符变成大写。

再使用.count('G')统计ATCG各自的数量并赋值给对应count_g，我们用ATCG各自的统计数可以在后面计算中免疫N值干扰。

gc = (count_g + count_c) / (count_a + count_t + count_c + count_g)
A = (count_a) / (count_a + count_t + count_c + count_g)
T = (count_t) / (count_a + count_t + count_c + count_g)
C = (count_c) / (count_a + count_t + count_c + count_g)
G = (count_g) / (count_a + count_t + count_c + count_g)
gc_con = '{:.2%}'.format(gc)
A_content = '{:.2%}'.format(A)
T_content = '{:.2%}'.format(T)
C_content = '{:.2%}'.format(C)
G_content = '{:.2%}'.format(G)
return (gc_con,A_content,T_content,C_content,G_content)

gc含量计算其等于（G的数量+C的数量）/（A的数量+T的数量+C的数量+G的数量）

A的含量等于（A的数量）/（A的数量+T的数量+C的数量+G的数量），其他值的计算以此类推。

.format使用：

"{1} {0} {1}".format("hello", "world")设置指定位置。

'world hello world'

{:.2f} 保留小数点后两位

最后，使用return返回函数结果(gc_con,A_content,T_content,C_content,G_content)

进行函数计算

#进行函数计算
with open(file_fasta,'r') as read_fa:

读取文件内容赋值给read_fa

python中有两个方式打开文件一种是直接使用open("test.fasta","r")，执行完以后f.close()关闭。
注释："r"只读模式打开文件；"w"以只写模式打开文件，这种模式下输入内容会覆盖原有内容；"a"以追加模式打开一个文件,这个模式会把新内容追加到原有内容的末尾，不会覆盖。
这里使用的是第二方式with内置函数，它可以将文件自动关闭。

    for val in read_fa:
        val = val.strip()
        if not val.startswith("&gt;"):
            seq_info = get_info(val)
            len_fasta = len(val)

将read_fa内容赋值给val。

strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)，这里使用默认。

然后使用startswith() 方法用于检查字符串是否是以指定子字符串开头，在当不是>开头的行时候，才对核酸序列才进行信息统计。

len() 方法返回字符长度获得片段长度

结果屏幕展示

#结果屏幕展示
print('******\n{0}\nlength:{1}\ngc content :{2}\nA content :{3}\nT content :{4}\nC content :{5}\nG content :{6}\n******'.format(name,len_fasta,seq_info[0],seq_info[1],seq_info[2],seq_info[3],seq_info[4]))

使用\n进行换行，用.format指定值输出位置。

结果输出文件

os.write(fd, str)

write() 方法用于写入字符串到文件描述符 fd

#结果输出文件
file_output = open("{}sum.txt".format(name),'a')
file_output.write('******\n')
file_output.write('{}\n'.format(name))
file_output.write('length:{:d}\n'.format(len_fasta))
file_output.write('gc content :{}\n'.format(seq_info[0]))
file_output.write('A content :{}\n'.format(seq_info[1]))
file_output.write('T content :{}\n'.format(seq_info[2]))
file_output.write('C content :{}\n'.format(seq_info[3]))
file_output.write('G content :{}\n'.format(seq_info[4]))
file_output.write('******')
file_output.close()

脚本运行

执行脚本（linux系统）

使用ls命令可以看到当前目录下有已经写好的py文件以及数据test.fasta。

运行时注意我们编写时设置从命令行获得文件名称，所以要在后面跟上fasta文件，这样才能成功运行。

运行结束后可以看见屏幕上有结果的打印，同时也生成了testsum.txt。

使用cat命令查看可以看到结果。

以上就是Python脚本提取fasta文件单序列信息实现的详细内容，更多关于Python提取fasta单序列的资料请关注我们其它相关文章！

python中fastapi设置查询参数可选或必选

目录可选查询参数必选查询参数可选和必选参数共存为可选参数做类型提示前言: 在fastapi中,我们定义的查询参数是可以设置成:必选参数 or 可选参数. 可选查询参数 z只要给查询参数的默认值设置为None,表示该查询参数是可选参数. from fastapi import FastAPI app = FastAPI() @app.get("/items/{item_id}") async def read_item(item_id: str, q=None)
Python实现Web服务器FastAPI的步骤详解

目录 1.简介 2.安装 3.官方示例 3.1 入门示例 Python测试代码如下(main.py): 3.2 跨域CORS 3.3 文件操作 3.4 WebSocket Python测试代码如下: 1.简介 FastAPI 是一个用于构建 API 的现代.快速(高性能)的 web 框架,使用 Python 3.6+ 并基于标准的 Python类型提示. 文档: https://fastapi.tiangolo.com源码: https://github.com/tiangolo/fastapi
使用Python FastAPI构建Web服务的实现

FastAPI是一个使用 Python 编写的 Web 框架,还应用了 Python asyncio 库中最新的优化.本文将会介绍如何搭建基于容器的开发环境,还会展示如何使用 FastAPI 实现一个小型 Web 服务. 起步我们将使用 Fedora 作为基础镜像来搭建开发环境,并使用 Dockerfile 为镜像注入 FastAPI.Uvicorn和 aiofiles这几个包. FROM fedora:32 RUN dnf install -y python-pip \ && dnf
Python利用fastapi实现上传文件

目录使用File实现文件上传使用UploadFile实现文件上传 UploadFile的属性设置上传文件是可选的上传多个文件知识点补充使用File实现文件上传使用Form表单上传文件,fastapi使用File获取上传的文件. 指定了参数类型是bytes:file: bytes = File(),此时会将文件内容全部读取到内存,比较适合小文件. 使用File需要提前安装 python-multipart from fastapi import FastAPI, File app
Python脚本提取fasta文件单序列信息实现

目录 Python脚本编辑使用的文件输入 sys模块从命令行获得文件名称进行序列信息统计的函数使用def制作一个函数 .format使用: 进行函数计算结果屏幕展示结果输出文件脚本运行 Python脚本编辑使用Python对fasta格式的序列进行基本信息统计预期设计输出文件中包括fasta文件名,序列长度,GC含量以及ATCG各自的含量. 使用的文件 test.fasta stat.py 输入 sys模块 #!/usr/bin/env python import sys 从
使用Python脚本提取基因组指定位置序列

引言在基因组分析中,我们经常会有这么一个需求,就是在一个fasta文件中提取一些序列出来.有时这些序列是一段完整的序列,而有时仅仅为原fasta文件中某段序列的一部分.特别是当数据量很多时,使用肉眼去挑选序列会很吃力,那么这时我们就可以通过简单的编程去实现了. 例如此处在网盘附件中给定了某物种的全基因组序列(0-refer/ Bacillus_subtilis.str168.fasta),及其基因组gff注释文件(0-refer/ Bacillus_subtilis.str168.gff).
Python批量提取PDF文件中文本的脚本

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import os import sys import time pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf')) for pdf1 in pdfs: pdf = pdf1.replace(' ', '_').replace('-
Python脚本实时处理log文件的方法

这个Python脚本是用来对实时文件的内容监控,比如 Error 或者 time out 字段都可以进行自定义:算是我的第一个真正的Python脚本,自己感觉还是比较臃肿,不过打算放到blog上记录一下(还是初学者,大神们勿喷哈),真心希望博友们能够再指点一下(现在记录每次的文件大小值是输出到了一个文件中,并且里面还嵌套了有shell命令,这些我认为都是可以优化掉的吧,只是现在我还不知道怎么做):告警是基于zabbix,自定义的模板是120s执行一次 #!/usr/local/bin/pytho
python 实现提取log文件中的关键句子,并进行统计分析

利用python开发了一个提取sim.log 中的各个关键步骤中的时间并进行统计的程序: #!/usr/bin/python2.6 import re,datetime file_name='/home/alzhong/logs/qtat1/R2860.01.13/sim-applycommitrollback-bld1.log' file=open(file_name,'r') acnum=[];time_res=[];lnum=0 def trans_time(time): t1=datet
Python脚本破解压缩文件口令实例教程(zipfile)

zipfile模块是python中一个处理压缩文件的模块,解决了不少我们平常需要处理压缩文件的需求 ,本文主要谈谈zipfile几个常用的用法. 环境:Windows python版本2.7.15 Python中操作zip压缩文件的模块是 zipfile . 相关文章:Python中zipfile压缩文件模块的使用我们破解压缩文件的口令也是用的暴力破解方法.我们提前准备好密码字典用来爆破,如果密码字典中存在密码,则会打印出该密码,否则提示密码字典中无密码. main()函数用来打开密码字典 k
python批量修改xml文件中的信息

目录项目场景: 问题描述: 分析: 解决方案: 总结项目场景: 在做目标检测时,重新进行标注会耗费大量的时间,如果能够批量对xml中的信息进行修改,那么将会节省大量的时间,接下来将详细介绍如何修改标注文件xml中的相关信息. 问题描述: 例如:当我有一批标注好的xml文件,文件格式如下图所示 : <?xml version='1.0' encoding='us-ascii'?> <annotation> <folder>VOC2012</folder>
利用python脚本提取Abaqus场输出数据的代码

笔者为科研界最后的摆烂王,目前利用python代码对Abaqus进行二次开发尚在学习中.欢迎各位摆烂的仁人志士们和我一起摆烂!ps:搞什么科研,如果不是被逼无奈,谁要搞科研! 该代码是学习过程中,对前人已有工作所做的稍加修改.为什么是稍加修改,是因为原代码跑不出来!!笔者在提取场输出的位移数据时,渴望偷懒,打算百度一下草草了事,奈何发现网上代码多半驴头不对马嘴,笔者明明是想提取位移,而不是节点和单元的集合!!所以被逼无奈之下,只好硬着头皮修改!欢迎各位大佬们把小弟代码更优化,然后也发给小弟,让小
实例讲解Python脚本成为Windows中运行的exe文件

将程序转换为exe文件我们先来介绍如何使用工具Pyinstaller 安装Pyinstaller 我们用pip安装Pyinstaller . 注意,如果使用Pyinstaller,则应使用python 2.7或python 3.3到python 3.6(截至2018年7月)的环境. 安装方法非常简单,我们执行以下命令 $ pip install pyinstaller 接下来我们将python脚本转换为exe文件我们将".py"文件转换为".exe"文件首先,
利用Python批量提取Win10锁屏壁纸实战教程

前言相信使用Win10的朋友会发现,每次开机锁屏界面都会有不一样的漂亮图片,这些图片通常选自优秀的摄影作品,十分精美. 但是由于系统会自动更换这些图片,所以就算再好看的图片,也许下次开机之后就被替换掉了. 借助Python,我们可以用简单的几行代码,批量提取这些精美的锁屏图片.把喜欢的图片设置成桌面背景,就不用担心被替换掉啦. 下面话不多说了,来一起看看详细的介绍吧. 提取原理 Win10系统会自动下载最新的锁屏壁纸,并将他们保存在一个系统文件夹中,路径是C:\Users\[用户名]\AppD