Python脚本提取fasta文件单序列信息实现

目录
  • Python脚本编辑
    • 使用的文件
    • 输入 sys模块
    • 从命令行获得文件名称
  • 进行序列信息统计的函数
    • 使用def制作一个函数
      • .format使用:
    • 进行函数计算
    • 结果屏幕展示
    • 结果输出文件
    • 脚本运行

Python脚本编辑

使用Python对fasta格式的序列进行基本信息统计

预期设计输出文件中包括fasta文件名,序列长度,GC含量以及ATCG各自的含量。

使用的文件

test.fasta

stat.py

输入 sys模块

#!/usr/bin/env python
import sys

从命令行获得文件名称

file_fasta = sys.argv[1]
#获得文件名
file_name = file_fasta.split('.')
name = file_name[0]

sys.argv[1]模块是从程序外部获取参数的桥梁,可以将命令行的参数输入到py程序内。

sys.argv[0]是程序本身,sys.argv[1]是程序后跟着第一个参数。

我们将文件名作为输入参数,这一步在最后运行有展示。

在结束输出时会输出一个包含统计信息的txt文件,我们将用fasta文件名作为txt文件的前缀,所以我们需要获取fasta文件的名字。

.split('.')是将file_fasta以.为分隔符分开会生成'test','txt',赋值给file_name则file_name会包含着两个字符。

file_name[0]则是取第一个值'test',python中默认第一个数字是0,所以不能输入1。

进行序列信息统计的函数

序列的长度很好统计使用len函数即可,但是GC含量和ACTG的百分比计算需要费点事情。

使用def制作一个函数

Python 使用def 开始函数定义,紧接着是函数名,括号内部为函数的参数,内部为函数的 具体功能实现代码

def get_info(chr):
    chr = chr.upper()
    count_g = chr.count('G')
    count_c = chr.count('C')
    count_a = chr.count('A')
    count_t = chr.count('T')

命名这个函数为get_info,内部参数为chr

在咱们会将fasta中ATCG的碱基内容赋值给chr,碱基可能有大写有小写,所以我们使用.upper将所以字符变成大写。

再使用.count('G')统计ATCG各自的数量并赋值给对应count_g,我们用ATCG各自的统计数可以在后面计算中免疫N值干扰。

gc = (count_g + count_c) / (count_a + count_t + count_c + count_g)
A = (count_a) / (count_a + count_t + count_c + count_g)
T = (count_t) / (count_a + count_t + count_c + count_g)
C = (count_c) / (count_a + count_t + count_c + count_g)
G = (count_g) / (count_a + count_t + count_c + count_g)
gc_con = '{:.2%}'.format(gc)
A_content = '{:.2%}'.format(A)
T_content = '{:.2%}'.format(T)
C_content = '{:.2%}'.format(C)
G_content = '{:.2%}'.format(G)
return (gc_con,A_content,T_content,C_content,G_content)

gc含量计算其等于(G的数量+C的数量)/(A的数量+T的数量+C的数量+G的数量)

A的含量等于(A的数量)/(A的数量+T的数量+C的数量+G的数量),其他值的计算以此类推。

.format使用:

"{1} {0} {1}".format("hello", "world")设置指定位置。

'world hello world'

{:.2f} 保留小数点后两位

最后,使用return返回函数结果(gc_con,A_content,T_content,C_content,G_content)

进行函数计算

#进行函数计算
with open(file_fasta,'r') as read_fa:

读取文件内容赋值给read_fa

python中有两个方式打开文件一种是直接使用open("test.fasta","r"),执行完以后f.close()关闭。
注释:"r"只读模式打开文件;"w"以只写模式打开文件,这种模式下输入内容会覆盖原有内容;"a"以追加模式打开一个文件,这个模式会把新内容追加到原有内容的末尾,不会覆盖。
这里使用的是第二方式with内置函数,它可以将文件自动关闭。

    for val in read_fa:
        val = val.strip()
        if not val.startswith(">"):
            seq_info = get_info(val)
            len_fasta = len(val)

将read_fa内容赋值给val。

strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符),这里使用默认。

然后使用startswith() 方法用于检查字符串是否是以指定子字符串开头,在当不是>开头的行时候,才对核酸序列才进行信息统计。

len() 方法返回字符长度获得片段长度

结果屏幕展示

#结果屏幕展示
print('******\n{0}\nlength:{1}\ngc content :{2}\nA content :{3}\nT content :{4}\nC content :{5}\nG content :{6}\n******'.format(name,len_fasta,seq_info[0],seq_info[1],seq_info[2],seq_info[3],seq_info[4]))

使用\n进行换行,用.format指定值输出位置。

结果输出文件

os.write(fd, str)

write() 方法用于写入字符串到文件描述符 fd

#结果输出文件
file_output = open("{}sum.txt".format(name),'a')
file_output.write('******\n')
file_output.write('{}\n'.format(name))
file_output.write('length:{:d}\n'.format(len_fasta))
file_output.write('gc content :{}\n'.format(seq_info[0]))
file_output.write('A content :{}\n'.format(seq_info[1]))
file_output.write('T content :{}\n'.format(seq_info[2]))
file_output.write('C content :{}\n'.format(seq_info[3]))
file_output.write('G content :{}\n'.format(seq_info[4]))
file_output.write('******')
file_output.close()

脚本运行

执行脚本(linux系统)

使用ls命令可以看到当前目录下有已经写好的py文件以及数据test.fasta。

运行时注意我们编写时设置从命令行获得文件名称,所以要在后面跟上fasta文件,这样才能成功运行。

运行结束后可以看见屏幕上有结果的打印,同时也生成了testsum.txt。

使用cat命令查看可以看到结果。

以上就是Python脚本提取fasta文件单序列信息实现的详细内容,更多关于Python提取fasta单序列的资料请关注我们其它相关文章!

(0)

相关推荐

  • Python实现Web服务器FastAPI的步骤详解

    目录 1.简介 2.安装 3.官方示例 3.1 入门示例 Python测试代码如下(main.py): 3.2 跨域CORS 3.3 文件操作 3.4 WebSocket Python测试代码如下: 1.简介 FastAPI 是一个用于构建 API 的现代.快速(高性能)的 web 框架,使用 Python 3.6+ 并基于标准的 Python类型提示. 文档: https://fastapi.tiangolo.com源码: https://github.com/tiangolo/fastapi

  • 使用Python FastAPI构建Web服务的实现

    FastAPI是一个使用 Python 编写的 Web 框架,还应用了 Python asyncio 库中最新的优化.本文将会介绍如何搭建基于容器的开发环境,还会展示如何使用 FastAPI 实现一个小型 Web 服务. 起步 我们将使用 Fedora 作为基础镜像来搭建开发环境,并使用 Dockerfile 为镜像注入 FastAPI.Uvicorn和 aiofiles这几个包. FROM fedora:32 RUN dnf install -y python-pip \ && dnf

  • python中fastapi设置查询参数可选或必选

    目录 可选查询参数 必选查询参数 可选和必选参数共存 为可选参数做类型提示 前言: 在fastapi中,我们定义的查询参数是可以设置成:必选参数 or 可选参数. 可选查询参数 z只要给查询参数的默认值设置为None,表示该查询参数是可选参数.  from fastapi import FastAPI  ​  app = FastAPI()​  @app.get("/items/{item_id}")  async def read_item(item_id: str, q=None)

  • Python利用fastapi实现上传文件

    目录 使用File实现文件上传 使用UploadFile实现文件上传 UploadFile的属性 设置上传文件是可选的 上传多个文件 知识点补充 使用File实现文件上传 使用Form表单上传文件,fastapi使用File获取上传的文件. 指定了参数类型是bytes:file: bytes = File(),此时会将文件内容全部读取到内存,比较适合小文件. 使用File需要提前安装 python-multipart from fastapi import FastAPI, File ​ app

  • Python脚本提取fasta文件单序列信息实现

    目录 Python脚本编辑 使用的文件 输入 sys模块 从命令行获得文件名称 进行序列信息统计的函数 使用def制作一个函数 .format使用: 进行函数计算 结果屏幕展示 结果输出文件 脚本运行 Python脚本编辑 使用Python对fasta格式的序列进行基本信息统计 预期设计输出文件中包括fasta文件名,序列长度,GC含量以及ATCG各自的含量. 使用的文件 test.fasta stat.py 输入 sys模块 #!/usr/bin/env python import sys 从

  • 使用Python脚本提取基因组指定位置序列

    引言 在基因组分析中,我们经常会有这么一个需求,就是在一个fasta文件中提取一些序列出来.有时这些序列是一段完整的序列,而有时仅仅为原fasta文件中某段序列的一部分.特别是当数据量很多时,使用肉眼去挑选序列会很吃力,那么这时我们就可以通过简单的编程去实现了. 例如此处在网盘附件中给定了某物种的全基因组序列(0-refer/ Bacillus_subtilis.str168.fasta),及其基因组gff注释文件(0-refer/ Bacillus_subtilis.str168.gff).

  • Python批量提取PDF文件中文本的脚本

    本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import os import sys import time pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf')) for pdf1 in pdfs: pdf = pdf1.replace(' ', '_').replace('-

  • Python脚本实时处理log文件的方法

    这个Python脚本是用来对实时文件的内容监控,比如 Error 或者 time out 字段都可以进行自定义:算是我的第一个真正的Python脚本,自己感觉还是比较臃肿,不过打算放到blog上记录一下(还是初学者,大神们勿喷哈),真心希望博友们能够再指点一下(现在记录每次的文件大小值是输出到了一个文件中,并且里面还嵌套了有shell命令,这些我认为都是可以优化掉的吧,只是现在我还不知道怎么做):告警是基于zabbix,自定义的模板是120s执行一次 #!/usr/local/bin/pytho

  • python 实现提取log文件中的关键句子,并进行统计分析

    利用python开发了一个提取sim.log 中的各个关键步骤中的时间并进行统计的程序: #!/usr/bin/python2.6 import re,datetime file_name='/home/alzhong/logs/qtat1/R2860.01.13/sim-applycommitrollback-bld1.log' file=open(file_name,'r') acnum=[];time_res=[];lnum=0 def trans_time(time): t1=datet

  • Python脚本破解压缩文件口令实例教程(zipfile)

    zipfile模块是python中一个处理压缩文件的模块,解决了不少我们平常需要处理压缩文件的需求 ,本文主要谈谈zipfile几个常用的用法. 环境:Windows python版本2.7.15 Python中操作zip压缩文件的模块是 zipfile . 相关文章:Python中zipfile压缩文件模块的使用 我们破解压缩文件的口令也是用的暴力破解方法.我们提前准备好密码字典用来爆破,如果密码字典中存在密码,则会打印出该密码,否则提示密码字典中无密码. main()函数用来打开密码字典 k

  • python批量修改xml文件中的信息

    目录 项目场景: 问题描述: 分析: 解决方案: 总结 项目场景: 在做目标检测时,重新进行标注会耗费大量的时间,如果能够批量对xml中的信息进行修改,那么将会节省大量的时间,接下来将详细介绍如何修改标注文件xml中的相关信息. 问题描述: 例如:当我有一批标注好的xml文件,文件格式如下图所示 : <?xml version='1.0' encoding='us-ascii'?> <annotation> <folder>VOC2012</folder>

  • 利用python脚本提取Abaqus场输出数据的代码

    笔者为科研界最后的摆烂王,目前利用python代码对Abaqus进行二次开发尚在学习中.欢迎各位摆烂的仁人志士们和我一起摆烂!ps:搞什么科研,如果不是被逼无奈,谁要搞科研! 该代码是学习过程中,对前人已有工作所做的稍加修改.为什么是稍加修改,是因为原代码跑不出来!!笔者在提取场输出的位移数据时,渴望偷懒,打算百度一下草草了事,奈何发现网上代码多半驴头不对马嘴,笔者明明是想提取位移,而不是节点和单元的集合!!所以被逼无奈之下,只好硬着头皮修改!欢迎各位大佬们把小弟代码更优化,然后也发给小弟,让小

  • 实例讲解Python脚本成为Windows中运行的exe文件

    将程序转换为exe文件 我们先来介绍如何使用工具Pyinstaller 安装Pyinstaller 我们用pip安装Pyinstaller . 注意,如果使用Pyinstaller,则应使用python 2.7或python 3.3到python 3.6(截至2018年7月)的环境. 安装方法非常简单,我们执行以下命令 $ pip install pyinstaller 接下来我们将python脚本转换为exe文件 我们将".py"文件转换为".exe"文件 首先,

  • 利用Python批量提取Win10锁屏壁纸实战教程

    前言 相信使用Win10的朋友会发现,每次开机锁屏界面都会有不一样的漂亮图片,这些图片通常选自优秀的摄影作品,十分精美. 但是由于系统会自动更换这些图片,所以就算再好看的图片,也许下次开机之后就被替换掉了. 借助Python,我们可以用简单的几行代码,批量提取这些精美的锁屏图片.把喜欢的图片设置成桌面背景,就不用担心被替换掉啦. 下面话不多说了,来一起看看详细的介绍吧. 提取原理 Win10系统会自动下载最新的锁屏壁纸,并将他们保存在一个系统文件夹中,路径是C:\Users\[用户名]\AppD

随机推荐