GSM-cobra-python

在本章中,我们将阐述一个研究细菌物种基因组变异的方案,通过基于约束的代谢模型预测表型差异。

材料

基因组序列

通过对生物体基因组序列的分析,确定编码功能产物的遗传元件。反过来,这些可以被注释,以确定它们在细胞生物学中的作用,并映射到其他基因组,以确定同源基因。可以从NCBI的ftp站点以不同的格式(如FASTA和Genbank)下载公开可用的基因组及其注释的元素(如果存在)。应该强调的是,虽然这里报告的分析可以对完整序列和草稿序列进行相同的执行,但最好使用完整的版本(如果有的话)。在基因组缺少注释的情况下(例如使用适合这项任务的工具(如Prokka[13])可以很容易地填补这一空白。

序列比较工具

基因间的同源关系可以通过序列相似性来评估,序列相似性可以通过BLAST、BLAT或MUMmer等工具来评估[14-16]。由于两个基因组间同源基因的识别并非易事,已经有许多方法来解决这一任务。最近,[17]提出了一种对现有工具进行基准测试的方法,这有助于确定此类分析的最有效方法。

代谢模型框架

利用基于约束的建模[19],有许多工具可用于预测特定于应变的表型。其中使用最广泛的是COBRA toolbox[20,21],它已经与MatLab和Python的计算环境集成在一起。这个框架,不管使用哪种编程语言实现,都包含许多重要的特性来导入SBML文件和在面向对象编程(OOP)范式下进行的性能模拟和分析。本章将报告COBRA的Python版本的代码示例。因此,要复制这里报告的分析,应该安装以下资源:

  1. Python v2.7 or greater.
  2. COBRApy [21] (https://github.com/opencobra/cobratoolbox).
  3. Gurobi (or another linear programming solver compatible with
    COBRApy) (http://www.gurobi.com/).
  4. Pandas v0.7 or above.

方法

获得公开可用的基因组序列

注释基因组

虽然大多数公开可用的基因组都有注释,但有些序列可能需要注释。如果是这种情况,最好让所用数据集的注释方法保持一致,即所有基因组都应该使用相同的工具进行注释,以防止注释管道偏移结果。一般来说,细菌的基因组注释被认为是一个已经解决的问题,可以使用许多可用的工具之一来完成。我们建议使用Prokka,这是一个用户友好的、可定制的软件,它的预测已经被证明是准确的[13]。此外,Prokka可以生成GFF3文件,这些文件可以很容易地传递给Roary来执行高通量泛基因组分析。Prokka的示例命令行是:

prokka --outdir mydir --prefix mygenome genome_sequence.fa

其中,genome_sequence.fa是报告感兴趣的基因组核苷酸序列的fasta文件,mydir是包含输出文件的要生成的目录,mygenome是输出文件的前缀(其扩展名和描述见表1)。

识别同源基因

http://orthology.benchmarkservice.org

https://www.jianshu.com/p/62ef04d4e600

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论