Home 生信 Week 1 作业
Post
Cancel

生信 Week 1 作业

PART I-2.Liunx-2.2.Practice Guide

提交word/md/txt/sh文件均可

第2,3题要求给出结果,并附上使用的命令

  1. 解释1.gtf文件中第4、5列代表什么,exon长度应该是$5-$4+1还是$5-$4?

    第4列start代表基因组起始位置坐标(从1开始,闭区间),第5列end代表基因组终止位置坐标(从1开始,闭区间)。

    exon的长度是$5-$4+1。

  2. 列出1.gtf文件中 XI 号染色体上的后 10 个 CDS (按照每个CDS终止位置的基因组坐标进行sort)。

    结果:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    
    # 基因ID 终止位置坐标
    YKR106W 663286
    YKR105C 660464
    YKR104W 657753
    YKR103W 656733
    YKR102W 649862
    YKR101W 642501
    YKR100C 639968
    YKR099W 638283
    YKR098C 635179
    YKR097W 632798
    

    命令:

    1
    2
    
    #!/bin/bash
    cat 1.gtf | awk '$1 == "XI" && $3 == "CDS"' | sort -k 5 -nr | awk '{split($10, x, ";"); name = x[1]; gsub("\"", "", name); print name, $5}' | head -n 10
    
  3. 统计 IV 号染色体上各类 feature (1.gtf文件的第3列,有些注释文件中还应同时考虑第2列) 的数目,并按升序排列。

    结果:

    1
    2
    3
    4
    5
    6
    7
    
    # 出现数目 feature类别
    853 start_codon
    853 stop_codon
    886 gene
    886 transcript
    895 CDS
    933 exon
    

    命令:

    1
    2
    
    #!/bin/bash
    cat 1.gtf |awk '$1 == "IV" {print $3}'| sort -n | uniq -c | sort -k 1 -n
    
This post is licensed under CC BY 4.0 by the author.
Trending Tags