PART I-2.Liunx-2.2.Practice Guide
提交word/md/txt/sh文件均可
第2,3题要求给出结果,并附上使用的命令
解释1.gtf文件中第4、5列代表什么,exon长度应该是$5-$4+1还是$5-$4?
第4列start代表基因组起始位置坐标(从1开始,闭区间),第5列end代表基因组终止位置坐标(从1开始,闭区间)。
exon的长度是$5-$4+1。
列出1.gtf文件中 XI 号染色体上的后 10 个 CDS (按照每个CDS终止位置的基因组坐标进行sort)。
结果:
1 2 3 4 5 6 7 8 9 10 11
# 基因ID 终止位置坐标 YKR106W 663286 YKR105C 660464 YKR104W 657753 YKR103W 656733 YKR102W 649862 YKR101W 642501 YKR100C 639968 YKR099W 638283 YKR098C 635179 YKR097W 632798命令:
1 2
#!/bin/bash cat 1.gtf | awk '$1 == "XI" && $3 == "CDS"' | sort -k 5 -nr | awk '{split($10, x, ";"); name = x[1]; gsub("\"", "", name); print name, $5}' | head -n 10
统计 IV 号染色体上各类 feature (1.gtf文件的第3列,有些注释文件中还应同时考虑第2列) 的数目,并按升序排列。
结果:
1 2 3 4 5 6 7
# 出现数目 feature类别 853 start_codon 853 stop_codon 886 gene 886 transcript 895 CDS 933 exon命令:
1 2
#!/bin/bash cat 1.gtf |awk '$1 == "IV" {print $3}'| sort -n | uniq -c | sort -k 1 -n