 先行研究で指摘されるように(http://​​cgi/​content/​full/​33/​4/​1141/​FIG4)、rRNA遺伝子数とtRNA遺伝子数に強い正の相関があることがわかります 先行研究で指摘されるように(http://​​cgi/​content/​full/​33/​4/​1141/​FIG4)、rRNA遺伝子数とtRNA遺伝子数に強い正の相関があることがわかります
 (rRNA-tRNAのプロットが相関係数r=0.9を示している)。同様に、別の先行研究で指摘されていますように(http://​​content/​101/​9/​3160/​F2.expansion.html)、CDS数とゲノムサイズにも強い正の相関が見られます(cds-sizeのプロットが相関係数r=1を示している)。 (rRNA-tRNAのプロットが相関係数r=0.9を示している)。同様に、別の先行研究で指摘されていますように(http://​​content/​101/​9/​3160/​F2.expansion.html)、CDS数とゲノムサイズにも強い正の相関が見られます(cds-sizeのプロットが相関係数r=1を示している)。
 ====== Example 5 - 遺伝子情報の統計解析 ======
以下のスクリプトは、マイコプラズマ菌(Mycoplasma genitalium)の遺伝子についてさまざまな統計的な解析をおこなったものです。この解析には開始位置、コドンの3番目の塩基におけるGC組成、コドンの3番目の塩基におけるGC skew、遺伝子発現量を推定するcodon adaptation index (cai、http://​​pubmed/​3547335)、同義コドンの均一性を示す重み付けされた相対エントロピーの和(http://​​pubmed/​15194186)が含まれます。
-====== Example 5- Calculating gene statistics ​ ====== +
- +
-The following script prints various statistics for protein-coding sequences ​(cds) in Mycoplasma genitalium ​genome such as start position (start)GC content at 3rd codon positions (gcc3), ​GC skew at 3rd codon positions (gcs3), the codon adaptation index (cai) (http://​​pubmed/​3547335), and the weighted sum of relative entropy (Ew) as a measure of the degree of synonymous codon evenness ​(http://​​pubmed/​15194186).+
 <code perl>
use G;
my $gb = load("​g-language-1.8.10/​share/​genomes/​mgen.gbk"​);​
foreach my $cds ($gb->​cds()){
     &​bui($gb,​ -output=>'​n',​ -id=>​$cds,​ -position=>​3);​ # base usage indices (gcc3, gcs3) at 3rd codon posotions     &​bui($gb,​ -output=>'​n',​ -id=>​$cds,​ -position=>​3);​ # base usage indices (gcc3, gcs3) at 3rd codon posotions
-+  ​
&​cai($gb,​ -output=>'​n',​ -w_output=>'​n'​);​ 
&​Ew($gb,​ -output=>'​n'​);​
my @key = qw(start gcc3 gcs3 cai Ew); 
open(OUT,">​stat.txt"​);​ 
print OUT join("​\t",​ @key), "​\n";​ 
foreach my $cds ($gb->​cds()){
     my @tmp;     my @tmp;
     foreach (@key){ push(@tmp, $gb->​{$cds}->​{$_});​ }     foreach (@key){ push(@tmp, $gb->​{$cds}->​{$_});​ }
     print OUT join("​\t",​ @tmp), "​\n";​     print OUT join("​\t",​ @tmp), "​\n";​
-+  ​
close(OUT);
 </​code>​ </​code>​
このスクリプトを実行すると以下のようなタブ区切りの結果が'​stat.txt'​として保存されます。
   $ head stat.txt   $ head stat.txt
Line 282: Line 280:
   11251   ​0.1533 ​ -0.1500 0.7432 ​ 0.6235   11251   ​0.1533 ​ -0.1500 0.7432 ​ 0.6235
得られた結果の散布図と相関係数は、Example 4で示したようにRコマンドを書き加えることで描画されます。このスクリプトを実行すると'​'​というファイルが出力されます。
-Executing this script generates the following ​'​' ​file.+
 {{cdsstatrplot_mgen.png?​600|}} {{cdsstatrplot_mgen.png?​600|}}
図のstart-gcc3プロットより、マイコプラズマ菌のGC組成は特徴的な傾向を示していることが分かります。そして、gcc3-caiとgcc3-Ewプロっトより、GC組成とコドン使用頻度の偏りに相関があることが分かります。これらは先行研究の知見とも一致します(http://​​cimb/​v/​v3/​v3n403.pdf・図2)。ライム病ボレリア(Borrelia burgdorferi、"​g-language-1.8.10/​share/​genomes/​bbur.gbk"​)ではGC skewとコドン使用頻度の偏りに相関が見られます。 
-In Borrelia burgdorferi ​("​g-language-1.8.10/​share/​genomes/​bbur.gbk"​)GC skew (gcs3) is correlated with codon usage bias.+
