User Tools

Site Tools


variousperlscriptsjapanese

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
variousperlscriptsjapanese [2010/10/01 13:05]
ike
variousperlscriptsjapanese [2014/01/18 07:44] (current)
Line 167: Line 167:
  
 {{hs_nj_rrs.png?​300|}} {{hs_nj_rrs.png?​300|}}
 +====== Example 4 - ゲノム配列の情報と相関解析 ======
  
- +以下のスクリプトはさまざまなゲノム情報を解析します。rRNAtRNA遺伝子、CDSの数、ゲノムサイズ、塩基組成[100x(G+C)/​(A+C+G+T)]GC skew [(G-C)/​(G+C)] ​の度合いを示すgcsi ​(GC skew index; ​http://​www.ncbi.nlm.nih.gov/​pubmed/​19461976)といった解析です。
-====== Example 4- Calculating genome statistics and their correlation analyses ​ ====== +
- +
-The following script calculates various genome statistics such as rRNA gene number, ​tRNA gene number, protein-coding sequence (cds) number, genome size, GC content ​[100x(G+C)/​(A+C+G+T)], and GC skew index (gcsi), which is a measure of the degree of GC skew [(G-C)/​(G+C)] (http://​www.ncbi.nlm.nih.gov/​pubmed/​19461976).+
  
 <code perl> <code perl>
-use G;+  ​use G;
  
-my @key = qw(rRNA tRNA cds size GC gcsi); +  ​my @key = qw(rRNA tRNA cds size GC gcsi); 
-my %stat;+  my %stat;
  
-open(OUT,">​stat.txt"​);​ +  ​open(OUT,">​stat.txt"​);​ 
-print OUT join("​\t",​ @key), "​\n";​+  print OUT join("​\t",​ @key), "​\n";​
  
-my $dir = '​g-language-1.8.10/​share/​genomes/';​ +  ​my $dir = '​g-language-1.8.10/​share/​genomes/';​ 
-opendir(DIR,​ $dir) || die "​directory open error:​$!";​ +  opendir(DIR,​ $dir) || die "​directory open error:​$!";​ 
-foreach my $file (sort readdir(DIR)){+  foreach my $file (sort readdir(DIR)){
     next if($file !~ /\.gbk$/);     next if($file !~ /\.gbk$/);
     my $gb = load("​$dir/​$file","​no msg");     my $gb = load("​$dir/​$file","​no msg");
Line 202: Line 200:
     foreach (@key){ push(@tmp, $stat{$_}); }     foreach (@key){ push(@tmp, $stat{$_}); }
     print OUT join("​\t",​ @tmp), "​\n";​     print OUT join("​\t",​ @tmp), "​\n";​
-+  ​
-closedir(DIR);​+  closedir(DIR);​
  
-close(OUT);+  ​close(OUT);
 </​code>​ </​code>​
  
-Executing this script generates the following tab-delimited output file ('​stat.txt'​).+このスクリプトを実行すると、以下のようなタブ区切りの結果がファイル('​stat.txt'​)に保存されます。
  
   rRNA    tRNA    cds     ​size ​   GC      gcsi   rRNA    tRNA    cds     ​size ​   GC      gcsi
Line 220: Line 218:
   4       ​46 ​     2125    1908256 40.8    0.0203799266306591   4       ​46 ​     2125    1908256 40.8    0.0203799266306591
  
-Scatter plots and correlation coefficients between all pairs of these values can be computed by adding the following ​commands ​(http://​www.bioconductor.org/​mogr/​chapter-code/​TwoColorPre.R).+得られた結果の散布図や相関係数は以下のようなRコマンド(http://​www.bioconductor.org/​mogr/​chapter-code/​TwoColorPre.R)を書き加えることで計算できます。
  
 <code perl> <code perl>
-my $rcmd = new Rcmd; +  ​my $rcmd = new Rcmd; 
-my @result = $rcmd->​exec(+  my @result = $rcmd->​exec(
                          qq!                          qq!
                          dat = read.delim("​stat.txt"​)                          dat = read.delim("​stat.txt"​)
Line 236: Line 234:
 </​code>​ </​code>​
  
-Executing this script generates the following '​Rplot.ps'​ file.+実行するとこのようなグラフが生成されます。
  
 {{genomestatrplot.png?​600|}} {{genomestatrplot.png?​600|}}
  
-There are a strong positive correlation between rRNA gene number and tRNA gene number (see rRNA-tRNA plot, r=0.9), as reported previouly ​(http://​nar.oxfordjournals.org/​cgi/​content/​full/​33/​4/​1141/​FIG4), and between the number of protein-coding sequences and genome size (see cds-size plot, r=1), as reported previouly ​(http://​www.pnas.org/​content/​101/​9/​3160/​F2.expansion.html).+先行研究で指摘されるように(http://​nar.oxfordjournals.org/​cgi/​content/​full/​33/​4/​1141/​FIG4)、rRNA遺伝子数とtRNA遺伝子数に強い正の相関があることがわかります 
 +(rRNA-tRNAのプロットが相関係数r=0.9を示している)。同様に、別の先行研究で指摘されていますように(http://​www.pnas.org/​content/​101/​9/​3160/​F2.expansion.html)、CDS数とゲノムサイズにも強い正の相関が見られます(cds-sizeのプロットが相関係数r=1を示している)。 
 +====== Example 5 - 遺伝子情報の統計解析 ======
  
- +以下のスクリプトは、マイコプラズマ菌(Mycoplasma genitalium)の遺伝子についてさまざまな統計的な解析をおこなったものです。この解析には開始位置、コドンの3番目の塩基におけるGC組成、コドンの3番目の塩基におけるGC skew、遺伝子発現量を推定するcodon adaptation index (caihttp://​www.ncbi.nlm.nih.gov/​pubmed/​3547335)、同義コドンの均一性を示す重み付けされた相対エントロピーの和(http://​www.ncbi.nlm.nih.gov/​pubmed/​15194186)が含まれます。
-====== Example 5- Calculating gene statistics ​ ====== +
- +
-The following script prints various statistics for protein-coding sequences ​(cds) in Mycoplasma genitalium ​genome such as start position (start)GC content at 3rd codon positions (gcc3), ​GC skew at 3rd codon positions (gcs3), the codon adaptation index (cai) (http://​www.ncbi.nlm.nih.gov/​pubmed/​3547335), and the weighted sum of relative entropy (Ew) as a measure of the degree of synonymous codon evenness ​(http://​www.ncbi.nlm.nih.gov/​pubmed/​15194186).+
  
 <code perl> <code perl>
-use G;+  ​use G;
  
-my $gb = load("​g-language-1.8.10/​share/​genomes/​mgen.gbk"​);​+  ​my $gb = load("​g-language-1.8.10/​share/​genomes/​mgen.gbk"​);​
  
-foreach my $cds ($gb->​cds()){+  ​foreach my $cds ($gb->​cds()){
     &​bui($gb,​ -output=>'​n',​ -id=>​$cds,​ -position=>​3);​ # base usage indices (gcc3, gcs3) at 3rd codon posotions     &​bui($gb,​ -output=>'​n',​ -id=>​$cds,​ -position=>​3);​ # base usage indices (gcc3, gcs3) at 3rd codon posotions
-+  ​
-&​cai($gb,​ -output=>'​n',​ -w_output=>'​n'​);​ +  &​cai($gb,​ -output=>'​n',​ -w_output=>'​n'​);​ 
-&​Ew($gb,​ -output=>'​n'​);​+  &​Ew($gb,​ -output=>'​n'​);​
  
-my @key = qw(start gcc3 gcs3 cai Ew); +  ​my @key = qw(start gcc3 gcs3 cai Ew); 
-open(OUT,">​stat.txt"​);​ +  open(OUT,">​stat.txt"​);​ 
-print OUT join("​\t",​ @key), "​\n";​ +  print OUT join("​\t",​ @key), "​\n";​ 
-foreach my $cds ($gb->​cds()){+  foreach my $cds ($gb->​cds()){
     my @tmp;     my @tmp;
     foreach (@key){ push(@tmp, $gb->​{$cds}->​{$_});​ }     foreach (@key){ push(@tmp, $gb->​{$cds}->​{$_});​ }
     print OUT join("​\t",​ @tmp), "​\n";​     print OUT join("​\t",​ @tmp), "​\n";​
-+  ​
-close(OUT);+  close(OUT);
 </​code>​ </​code>​
  
-Executing this script generates the following tab-delimited output file ('​stat.txt'​).+このスクリプトを実行すると以下のようなタブ区切りの結果が'​stat.txt'​として保存されます。
  
   $ head stat.txt   $ head stat.txt
Line 283: Line 280:
   11251   ​0.1533 ​ -0.1500 0.7432 ​ 0.6235   11251   ​0.1533 ​ -0.1500 0.7432 ​ 0.6235
  
-Scatter plots and correlation coefficients between all pairs of these values can be computed by adding the R commands described above (Example 4). +得られた結果の散布図と相関係数は、Example 4で示したようにRコマンドを書き加えることで描画されます。このスクリプトを実行すると'​Rplot.ps'​というファイルが出力されます。
-Executing this script generates the following ​'​Rplot.ps' ​file.+
  
 {{cdsstatrplot_mgen.png?​600|}} {{cdsstatrplot_mgen.png?​600|}}
  
-M. genitalium has a very distinctive variation in GC content within the genome (see start-gcc3 ​plot), and GC content is correlated with codon usage bias (see gcc3-cai ​and gcc3-Ew ​plots), as reported previously ​(Figure 2 in http://​www.horizonpress.com/​cimb/​v/​v3/​v3n403.pdf)+図のstart-gcc3プロットより、マイコプラズマ菌のGC組成は特徴的な傾向を示していることが分かります。そして、gcc3-caigcc3-Ewプロっトより、GC組成とコドン使用頻度の偏りに相関があることが分かります。これらは先行研究の知見とも一致します(http://​www.horizonpress.com/​cimb/​v/​v3/​v3n403.pdf・図2)。ライム病ボレリア(Borrelia burgdorferi"​g-language-1.8.10/​share/​genomes/​bbur.gbk"​)ではGC skewとコドン使用頻度の偏りに相関が見られます。 
-In Borrelia burgdorferi ​("​g-language-1.8.10/​share/​genomes/​bbur.gbk"​)GC skew (gcs3) is correlated with codon usage bias.+
variousperlscriptsjapanese.1285938342.txt.gz · Last modified: 2014/01/18 07:44 (external edit)