User Tools

Site Tools


variousperlscriptsjapanese

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
variousperlscriptsjapanese [2010/10/01 13:04]
ike
variousperlscriptsjapanese [2010/10/01 13:07]
ike
Line 123: Line 123:
  
 ライム病ボレリア(Borrelia burgdorferi)のゲノムに対するRSCU値は論文の表1に示しています(http://​nar.oxfordjournals.org/​cgi/​content/​full/​27/​7/​1642)。 ライム病ボレリア(Borrelia burgdorferi)のゲノムに対するRSCU値は論文の表1に示しています(http://​nar.oxfordjournals.org/​cgi/​content/​full/​27/​7/​1642)。
 +====== Example 3 - rRNA配列から系統樹の作成 ======
  
- +$gb->​rRNA()はrRNAのすべてのfeature ​IDを配列として返し、'​16S'​'​23S'​'​5S'​'​SSU'​'​LSU'​のように、特定のrRNAを指定することもできます。 
-====== Example 3- Retrieving rRNA sequences and phylogenetic tree reconstruction ​ ====== +例えば、$gb->​rRNA('​16S'​)とすることで塩基配列順にソートされた16S rRNAのfeature ​IDを配列として返します。 
- +以下のスクリプトを実行すると、各生物種の中からもっとも長い塩基配列の16S rRNAをfasta形式のファイルとして出力します。
-$gb->​rRNA() ​returns the array of all feature ​IDs of rRNAs, and can specify rRNA species (e.g. '​16S'​'​23S'​'​5S'​'​SSU'​'​LSU'​). For exmaple, ​$gb->​rRNA('​16S'​) ​returns a list of feature ​IDs of 16S rRNAs, sorted by the nucleotide sequence lengths. +
- +
-The following script outputs a fasta-formatted file of nucleotide sequences of the longest ​16S rRNA genes for multiple bacterial strains.+
  
 <code perl> <code perl>
-use G;+  ​use G;
  
-my $rRNA = '​16S';​+  ​my $rRNA = '​16S';​
  
-open(OUT,">​gene.fasta"​);​+  ​open(OUT,">​gene.fasta"​);​
  
-my $dir = '​g-language-1.8.10/​share/​genomes/';​ +  ​my $dir = '​g-language-1.8.10/​share/​genomes/';​ 
-opendir(DIR,​ $dir) || die "​directory open error:​$!";​ +  opendir(DIR,​ $dir) || die "​directory open error:​$!";​ 
-foreach my $file (sort readdir(DIR)){+  foreach my $file (sort readdir(DIR)){
     next if($file !~ /\.gbk$/);     next if($file !~ /\.gbk$/);
     my $gb = load("​$dir/​$file","​no msg");     my $gb = load("​$dir/​$file","​no msg");
     next unless($gb->​rRNA($rRNA));​     next unless($gb->​rRNA($rRNA));​
     print OUT ">​$gb->​{ORGANISM}\n",​ $gb->​get_geneseq($gb->​rRNA($rRNA)),"​\n";​     print OUT ">​$gb->​{ORGANISM}\n",​ $gb->​get_geneseq($gb->​rRNA($rRNA)),"​\n";​
-+  ​
-closedir(DIR);​+  closedir(DIR);​
  
-close(OUT);+  ​close(OUT);
  
 </​code>​ </​code>​
  
-To check the number of sequences in the fasta-formatted output file (gene.fasta),​ type:+fastaファイルにいくつの配列が含まれるのか確認するためには、シェルで以下のように入力してください。
  
   $ grep '>'​ gene.fasta | wc -l   $ grep '>'​ gene.fasta | wc -l
   7   7
  
-Phylogenetic tree can be reconstructed by adding the following two lines: the first line invokes multiple alignment, and the second line calculates Neighbor joining ​(NJ) tree.+系統樹を作成するためには2行だけ以下に示すスクリプトを書き加えてください。1行目でマルチプルアラインメントを実行し、2行目で近隣結合法(neighbor-joining method; ​NJ)を計算します。
  
 <code perl> <code perl>
Line 166: Line 164:
 </​code>​ </​code>​
  
-Executing this script generates the following three output files: the gene.aln ​file (multiple alignment)gene.dnd ​file (guide tree), and gene.ph ​file (NJ tree)+このスクリプトを実行することで、3つのファイルを出力します。gene.aln(マルチアライメントファイル)gene.dnd(デンドログラムファイル)gene.ph(推定された系統樹ファイル)です。以下の系統樹はgene.phTreeView(http://​taxonomy.zoology.gla.ac.uk/​rod/​treeview.html)で描画したものです。
-The following phylogram was drawn using the gene.ph ​file as an input file of TreeView (http://​taxonomy.zoology.gla.ac.uk/​rod/​treeview.html).+
  
 {{hs_nj_rrs.png?​300|}} {{hs_nj_rrs.png?​300|}}
 +====== Example 4 - ゲノム配列の情報と相関解析 ======
  
- +以下のスクリプトはさまざまなゲノム情報を解析します。rRNAtRNA遺伝子、CDSの数、ゲノムサイズ、塩基組成[100x(G+C)/​(A+C+G+T)]GC skew [(G-C)/​(G+C)] ​の度合いを示すgcsi ​(GC skew index; ​http://​www.ncbi.nlm.nih.gov/​pubmed/​19461976)といった解析です。
-====== Example 4- Calculating genome statistics and their correlation analyses ​ ====== +
- +
-The following script calculates various genome statistics such as rRNA gene number, ​tRNA gene number, protein-coding sequence (cds) number, genome size, GC content ​[100x(G+C)/​(A+C+G+T)], and GC skew index (gcsi), which is a measure of the degree of GC skew [(G-C)/​(G+C)] (http://​www.ncbi.nlm.nih.gov/​pubmed/​19461976).+
  
 <code perl> <code perl>
-use G;+  ​use G;
  
-my @key = qw(rRNA tRNA cds size GC gcsi); +  ​my @key = qw(rRNA tRNA cds size GC gcsi); 
-my %stat;+  my %stat;
  
-open(OUT,">​stat.txt"​);​ +  ​open(OUT,">​stat.txt"​);​ 
-print OUT join("​\t",​ @key), "​\n";​+  print OUT join("​\t",​ @key), "​\n";​
  
-my $dir = '​g-language-1.8.10/​share/​genomes/';​ +  ​my $dir = '​g-language-1.8.10/​share/​genomes/';​ 
-opendir(DIR,​ $dir) || die "​directory open error:​$!";​ +  opendir(DIR,​ $dir) || die "​directory open error:​$!";​ 
-foreach my $file (sort readdir(DIR)){+  foreach my $file (sort readdir(DIR)){
     next if($file !~ /\.gbk$/);     next if($file !~ /\.gbk$/);
     my $gb = load("​$dir/​$file","​no msg");     my $gb = load("​$dir/​$file","​no msg");
Line 205: Line 200:
     foreach (@key){ push(@tmp, $stat{$_}); }     foreach (@key){ push(@tmp, $stat{$_}); }
     print OUT join("​\t",​ @tmp), "​\n";​     print OUT join("​\t",​ @tmp), "​\n";​
-+  ​
-closedir(DIR);​+  closedir(DIR);​
  
-close(OUT);+  ​close(OUT);
 </​code>​ </​code>​
  
-Executing this script generates the following tab-delimited output file ('​stat.txt'​).+このスクリプトを実行すると、以下のようなタブ区切りの結果がファイル('​stat.txt'​)に保存されます。
  
   rRNA    tRNA    cds     ​size ​   GC      gcsi   rRNA    tRNA    cds     ​size ​   GC      gcsi
Line 223: Line 218:
   4       ​46 ​     2125    1908256 40.8    0.0203799266306591   4       ​46 ​     2125    1908256 40.8    0.0203799266306591
  
-Scatter plots and correlation coefficients between all pairs of these values can be computed by adding the following ​commands ​(http://​www.bioconductor.org/​mogr/​chapter-code/​TwoColorPre.R).+得られた結果の散布図や相関係数は以下のようなRコマンド(http://​www.bioconductor.org/​mogr/​chapter-code/​TwoColorPre.R)を書き加えることで計算できます。
  
 <code perl> <code perl>
-my $rcmd = new Rcmd; +  ​my $rcmd = new Rcmd; 
-my @result = $rcmd->​exec(+  my @result = $rcmd->​exec(
                          qq!                          qq!
                          dat = read.delim("​stat.txt"​)                          dat = read.delim("​stat.txt"​)
Line 239: Line 234:
 </​code>​ </​code>​
  
-Executing this script generates the following '​Rplot.ps'​ file.+実行するとこのようなグラフが生成されます。
  
 {{genomestatrplot.png?​600|}} {{genomestatrplot.png?​600|}}
  
-There are a strong positive correlation between rRNA gene number and tRNA gene number (see rRNA-tRNA plot, r=0.9), as reported previouly ​(http://​nar.oxfordjournals.org/​cgi/​content/​full/​33/​4/​1141/​FIG4), and between the number of protein-coding sequences and genome size (see cds-size plot, r=1), as reported previouly ​(http://​www.pnas.org/​content/​101/​9/​3160/​F2.expansion.html).+先行研究で指摘されるように(http://​nar.oxfordjournals.org/​cgi/​content/​full/​33/​4/​1141/​FIG4)、rRNA遺伝子数とtRNA遺伝子数に強い正の相関があることがわかります 
 +(rRNA-tRNAのプロットが相関係数r=0.9を示している)。同様に、別の先行研究で指摘されていますように(http://​www.pnas.org/​content/​101/​9/​3160/​F2.expansion.html)、CDS数とゲノムサイズにも強い正の相関が見られます(cds-sizeのプロットが相関係数r=1を示している)。
  
  
variousperlscriptsjapanese.txt · Last modified: 2014/01/18 07:44 (external edit)