User Tools

Site Tools


restauro_ja

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
restauro_ja [2012/01/31 07:19]
cory
restauro_ja [2014/01/18 07:44] (current)
Line 31: Line 31:
   * http://​rest.g-language.org/​annotation/​GeneID:​93986   * http://​rest.g-language.org/​annotation/​GeneID:​93986
     * GeneID:​93986についての情報を収集し、Tabular形式で取得する。     * GeneID:​93986についての情報を収集し、Tabular形式で取得する。
-  * http://​rest.g-language.org/​annotation/​eco:​b2029/​filter=Structure/​format=rdf +  * http://​rest.g-language.org/​annotation/​eco:​b2029/​filter=Structure/​format=n3 
-    * KEGGのeco:​b2029についてStructureの情報を収集し、RDFフォーマットで取得する。+    * KEGGのeco:​b2029についてStructureの情報を収集し、Notation3フォーマットで取得する。 
 +  * [[http://​rest.g-language.org/​annotation/​MMQESATETISNSSMNQNGMSTLSSQLDAGSRDGRSSGDTSSEVSTVELLHLQQQQALQAARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQLQALLQQQQAVMLQQQQLQEFYKKQQEQLHLQLLQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQQHPGKQAKEQQQQQQQQQQLAAQQLVFQQQLLQMQQLQQQQHLLSLQ|http://​rest.g-language.org/​annotation/​MMQESATETISNSSMNQNGMSTLSSQLD...]] 
 +    * アミノ酸配列に関して、候補となるUniProt IDと、それに関する情報のテーブルを取得する。
   * https://​gist.github.com/​1172846   * https://​gist.github.com/​1172846
-    * アミノ酸配列に関する情報をRDFフォーマットで取得するためのPerlスクリプトの例 +    * アミノ酸配列に関して最も配列類似性の高い遺伝子に関する情報をNotation3で取得するPerlスクリプト。
- +
 ===== Usage ===== ===== Usage =====
   * http://​rest.g-language.org/​annotation/​[GENE](/​options...)   * http://​rest.g-language.org/​annotation/​[GENE](/​options...)
Line 44: Line 44:
    * GENE : あなたが知りたい遺伝子を示すIDか配列をいれてください。    * GENE : あなたが知りたい遺伝子を示すIDか配列をいれてください。
     * 配列 : 塩基配列でもアミノ酸配列でもOK。     * 配列 : 塩基配列でもアミノ酸配列でもOK。
-    * 遺伝子ID : 使えるIDのデータベースのリストは[[http://​rest.glanguage.org/​annotation/​input_list|ここ]]から利用できます。+    * 遺伝子ID : 使えるIDのデータベースのリストは[[http://​rest.g-language.org/​annotation/​input_list|ここ]]から利用できます。
  
 === Optional Value === === Optional Value ===
 +== GENEが遺伝子IDでも配列でも有効 ==
   * /​format=[Format]   * /​format=[Format]
-    * 出力のフォーマットを指定します指定なしの場合、タブ区切りテキストが返ってきます。 +    * 出力のフォーマットを指定します 
-      * /format=out : タブ区切り+    * 指定なしの場合、ブラウザからのアクセスではHTMLによるテーブル、それ以外ならタブ区切りテキストが返ってきます。 
 +      * /format=txt : タブ区切り
       * /​format=n3 ​ : Notation3       * /​format=n3 ​ : Notation3
       * /format=rdf : RDF       * /format=rdf : RDF
 +      * /​format=html : HTML rich table
   * /​filter=[Filters]   * /​filter=[Filters]
 +    * example: ​ /​filter=GOslim
     * 使用できるフィルタのリストは[[http://​rest.g-language.org/​annotation/​filter_list|ここ]]から利用できます。     * 使用できるフィルタのリストは[[http://​rest.g-language.org/​annotation/​filter_list|ここ]]から利用できます。
     * 指定がない場合はフィルタリングを行わず、取得できるすべての情報を返します。     * 指定がない場合はフィルタリングを行わず、取得できるすべての情報を返します。
-  * /​offset=[1-4] : このオプションはGENEが配列の場合のみ有効になります。 
-    * "​offset"​値はBLATによる配列類似性検索の際のスコアの閾値を指定します。 
-    * 指定がない場合のデフォルト値は1です。 
-      * 1: Swiss-Prot level 1, 2 <​default>​ 
-      * 2: Swiss-Prot and TrEMBL level 1, 2 
-      * 3: Swiss-Prot and TrEMBL level 1 ~ 4 
-      * 4: Swiss-Prot and TrEMBL all candidates 
-    * levelの定義は (Tamaki, //et al.,// 2007) ([[www.ncbi.nlm.nih.gov/​pubmed/​17572364|pubmed]]) より引用させていただきました。 
-      * Identity = (Match/​Subject Length) and (Match/ Query Length) 
- 
-|            ^ E-value ^ Identity ^ 
-^ level 1    | ≤1E-70 ​ | ≥ 98%    | 
-^ level 2    | ≤1E-50 ​ | ≥ 95%    | 
-^ level 3    | ≤1E-30 ​ | ≥ 90%    | 
-^ level 4    | ≤1E-10 ​ | ≥ 80%    | 
  
 +== GENEが配列の場合のみ有効 ==
 +  * /​evalue=[E-value threshold]
 +    * default: ​ /​evalue=1e-70
 +  * /​identity=[Identity threshold]
 +    * default: ​ /​identity=0.98
 +    * "​evalue"​および"​identity"​値はBLATによる配列類似性検索の際のスコアの閾値を指定します。
 +    * 配列類似性検索では、上記パラメータを用いてSwiss-Protに対して検索を行います。
 +  * /direct=0
 +    * /​direct=1の場合、当該するUniProt IDのうちトップヒットの遺伝子に関する情報を表示します。
 +    * I'm feeling luckyモード。
 ===== Available Data ===== ===== Available Data =====
   * 入力として受け付けるIDのリスト : http://​rest.g-language.org/​annotation/​input_list   * 入力として受け付けるIDのリスト : http://​rest.g-language.org/​annotation/​input_list
Line 77: Line 76:
  
 ===== Architecture ===== ===== Architecture =====
-本Webサービスでは生物学データベースによる巨大なLODのLinkネットワークを単純に検索するのではなく、1. ユーザから得られたID/​配列をUniProt IDに変換。2. そのUniProt IDから辿ることができるLink情報を収集し、3. そのデータを任意のフォーマットに整形しユーザに提供するという情報の整理を行うことでより効率的で意味のある情報をより高速にユーザに提供することを可能としています。+本Webサービスでは生物学データベースによる巨大なLODのLinkネットワークを単純に検索するのではなく、1. ユーザから得られたID/​配列をUniProt IDに変換。2. そのUniProt IDから辿ることができるLink情報を収集し、3. そのデータを任意のフォーマットに整形しユーザに提供するという情報の整理を行うことでより効率的で意味のある情報をより高速にユーザに提供することを可能としています。
  
 ==== Linkネットワークの整理 ==== ==== Linkネットワークの整理 ====
-生物学の分野ではたくさんのデータがLODの形で多数のデータベースに登録されており、その膨大なネットワーク全体をそのまま扱うには計算コストの問題など多数のハードルが存在します。Restauro-G version 2ではこの問題に対して、そのLODネットワークを遺伝子に関するIDを中心に整理することで解決しています。生物学で扱われる情報には遺伝子やタンパク質、RNAといった分子情報に加えてパスウェイやGene Ontologyといった機能情報が存在しており、それぞれが複雑な関係性を持っているためそのLinkが複雑な物になります。しかしこれら2種の情報はすべて遺伝子の情報に結びつけることが可能であるため、遺伝子IDに関するネットワークに再構築することで、すべての情報を効率的に扱うことが可能です。+生物学の分野ではたくさんのデータがLODの形で多数のデータベースに登録されており、その膨大なネットワーク全体をそのまま扱うには計算コストの問題など多数のハードルが存在します。Restauro-G version 2ではこの問題に対して、そのLODネットワークを遺伝子に関するIDを中心に整理することで解決しています。生物学で扱われる情報には遺伝子やタンパク質、RNAといった分子情報に加えてパスウェイやGene Ontologyといった機能情報が存在しており、それぞれが複雑な関係性を持っているためそのLinkが複雑な物になります。しかしこれらの情報はすべて遺伝子の情報に結びつけることが可能であるため、遺伝子IDに関するネットワークに再構築することで、すべての情報を効率的に扱うことが可能です。
  
 Restauro-G version 2では、ネットワークの中心となる遺伝子IDにUniProt IDを選択しています。[[http://​www.uniprot.org/​|UniProt]]は遺伝子 (今回はタンパク質をコーディングしている領域をさすことと定義します) を中心としたデータベースで、Linkネットワークのハブとなりうる大量のcross-referenceを保持しています。さらにそれらの情報は定期的にメンテナンスされている上、すべてのLinkが最低一回は人によるキュレーションが行われた上質な情報だという点をふまえ、本サービスの主キーとして採用しました。 Restauro-G version 2では、ネットワークの中心となる遺伝子IDにUniProt IDを選択しています。[[http://​www.uniprot.org/​|UniProt]]は遺伝子 (今回はタンパク質をコーディングしている領域をさすことと定義します) を中心としたデータベースで、Linkネットワークのハブとなりうる大量のcross-referenceを保持しています。さらにそれらの情報は定期的にメンテナンスされている上、すべてのLinkが最低一回は人によるキュレーションが行われた上質な情報だという点をふまえ、本サービスの主キーとして採用しました。
Line 91: Line 90:
 ==== REST API ==== ==== REST API ====
 本サービスで得られる結果は対象となる遺伝子IDを含んだURIとして一意に定義することができるため、この動的に得られる結果自体をLODとして扱うことができます。RDFやNotation3などのフォーマットを指定すればSemantic Webのフレームワークとシームレスに連携することも可能です。このような形態でサービスを提供することで、Restauro-G version 2はLODのネットワークに対してより利用価値のある拡張を行うことができます。 本サービスで得られる結果は対象となる遺伝子IDを含んだURIとして一意に定義することができるため、この動的に得られる結果自体をLODとして扱うことができます。RDFやNotation3などのフォーマットを指定すればSemantic Webのフレームワークとシームレスに連携することも可能です。このような形態でサービスを提供することで、Restauro-G version 2はLODのネットワークに対してより利用価値のある拡張を行うことができます。
 +
 +===== Update Schedule =====
 +Restauro-G version 2では内部データベースを、UniProt-KBの定期アップデート後 (4週間ごと)にアップデートいたします。
  
 ===== Reference ===== ===== Reference =====
restauro_ja.1327994374.txt.gz · Last modified: 2014/01/18 07:44 (external edit)