[BioRuby-ja] SwissProt,Trembleのフォーマット変更

UEHARA Keizou uehara @ cbo.mss.co.jp
2004年 7月 30日 (金) 02:37:32 EDT


お世話になっております。上原慶三です。

>指摘されたとおり、bio/db/embl.rb では UniProt release 1.12 of 21-Jun-2004 
>であらたに追加された RG 行に対応していませんでした。
>
>参考サイト:<http://kr.expasy.org/sprot/relnotes/sp_news.html>
>
>> CVSをのぞいた限りではまだ対応されていないようです。
>> こちらでembl.rbを変更して対応しましたが、もしよろしければ正式に対応していただけないでしょうか。
>
>embl.rb の GN 行対応はできたので、テストが終りしだい CVS にコミットします。
>ありがとうございます。

すばやい対応ありがとうございました。
CVSの最新版をチェックアウトして確認したところ、TremblのエントリO88927をパースすると以下のようなエラーが発生してしまいます。

---ここから---
Invalid FT Lines(FT                                W (in isoform CL3AC and isoform CL3BC).
/.../lib/ruby/site_ruby/1.8/bio/db/embl/sptr.rb:492:in `ft'
/.../lib/ruby/site_ruby/1.8/bio/db/embl/sptr.rb:447:in `each'
/.../lib/ruby/site_ruby/1.8/bio/db/embl/sptr.rb:447:in `ft'
.....
) in O88927:,
'FT   SIGNAL        1      ?       POTENTIAL.
FT   CHAIN         ?   1527       CALCIUM-INDEPENDENT ALPHA-LATROTOXIN
FT                                RECEPTOR 3.
FT   DOMAIN        ?    948       EXTRACELLULAR (POTENTIAL).
FT   DOMAIN       88    179       CYS-RICH, LECTIN-LIKE.
FT   DOMAIN      180    457       OLFACTOMEDIN-LIKE.
FT   DOMAIN      361    491       PRO-RICH.
FT   DOMAIN      496    556       SER/THR-RICH.
FT   DOMAIN      559    835       BAI.
FT   DOMAIN      844    933       CYS-RICH.
FT   TRANSMEM    949    969       POTENTIAL.
FT   DOMAIN      970    977       CYTOPLASMIC (POTENTIAL).
FT   TRANSMEM    978    998       POTENTIAL.
FT   DOMAIN      999   1006       EXTRACELLULAR (POTENTIAL).
FT   TRANSMEM   1007   1027       POTENTIAL.
FT   DOMAIN     1028   1048       CYTOPLASMIC (POTENTIAL).
FT   TRANSMEM   1049   1069       POTENTIAL.
FT   DOMAIN     1070   1087       EXTRACELLULAR (POTENTIAL).
FT   TRANSMEM   1088   1108       POTENTIAL.
FT   DOMAIN     1109   1132       CYTOPLASMIC (POTENTIAL).
FT   TRANSMEM   1133   1153       POTENTIAL.
FT   DOMAIN     1154   1159       EXTRACELLULAR (POTENTIAL).
FT   TRANSMEM   1160   1180       POTENTIAL.
FT   DOMAIN     1181   1527       CYTOPLASMIC (POTENTIAL).
FT   DOMAIN     1460   1463       POLY-ALA.
FT   SITE        922    923       CLEAVAGE (POTENTIAL).
FT   VARSPLIC     19     86       Missing (in isoform CL3AA, isoform CL3AB
FT                                and isoform CL3AC).
FT                                /FTId=VSP_050431.
FT   VARSPLIC   1263   1298       GLLNNARDTSVMDTLPLNGNHGNSYSIAGGEYLSNC -> P
FT                                YRETSMGVKLNIAYQIGASEQCQGYKCHGYSTTEW (in
FT                                isoform CL3BB and isoform CL3AB).
FT                                /FTId=VSP_050432.
FT   VARSPLIC   1299   1527       Missing (in isoform CL3BB and isoform
FT                                CL3AB).
FT                                /FTId=VSP_050433.
FT   VARSPLIC   1262   1341       EGLLNNARDTSVMDTLPLNGNHGNSYSIAGGEYLSNCVQII
FT                                DRGYNHNETALEKKILKELTSNYIPSYLNNHERSSEQNR -
FT                                > GTMANHLMSNALLRPHGTNNPYNTLLGEPAVCNNPSIS
FT                                MYNAQEPYRETSMGVKLNIAYQIGASEQCQGYKCHGYSTTE
FT                                W (in isoform CL3AC and isoform CL3BC).
FT                                /FTId=VSP_050434.
FT   VARSPLIC   1342   1527       Missing (in isoform CL3AC and isoform
FT                                CL3BC).
FT                                /FTId=VSP_050435.
---ここまで---
これは FTの->の間に改行があるためだと考えられましたのでsptr.rbを以下のように変更しました。

482c482
< 	      when /(\w[\w ]*\w*) - ?> (\w[\w ]*\w*)/
---
> 	      when /(\w[\w ]*\w*) -> (\w[\w ]*\w*)/

 この変更でとりあえずパースできるようになりました。
BioRubyをまだそれほど詳しく理解していないのですが、このような変更でよいのでしょうか。
もし何か不都合があれば、教えてもらいたいのですが。

 たびたび申し訳ありませんがよろしくお願いします。

------------------------------------------------------------
 発信者:上原 慶三  三菱スペースソフトウェア株式会社
 関西事業部 バイオインフォマティクス部 第1技術課課
TEL:(06)4961-8862      661-0001 兵庫県尼崎市塚口本町5-4-36
FAX:(06)4961-8820      E-Mail:uehara @ cbo.mss.co.jp


BioRuby-ja メーリングリストの案内