[BioRuby-ja] SwissProt,Trembleのフォーマット変更
UEHARA Keizou
uehara @ cbo.mss.co.jp
2004年 7月 30日 (金) 02:37:32 EDT
お世話になっております。上原慶三です。
>指摘されたとおり、bio/db/embl.rb では UniProt release 1.12 of 21-Jun-2004
>であらたに追加された RG 行に対応していませんでした。
>
>参考サイト:<http://kr.expasy.org/sprot/relnotes/sp_news.html>
>
>> CVSをのぞいた限りではまだ対応されていないようです。
>> こちらでembl.rbを変更して対応しましたが、もしよろしければ正式に対応していただけないでしょうか。
>
>embl.rb の GN 行対応はできたので、テストが終りしだい CVS にコミットします。
>ありがとうございます。
すばやい対応ありがとうございました。
CVSの最新版をチェックアウトして確認したところ、TremblのエントリO88927をパースすると以下のようなエラーが発生してしまいます。
---ここから---
Invalid FT Lines(FT W (in isoform CL3AC and isoform CL3BC).
/.../lib/ruby/site_ruby/1.8/bio/db/embl/sptr.rb:492:in `ft'
/.../lib/ruby/site_ruby/1.8/bio/db/embl/sptr.rb:447:in `each'
/.../lib/ruby/site_ruby/1.8/bio/db/embl/sptr.rb:447:in `ft'
.....
) in O88927:,
'FT SIGNAL 1 ? POTENTIAL.
FT CHAIN ? 1527 CALCIUM-INDEPENDENT ALPHA-LATROTOXIN
FT RECEPTOR 3.
FT DOMAIN ? 948 EXTRACELLULAR (POTENTIAL).
FT DOMAIN 88 179 CYS-RICH, LECTIN-LIKE.
FT DOMAIN 180 457 OLFACTOMEDIN-LIKE.
FT DOMAIN 361 491 PRO-RICH.
FT DOMAIN 496 556 SER/THR-RICH.
FT DOMAIN 559 835 BAI.
FT DOMAIN 844 933 CYS-RICH.
FT TRANSMEM 949 969 POTENTIAL.
FT DOMAIN 970 977 CYTOPLASMIC (POTENTIAL).
FT TRANSMEM 978 998 POTENTIAL.
FT DOMAIN 999 1006 EXTRACELLULAR (POTENTIAL).
FT TRANSMEM 1007 1027 POTENTIAL.
FT DOMAIN 1028 1048 CYTOPLASMIC (POTENTIAL).
FT TRANSMEM 1049 1069 POTENTIAL.
FT DOMAIN 1070 1087 EXTRACELLULAR (POTENTIAL).
FT TRANSMEM 1088 1108 POTENTIAL.
FT DOMAIN 1109 1132 CYTOPLASMIC (POTENTIAL).
FT TRANSMEM 1133 1153 POTENTIAL.
FT DOMAIN 1154 1159 EXTRACELLULAR (POTENTIAL).
FT TRANSMEM 1160 1180 POTENTIAL.
FT DOMAIN 1181 1527 CYTOPLASMIC (POTENTIAL).
FT DOMAIN 1460 1463 POLY-ALA.
FT SITE 922 923 CLEAVAGE (POTENTIAL).
FT VARSPLIC 19 86 Missing (in isoform CL3AA, isoform CL3AB
FT and isoform CL3AC).
FT /FTId=VSP_050431.
FT VARSPLIC 1263 1298 GLLNNARDTSVMDTLPLNGNHGNSYSIAGGEYLSNC -> P
FT YRETSMGVKLNIAYQIGASEQCQGYKCHGYSTTEW (in
FT isoform CL3BB and isoform CL3AB).
FT /FTId=VSP_050432.
FT VARSPLIC 1299 1527 Missing (in isoform CL3BB and isoform
FT CL3AB).
FT /FTId=VSP_050433.
FT VARSPLIC 1262 1341 EGLLNNARDTSVMDTLPLNGNHGNSYSIAGGEYLSNCVQII
FT DRGYNHNETALEKKILKELTSNYIPSYLNNHERSSEQNR -
FT > GTMANHLMSNALLRPHGTNNPYNTLLGEPAVCNNPSIS
FT MYNAQEPYRETSMGVKLNIAYQIGASEQCQGYKCHGYSTTE
FT W (in isoform CL3AC and isoform CL3BC).
FT /FTId=VSP_050434.
FT VARSPLIC 1342 1527 Missing (in isoform CL3AC and isoform
FT CL3BC).
FT /FTId=VSP_050435.
---ここまで---
これは FTの->の間に改行があるためだと考えられましたのでsptr.rbを以下のように変更しました。
482c482
< when /(\w[\w ]*\w*) - ?> (\w[\w ]*\w*)/
---
> when /(\w[\w ]*\w*) -> (\w[\w ]*\w*)/
この変更でとりあえずパースできるようになりました。
BioRubyをまだそれほど詳しく理解していないのですが、このような変更でよいのでしょうか。
もし何か不都合があれば、教えてもらいたいのですが。
たびたび申し訳ありませんがよろしくお願いします。
------------------------------------------------------------
発信者:上原 慶三 三菱スペースソフトウェア株式会社
関西事業部 バイオインフォマティクス部 第1技術課課
TEL:(06)4961-8862 661-0001 兵庫県尼崎市塚口本町5-4-36
FAX:(06)4961-8820 E-Mail:uehara @ cbo.mss.co.jp
BioRuby-ja メーリングリストの案内