[BioRuby-ja] FastaNumericFormat and quality value handling / Bio::Sequence container

Tomoaki NISHIYAMA tomoakin @ kenroku.kanazawa-u.ac.jp
2006年 11月 15日 (水) 13:18:03 UTC


BioRubyの開発者の皆様

FlatFileでFastaNumericFormatを処理する時は、大抵、
核酸配列のファイルと組で処理することになっていて、
例えば、ベクターとマッチする領域を削るとか、quality valueが
低い、あるいは特定のパターンの配列領域を選ぶと言うような用途
に使いたいことが多いんじゃないかと思います。

そんなわけで、quality valueでも核酸でも、同じmethod 
例えば
subseqが使える方がいいし、配列はどちらでも、entry.seqでア 
クセス
出来る方が良いと思います。また、FastaFormatでは、 
dataが
処理前のデータテキストを表すなら、FastaNumericFormatでも
同様になっているべきと感じます。
まあ、dataは既に公開して時が経っているので、
新しい名前にした方が良いかもしれませんが。

そこで、Bio::Sequence::NAに対応して、Bio::Sequence:NUM
を作ってみました。

なにぶん、書き出しが簡単に出来ないと不都合なので、definition,  
format_fastaをつけて
ありますが、たぶん、これはBio::Sequenceのほうに作るように 
することが
あるべき姿なんでしょうかね?

おそらく、FlatFileの各エントリーをBio::Sequence型に 
変換するmethodと
Bio::Sequenceから、適当な形式へのFormat methodを用意して処 
理しようというのが
Bio::Sequenceをa container of rich sequence annotations
にするという意図ですよね?

@seq以外に@qualというinstance付きで、phredファ 
イルからあるいは、fasta, fasta.qual
ファイルpairからBio::Sequenceに読み込むmethod 
と、
outputに加えoutputqualというmethodがあれば便利なのか 
なと考えております。
あるいはBio::Sequence::NAwithQualのようなクラスがあるべき 
なのかも。
ご意見が伺えれば幸いです。

# bioruby-1.0.1は結局出さないんでしょうか?
-- 
西山智明

金沢大学学際科学実験センター
ゲノム機能解析分野
(920-0934 金沢市宝町13−1)

ERATO長谷部分化全能性進化プロジェクト
インフォマティクス・進化グループ

Tomoaki NISHIYAMA
Advanced Science Research Center,
Kanazawa University,
13-1 Takara-machi
Kanazawa, 920-0934 Japan

tomoakin @ kenroku.kanazawa-u.ac.jp


-------------- next part --------------



BioRuby-ja メーリングリストの案内