[BioRuby-ja] FastaNumericFormat and quality value handling / Bio::Sequence container
Tomoaki NISHIYAMA
tomoakin @ kenroku.kanazawa-u.ac.jp
2006年 11月 15日 (水) 13:18:03 UTC
BioRubyの開発者の皆様
FlatFileでFastaNumericFormatを処理する時は、大抵、
核酸配列のファイルと組で処理することになっていて、
例えば、ベクターとマッチする領域を削るとか、quality valueが
低い、あるいは特定のパターンの配列領域を選ぶと言うような用途
に使いたいことが多いんじゃないかと思います。
そんなわけで、quality valueでも核酸でも、同じmethod
例えば
subseqが使える方がいいし、配列はどちらでも、entry.seqでア
クセス
出来る方が良いと思います。また、FastaFormatでは、
dataが
処理前のデータテキストを表すなら、FastaNumericFormatでも
同様になっているべきと感じます。
まあ、dataは既に公開して時が経っているので、
新しい名前にした方が良いかもしれませんが。
そこで、Bio::Sequence::NAに対応して、Bio::Sequence:NUM
を作ってみました。
なにぶん、書き出しが簡単に出来ないと不都合なので、definition,
format_fastaをつけて
ありますが、たぶん、これはBio::Sequenceのほうに作るように
することが
あるべき姿なんでしょうかね?
おそらく、FlatFileの各エントリーをBio::Sequence型に
変換するmethodと
Bio::Sequenceから、適当な形式へのFormat methodを用意して処
理しようというのが
Bio::Sequenceをa container of rich sequence annotations
にするという意図ですよね?
@seq以外に@qualというinstance付きで、phredファ
イルからあるいは、fasta, fasta.qual
ファイルpairからBio::Sequenceに読み込むmethod
と、
outputに加えoutputqualというmethodがあれば便利なのか
なと考えております。
あるいはBio::Sequence::NAwithQualのようなクラスがあるべき
なのかも。
ご意見が伺えれば幸いです。
# bioruby-1.0.1は結局出さないんでしょうか?
--
西山智明
金沢大学学際科学実験センター
ゲノム機能解析分野
(920-0934 金沢市宝町13−1)
ERATO長谷部分化全能性進化プロジェクト
インフォマティクス・進化グループ
Tomoaki NISHIYAMA
Advanced Science Research Center,
Kanazawa University,
13-1 Takara-machi
Kanazawa, 920-0934 Japan
tomoakin @ kenroku.kanazawa-u.ac.jp
-------------- next part --------------
BioRuby-ja メーリングリストの案内