[BioRuby-ja] FastaNumericFormat and quality value handling / Bio::Sequence container

GOTO Naohisa ngoto @ gen-info.osaka-u.ac.jp
2006年 11月 16日 (木) 13:30:07 UTC


西山様

どうやら添付ファイルは経路途中で失われたようですので、お手数ですが、
できれば staff @ bioruby.org 宛に直接お送りいただけると幸いです。

> FlatFileでFastaNumericFormatを処理する時は、大抵、
> 核酸配列のファイルと組で処理することになっていて、
> 例えば、ベクターとマッチする領域を削るとか、quality valueが
> 低い、あるいは特定のパターンの配列領域を選ぶと言うような用途
> に使いたいことが多いんじゃないかと思います。
> 
> そんなわけで、quality valueでも核酸でも、同じmethod 
> 例えば
> subseqが使える方がいいし、配列はどちらでも、entry.seq
> でアクセス出来る方が良いと思います。

整数(場合によっては小数も?)のArrayをString的に扱うこともやりたい、
という、主旨は理解できます。確かに、便利だと思います。

ちなみに、小数でゲノムスケールの巨大な配列を扱うにはNArrayが無いと
苦しいかもしれません。

> また、FastaFormatでは、 dataが
> 処理前のデータテキストを表すなら、FastaNumericFormatでも
> 同様になっているべきと感じます。
> まあ、dataは既に公開して時が経っているので、
> 新しい名前にした方が良いかもしれませんが。

data については、おっしゃるとおり、他のデータフォーマットと
統一した名前のメソッドにしたいなあと思います。

> そこで、Bio::Sequence::NAに対応して、Bio::Sequence:NUM
> を作ってみました。
> 
> なにぶん、書き出しが簡単に出来ないと不都合なので、definition,  
> format_fastaをつけて
> ありますが、たぶん、これはBio::Sequenceのほうに作るように 
> することが
> あるべき姿なんでしょうかね?
> 
> おそらく、FlatFileの各エントリーをBio::Sequence型に 
> 変換するmethodと
> Bio::Sequenceから、適当な形式へのFormat methodを用意して処 
> 理しようというのが
> Bio::Sequenceをa container of rich sequence annotations
> にするという意図ですよね?

はい、Bio::Sequenceを経由してフォーマット間の変換をする予定です。
ただし、配列が伴わないデータ形式や、マルチプルアライメントなど
複数配列の組み合わせからなるデータ形式に関しては、思案中です。

> @seq以外に@qualというinstance付きで、phredファイルからあるいは、
> fasta, fasta.qualファイルpairからBio::Sequenceに読み込むmethodと、
> outputに加えoutputqualというmethodがあれば便利なのか 
> なと考えております。
> あるいはBio::Sequence::NAwithQualのようなクラスがあるべきなのかも。
> ご意見が伺えれば幸いです。

クオリティ以外にも、配列全長に関して何かのスコアを付けるケースは結構あると
思います。たとえば保存や変異の度合、何かの因子の結合活性、二次構造や疎水性など。
これらはfeatureとして一般的に扱ってもいいとは思いますが、長大なデータでも
効率よく扱うために「副配列」的な形で特別扱いしてもよいかもしれません。

Phredに関しては、誰かがPhredデータのパーサーを作っていたような気がします。

> # bioruby-1.0.1は結局出さないんでしょうか?

年初の構想では、今頃は既にbioruby-1.2か1.4くらいまで出ている予定
だったのですが…

いずれにせよ、致命的バグがいくつかあるので(私の書いた部分ばかりですが)
近いうちに新バージョンがリリースされるとは思います。

-- 
後藤 直久  ngoto @ gen-info.osaka-u.ac.jp



BioRuby-ja メーリングリストの案内