[BioRuby-ja] parsing MEGABlast -D 3 output
GOTO Naohisa
ngoto @ gen-info.osaka-u.ac.jp
2005年 8月 4日 (木) 11:24:26 EDT
後藤です。
On Wed, 3 Aug 2005 16:19:18 +0900
Tomoaki NISHIYAMA <tomoakin @ kenroku.kanazawa-u.ac.jp> wrote:
> megablastは普通のblastより速く、-D3オプションで普通の
> blastのような出力
> が得られるのですが、format0でパースできませんでした。
megablast 2.2.10 を何も引数を付けずに実行したときの説明によると
-D Type of output:
0 - alignment endpoints and score,
1 - all ungapped segments endpoints,
2 - traditional BLAST output,
3 - tab-delimited one line format [Integer]
default = 0
なので、-D 2 ですよね?
> ちょっとの違いでパースできると信じつつ、以下のように、DELIMITER,
> RS,
> initialize, format0_split_searchだけ変えたら、一応読めていそうで
> した。
> ただし、multifastaでqueryを投げたファイルでは試して
> いません。
マルチfasta形式で複数配列をクエリーとして入力した場合、MEGABLASTは
BLASTとかなり違う出力になってしまいます。具体的には、BLASTでは
クエリー1配列毎に毎回ヘッダ(BLASTN 2.2.10 [Oct-19-2004]のような)や
統計情報が出力されますが、MEGABLASTでは、1回しか出力されません。
また、それらの出現する順番や内容も若干異なります。
それと、クエリー配列が NOT FOUND だった場合は、そのクエリーについての
情報はまったく出力されません。
> Report_MEGABlastの定義を
> format0のReport_TBlastの下あたりに挿入して、
> autodetectionの所も対応したらうれしいかなと思います。
マルチfasta形式の複数配列入力時のサポートをしないといけないので、
そのまま取り込むわけにはいきませんが、何とか対応したいと思います。
--
後藤 直久 ngoto @ gen-info.osaka-u.ac.jp
大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研)
BioRuby-ja メーリングリストの案内