[BioRuby-ja] parsing MEGABlast -D 3 output

GOTO Naohisa ngoto @ gen-info.osaka-u.ac.jp
2005年 8月 4日 (木) 11:24:26 EDT


後藤です。

On Wed, 3 Aug 2005 16:19:18 +0900
Tomoaki NISHIYAMA <tomoakin @ kenroku.kanazawa-u.ac.jp> wrote:

> megablastは普通のblastより速く、-D3オプションで普通の 
> blastのような出力
> が得られるのですが、format0でパースできませんでした。

megablast 2.2.10 を何も引数を付けずに実行したときの説明によると

  -D  Type of output:
0 - alignment endpoints and score,
1 - all ungapped segments endpoints,
2 - traditional BLAST output,
3 - tab-delimited one line format [Integer]
    default = 0

なので、-D 2 ですよね?

> ちょっとの違いでパースできると信じつつ、以下のように、DELIMITER,  
> RS,
> initialize, format0_split_searchだけ変えたら、一応読めていそうで 
> した。
> ただし、multifastaでqueryを投げたファイルでは試して 
> いません。

マルチfasta形式で複数配列をクエリーとして入力した場合、MEGABLASTは
BLASTとかなり違う出力になってしまいます。具体的には、BLASTでは
クエリー1配列毎に毎回ヘッダ(BLASTN 2.2.10 [Oct-19-2004]のような)や
統計情報が出力されますが、MEGABLASTでは、1回しか出力されません。
また、それらの出現する順番や内容も若干異なります。

それと、クエリー配列が NOT FOUND だった場合は、そのクエリーについての
情報はまったく出力されません。

> Report_MEGABlastの定義を
> format0のReport_TBlastの下あたりに挿入して、
> autodetectionの所も対応したらうれしいかなと思います。

マルチfasta形式の複数配列入力時のサポートをしないといけないので、
そのまま取り込むわけにはいきませんが、何とか対応したいと思います。

-- 
後藤 直久  ngoto @ gen-info.osaka-u.ac.jp
大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研)


BioRuby-ja メーリングリストの案内