[BioRuby-ja] FlatFile blat parser
Tomoaki NISHIYAMA
tomoakin @ kenroku.kanazawa-u.ac.jp
2007年 8月 23日 (木) 03:10:56 UTC
西山@金沢です
blatはmultifastaをqueryにしたときも、blastと異
なり、queryが変わる度に
headerを出力ことはせず、各行にqueryとtargetの
idがでます。
それに対応して、Bio::Blat::Reportは
FlatFileとして処理させたとき1つのentryでたくさんの
hitという
事になっているのだと思いますが、使う都合としては、
query毎にバラしたファイルで検索するのはやりたくないし、
結果はやっぱりquery毎に欲しいということがあります。
例えば、query毎にbest hitの場所を選びたいと言う場合
です。
blatの出力に区切りが無いとはいえ、同じqueryの結果は続けて
でて来ますので
FlatFileとしての処理時は同じqueryの名前が続く
範囲を以て1つのentryとして返してくれると便利ということで
flatfile_splitterをつけてみました。
splitする段で各行をparseするので、
Hit.newを各行について再度呼ばなくて済むようにtextではなくて
HitのArrayを返すようにしてみました。(速度はおそらく2割程
度の差)
また、全部一括システムで全てをHashに押し込んで同じ
queryのhit毎に処理すると、
百数十MBytesのpslファイルを処理するのに
数GBytes以上のメモリーが必要になっていたのですが、
ずっと少ないメモリーで処理出来るようになります。
いかがでしょう。
$ diff -u report.rb reportex.rb
--- report.rb 2006-06-29 20:54:33.000000000 +0900
+++ reportex.rb 2007-08-23 11:24:34.000000000 +0900
@@ -41,16 +41,70 @@
# If multiple query sequences are given, these values
# will be incorrect.
#
- class Report #< DB
+ class Reportex #< DB
# Delimiter of each entry. Bio::FlatFile uses it.
# In Bio::Blat::Report, it it nil (1 entry 1 file).
DELIMITER = RS = nil # 1 file 1 entry
+ def self.flatfile_splitter(dbclass, stream)
+# puts "Reportex:flatfile_splitter called"
+ BlatSplitter.new(stream)
+ end
+
+ class BlatSplitter
+ def initialize(stream)
+ @stream = stream
+ end
+ def flatfile_splitter(dbclass, stream)
+ BlatSplitter.new(stream)
+ end
+ def skip_leader
+ s = @stream.gets
+ if s =~ /psLayout/
+ while s !~ /------/
+ s = @stream.gets
+ end
+ else
+ @stream.ungets(s)
+ end
+ end
+ def get_entry
+ p0 = @entry_pos_flag ? @stream.pos : nil
+ firstline = @stream.gets
+ if firstline == nil
+ return nil
+ end
+ e = firstline
+ hits = Array.new
+ first = Hit.new(firstline)
+ hits << first
+ query = first.query.name
+ nextline=@stream.gets
+ if nextline != nil
+ nexthit = Hit.new(nextline)
+ while nexthit.query.name == query
+ e += nextline
+ hits << nexthit
+ nextline = @stream.gets
+ break if nextline == nil
+ nexthit = Hit.new(nextline)
+ end
+ end
+ @stream.ungets(nextline) if nextline != nil
+ p1 = @entry_pos_flag ? @stream.pos : nil
+ @entry_start_pos = p0
+ @entry = e
+ @entry_ended_pos = p1
+ @hits = hits
+ end
+ end
+
# Creates a new Bio::Blat::Report object from BLAT result
text (String).
# You can use Bio::FlatFile to read a file.
# Currently, results created with options -out=psl (default) or
# -out=pslx are supported.
def initialize(text)
+ if text.is_a?(String)
flag = false
head = []
@hits = []
@@ -72,6 +126,9 @@
end
end
@columns = parse_header(head)
+ elsif text.is_a?(Array)
+ @hits=text
+ end
end
# hits of the result.
--
Tomoaki NISHIYAMA
Advanced Science Research Center,
Kanazawa University,
13-1 Takara-machi,
Kanazawa, 920-0934, Japan
BioRuby-ja メーリングリストの案内