Re: [BioRuby-ja] GenBank形式のファイルを読みこみたい

Toshiaki Katayama ktym @ hgc.jp
2005年 2月 28日 (月) 01:45:26 EST


西山さん

On 2005/02/28, at 15:26, Tomoaki NISHIYAMA wrote:
> 基生研の西山です。
>
> 下のような現象は、余分な空行があるファイルで見ることがあります。
> 福井さんの方では、余分な空行がないかを確認してみては如何でしょうか。
>
> biorubyの方では、余分な空行があってもうまく処理できるよう
> になるとより良いと思います。

コメントありがとうございます。

巨大なエントリの時にパフォーマンスがどうなるか検証していませんが、
たとえば以下のように Bio::DB::NCBIDB, Bio::DB::EMBLDB の initialize で
与えられたエントリ文字列の前後の空白を strip するというのは
いかがでしょうか?

片山

--- bio/db.rb.orig      Sun Jun 20 19:30:06 2004
+++ bio/db.rb   Mon Feb 28 15:41:36 2005
@@ -90,7 +90,7 @@

      def initialize(entry, tagsize)
        @tagsize = tagsize
-      @orig = entry2hash(entry)                # Hash of the original 
entry
+      @orig = entry2hash(entry.split)  # Hash of the original entry
        @data = {}                       # Hash of the parsed entry
      end

@@ -130,7 +130,7 @@

      def initialize(entry, tagsize)
        @tagsize = tagsize
-      @orig = entry2hash(entry)                # Hash of the original 
entry
+      @orig = entry2hash(entry.strip)  # Hash of the original entry
        @data = {}                       # Hash of the parsed entry
      end



BioRuby-ja メーリングリストの案内