[BioRuby-ja] gc_percentをfloatに

GOTO Naohisa ngoto @ gen-info.osaka-u.ac.jp
2006年 6月 20日 (火) 10:01:08 UTC


後藤です。

On Wed, 14 Jun 2006 14:21:51 +0900
"Itoshi NIKAIDO" <dritoshi @ gmail.com> wrote:

> 提案です。
> 
> bio/sequence/na.rb の gc_percent ですが、float を返したほうが
> 良いのではないでしょうか。PCRプライマーなどオリゴの設計の
> 際には小数点第一位あたりが大事になってきます。実際に実験条件を
> 小数点第一位あたりで振るのは日常的ですので、floatのほうが現場に
> 合う気がします。如何でしょうか?

浮動小数点にするなら、100倍せずに 0 <= x <= 1 の範囲内で返すほうが、
数学的に美しいし、後の計算に使い回す場合にも都合がよいと思います。
というわけで、(gc_percentはそのままで)別メソッドの新設を提案したいです。

GC含有率を求める、というのは極めてありがちな欲求なので、予めメソッドを
用意しておくと、他人に教えたり、ワンライナーやirb(BioRuby shell)で
使う際に便利だと思います。

  def gc_content #(仮称)
    #(略)
    return gc.to_f / (at + gc).to_f
  end

有効数字は、Floatで計算する=Floatの限界に任せる、でいいと思います。
ATGC以外の文字の扱いについては、用途によって異なり、万能な方法が
存在しないのは確かだと思いますが、業界標準的なソフトの挙動に合わせて、
その仕様をドキュメントに書いておけば、問題ないとは思います。

ただ、私は、ATGC以外の文字が多く含まれる塩基配列のGC含量を扱おうと
思ったことがないので、何が標準かは知らないです…

-- 
後藤 直久  ngoto @ gen-info.osaka-u.ac.jp
大阪大学微生物病研究所 遺伝情報実験センター ゲノム情報解析分野(安永研)



BioRuby-ja メーリングリストの案内