[BioRuby-ja] gc_percentをfloatに

2006年 6月 21日 (水) 05:34:13 UTC

川島さん

BioRuby では以下の塩基を認識します。
せいぜい正規表現に変換できる程度ですが。
lib/bio/data/na.rb に定義されています。

bioruby> nucleicacids
a       a       Adenine
t       t       Thymine
g       g       Guanine
c       c       Cytosine
u       u       Uracil
r       [ag]    puRine
y       [tc]    pYrimidine
w       [at]    Weak
s       [gc]    Strong
k       [tg]    Keto
m       [ac]    aroMatic
b       [tgc]   not A
v       [agc]   not T
h       [atc]   not G
d       [atg]   not C
n       [atgc] 

_ を使った表記については知りませんでした。
情報がある方は教えてください。
よろしくお願いします。

片山

On 2006/06/21, at 2:15, 川島 武士 wrote:

> 川島@Berkeley&JGIです。
>
> 横から口を挟みまして恐縮ですが。
>
>>> ATGC以外の文字の扱いについては、用途によって異なり、万能な方法が
>>> 存在しないのは確かだと思いますが、業界標準的なソフトの挙動に合わせて、
>>> その仕様をドキュメントに書いておけば、問題ないとは思います。
>
>> ただ、私は、ATGC以外の文字が多く含まれる塩基配列のGC含量を扱おうと
>> 思ったことがないので、何が標準かは知らないです…
>
> 塩基の一文字表記は、一般に下記添付表のように定められています。
> (Graur and Li, "Fundamenrals of Molecular Evolution" 2nd Edition )
> アミノ酸配列の一文字表記と塩基配列の一文字表記を自動判別するような
> プログラムが、こういう汎用表記にかならず対応しているのかどうか、
> しらないですけれど。
>
> 　それと、最近非常に気になる事を聞きました。
> 下記の一文字表記以外に, "_"(underbar)を使った表記を使う
> シーケンサーがあるというのです。
> （ある人たちにとってはこれは常識のようでした。）
> 英語で聞いたのでかなり記憶が不確かですが、
> AAなのか、Aなのか分からないときに、A_と表記するようです。
> AAAなのかAAなのかAなのか分からないときは、A__など。
> どなたか詳しい事をご存知でしたら、教えて下さい。
>
> One-letter abbreviations for the DNA alphabet
>
> A Adenine
> C Cytosine
> T Thymine
> G Guanine
> U uracil
> W Weak bonds (A, T)
> S Strong bonds (G, C)
> R puRines (A, G)
> Y pYrimidines (C, T)
> K Keto (T, G)
> M aMino (A, C)
> B C, G, or T  (Aの次がBだからでしょう)
> D A, G, ot T　(Cの次がDだからでしょう)
> H A, C, or T　(Gの次がHだからでしょう)
> V A, C, or G　(Tの次の次がVだからでしょう)
> N A, C, T, or G
> - No nucleotide (gap symbol)
>
> _________________________________________________________________
> 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/