[BioRuby-ja] gc_percentをfloatに

Itoshi NIKAIDO dritoshi @ gmail.com
2006年 6月 21日 (水) 15:21:38 UTC


にかいどうです。

少なくとも、かずさでも理研でも聞いたことないですね。
ローカルルールなのでは?  その情報を使うプログラム
がなければ、気にしなくてもよいと思います。

そもそもシーケンスが怪しいかどうかを定性的に評価して
ファイルに書きこむというのは聞いたことがないです。
普通は、Phredなどのsequence quality valute やアキュラシー
など定量的な指標を使うのが一般的なのではないでしょうか。

On 6/21/06, Toshiaki Katayama <k @ bioruby.org> wrote:
> 川島さん
>
> BioRuby では以下の塩基を認識します。
> せいぜい正規表現に変換できる程度ですが。
> lib/bio/data/na.rb に定義されています。
>
> bioruby> nucleicacids
> a       a       Adenine
> t       t       Thymine
> g       g       Guanine
> c       c       Cytosine
> u       u       Uracil
> r       [ag]    puRine
> y       [tc]    pYrimidine
> w       [at]    Weak
> s       [gc]    Strong
> k       [tg]    Keto
> m       [ac]    aroMatic
> b       [tgc]   not A
> v       [agc]   not T
> h       [atc]   not G
> d       [atg]   not C
> n       [atgc]
>
> _ を使った表記については知りませんでした。
> 情報がある方は教えてください。
> よろしくお願いします。
>
> 片山
>
> On 2006/06/21, at 2:15, 川島 武士 wrote:
>
> > 川島@Berkeley&JGIです。
> >
> > 横から口を挟みまして恐縮ですが。
> >
> >>> ATGC以外の文字の扱いについては、用途によって異なり、万能な方法が
> >>> 存在しないのは確かだと思いますが、業界標準的なソフトの挙動に合わせて、
> >>> その仕様をドキュメントに書いておけば、問題ないとは思います。
> >
> >> ただ、私は、ATGC以外の文字が多く含まれる塩基配列のGC含量を扱おうと
> >> 思ったことがないので、何が標準かは知らないです…
> >
> > 塩基の一文字表記は、一般に下記添付表のように定められています。
> > (Graur and Li, "Fundamenrals of Molecular Evolution" 2nd Edition )
> > アミノ酸配列の一文字表記と塩基配列の一文字表記を自動判別するような
> > プログラムが、こういう汎用表記にかならず対応しているのかどうか、
> > しらないですけれど。
> >
> > それと、最近非常に気になる事を聞きました。
> > 下記の一文字表記以外に, "_"(underbar)を使った表記を使う
> > シーケンサーがあるというのです。
> > (ある人たちにとってはこれは常識のようでした。)
> > 英語で聞いたのでかなり記憶が不確かですが、
> > AAなのか、Aなのか分からないときに、A_と表記するようです。
> > AAAなのかAAなのかAなのか分からないときは、A__など。
> > どなたか詳しい事をご存知でしたら、教えて下さい。
> >
> > One-letter abbreviations for the DNA alphabet
> >
> > A Adenine
> > C Cytosine
> > T Thymine
> > G Guanine
> > U uracil
> > W Weak bonds (A, T)
> > S Strong bonds (G, C)
> > R puRines (A, G)
> > Y pYrimidines (C, T)
> > K Keto (T, G)
> > M aMino (A, C)
> > B C, G, or T  (Aの次がBだからでしょう)
> > D A, G, ot T (Cの次がDだからでしょう)
> > H A, C, or T (Gの次がHだからでしょう)
> > V A, C, or G (Tの次の次がVだからでしょう)
> > N A, C, T, or G
> > - No nucleotide (gap symbol)
> >
> > _________________________________________________________________
> > 迷惑メールやウイルスへの対策も万全「MSN Hotmail」 http://promotion.msn.co.jp/hotmail/
>
>


-- 
Itoshi NIKAIDO, Ph.D.
FF20 8296 ED6F D9E5 7D05  8A0F 65D8 C2F5 C8D7 2CE2



BioRuby-ja メーリングリストの案内