<div dir="ltr"><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">Any thoughts?</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Jun 13, 2016 at 10:58 AM, Peter Cock <span dir="ltr"><<a href="mailto:p.j.a.cock@googlemail.com" target="_blank">p.j.a.cock@googlemail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">What do you think Michiel?<br>
<br>
Also related, earlier today I filed this issue:<br>
<a href="https://github.com/biopython/biopython/issues/851" rel="noreferrer" target="_blank">https://github.com/biopython/biopython/issues/851</a><br>
<br>
Peter<br>
<div><div class="h5"><br>
On Mon, Jun 13, 2016 at 3:26 PM, Sefa Kilic <<a href="mailto:sefa1@umbc.edu">sefa1@umbc.edu</a>> wrote:<br>
> Hello all,<br>
><br>
> I have been using the Bio.motifs PSSM search for a long time. Occasionally,<br>
> I work with genome sequences containing ambiguous bases. Biopython currently<br>
> does not support scoring sequences with ambiguous bases and I would like to<br>
> propose a change to fix that.<br>
><br>
> Currently, the "calculate" function in PositionSpecificScoringMatrix class<br>
> checks if alphabets of both motif and sequence are<br>
> IUPAC.IUPACUnambiguousDNA. If they are not, a ValueError exception is<br>
> raised.<br>
><br>
> The code itself, however, tolerates ambiguous bases on the sequence as NaN.<br>
> That is, given a PSSM of length L, all L-mer subsequences of the given<br>
> sequence are scored as NaN. I would like to extend it and do the scoring<br>
> properly for ambiguous sequences. For instance, if the base is Y (C or T),<br>
> it should be scored as the average of scoring it as C and as T. If the base<br>
> is N, it should be scored as the average of all bases [S(A) + S(T) + S(C) +<br>
> S(G)] / 4.<br>
><br>
> The change needs to be done on both Python and C (_pwm.c) sides. What do you<br>
> think? If you agree, I can implement it and send a pull request.<br>
><br>
> Cheers,<br>
><br>
</div></div>> _______________________________________________<br>
> Biopython-dev mailing list<br>
> <a href="mailto:Biopython-dev@mailman.open-bio.org">Biopython-dev@mailman.open-bio.org</a><br>
> <a href="http://mailman.open-bio.org/mailman/listinfo/biopython-dev" rel="noreferrer" target="_blank">http://mailman.open-bio.org/mailman/listinfo/biopython-dev</a><br>
</blockquote></div><br></div>