<div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr">Thank you, David and Peter.<div><br></div><div>My input file actually has shortened IDs (shIDs) and alternating lines of fasta header and sequences (cleaned-up).</div><div><br></div><div>First, I copied my input file to a name without EMBOSS special characters:</div><div>cp Athaliana_167_TAIR9.fa.shIDscleaned-up Athaliana_167_TAIR9_UNshuffled.fa<br></div><div><br></div><div>Next, I ran shuffleseq using advice from both of you, as follows:</div><div><div>time shuffleseq -sformat pearson Athaliana_167_TAIR9_UNshuffled.fa EMBOSS.fa</div><div>Shuffle a set of sequences maintaining composition</div><div><br></div><div>real<span style="white-space:pre">   </span>15m13.015s</div><div>user<span style="white-space:pre">        </span>15m11.998s</div><div>sys<span style="white-space:pre"> </span>0m0.844s</div></div><div><br></div><div>And this works, so thank you both very much.</div><div><br></div><div>Best,</div><div>Anand</div><div><div dir="auto"><font size="1">_____</font></div><div dir="auto"><div><font size="1"><b><font color="#0000ff">Anand</font><font color="#ff0000">k</font></b>umar <b><font color="#ff0000">S</font></b>urendra<b><font color="#0000ff">rao</font></b>, PhD</font></div><div><font size="1">+<span class="gmail-m_5622536040572124114gmail-m_8747974950630346001gmail-m_2653759792135879968gmail-m_-6938048376179396498gmail-m_3642306687170081545gmail-il"><span class="gmail-m_5622536040572124114gmail-m_8747974950630346001gmail-m_2653759792135879968gmail-il"><span class="gmail-il">1.530</span></span></span>.<span class="gmail-m_5622536040572124114gmail-m_8747974950630346001gmail-m_2653759792135879968gmail-m_-6938048376179396498gmail-m_3642306687170081545gmail-il"><span class="gmail-m_5622536040572124114gmail-m_8747974950630346001gmail-m_2653759792135879968gmail-il"><span class="gmail-il">574.5134</span></span></span></font></div><div><font size="1">+91.91760.70887</font></div></div></div><div><br></div><div><br></div><div><b><u>note to self:</u></b></div><div>For ChrC, I compared sequences using BLAST 2 - no similarity detected, as expected.</div><div><br></div><div>For Chr1 and ChrC, I used a Perl script to calculate a,c,g,t,n and ? and found them to be exactly the same before and after shuffling.</div><div>Perl script = summarizeACGTcontent.pl</div></div></div></div></div><br><div class="gmail_quote"><div dir="ltr">On Fri, Nov 9, 2018 at 4:03 AM Peter Rice <<a href="mailto:ricepeterm@yahoo.co.uk">ricepeterm@yahoo.co.uk</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi Anand,<br>
<br>
As we found when we wrote EMBOSS, "FASTA format" is actually hard to <br>
define. The problem is the many ways you can define the ID, and the <br>
other information on the first line (it is amazing how much information <br>
you can encode in a simple description).<br>
<br>
Our solution was to define a set of formats that all read FASTA files, <br>
but parse the first line in different ways, for example "ncbi format" <br>
tries to read the NCBI database and id syntax.<br>
<br>
We added a format to read the sequence ID as-is for really awkward <br>
cases, and in honour of the author of FASTA we called it "pearson"<br>
<br>
So, if you add -sformat pearson it should read the full IDs up to the <br>
first space. If you re-read the output, you should use -sf pearson again <br>
(-sf is just short for -sformat)<br>
<br>
Hope that helps.<br>
<br>
Peter Rice<br>
<a href="mailto:ricepeterm@yahoo.co.uk" target="_blank">ricepeterm@yahoo.co.uk</a><br>
<br>
On 09/11/2018 07:30, David Bauer wrote:<br>
> Hi Anand,<br>
> <br>
> if you run “shuffleseq –help” you will see the type of input and output <br>
> sequences.<br>
> <br>
> Version: EMBOSS:6.5.7.0<br>
> <br>
>     Standard (Mandatory) qualifiers:<br>
> <br>
>    [-sequence]          seqall     Sequence(s) filename and optional <br>
> format, or<br>
> <br>
>                                    reference (input USA)<br>
> <br>
>    [-outseq]            seqoutall  [<sequence>.<format>] Sequence set(s)<br>
> <br>
>                                    filename and optional format (output USA)<br>
> <br>
> The “all” in seqall and seqoutall indicates that input and output can be <br>
> sequence files with multiple sequences.<br>
> <br>
> This can be fasta format or any other sequence format supported by <br>
> EMBOSS (genbank, embl etc.)<br>
> <br>
> The names of the sequences as they are in the original file, will be <br>
> preserved in the output file.<br>
> <br>
> If I try to reproduce your example with the file downloaded from IPK:<br>
> <br>
> shuffleseq Athaliana_167_TAIR9.fa test1.fa<br>
> <br>
> the output file contains the sequences as named in the input file:<br>
> <br>
> infoseq -only -name -desc test1.fa<br>
> <br>
> Name           Description<br>
> <br>
> Chr1           CHROMOSOME dumped from ADB: Feb/3/09 16:9; last updated: <br>
> 2007-12-20<br>
> <br>
> Chr2           CHROMOSOME dumped from ADB: Feb/3/09 16:10; last updated: <br>
> 2007-12-20<br>
> <br>
> Chr3           CHROMOSOME dumped from ADB: Feb/3/09 16:10; last updated: <br>
> 2007-12-20<br>
> <br>
> Chr4           CHROMOSOME dumped from ADB: Feb/3/09 16:10; last updated: <br>
> 2007-12-20<br>
> <br>
> Chr5           CHROMOSOME dumped from ADB: Feb/3/09 16:10; last updated: <br>
> 2007-12-20<br>
> <br>
> ChrM           CHROMOSOME dumped from ADB: Feb/3/09 16:10; last updated: <br>
> 2005-06-03<br>
> <br>
> ChrC           CHROMOSOME dumped from ADB: Feb/3/09 16:10; last updated: <br>
> 2005-06-03<br>
> <br>
> Your input file contains in the name “shIDscleaned-up”. You may have <br>
> done some modifications to the sequence names which confuse EMBOSS.<br>
> <br>
> You can test this by running the infoseq as above and check if you get <br>
> for “Name” what you expect.<br>
> <br>
> Make sure you don’t have any “:” characters in the sequence names in <br>
> your fasta file. This character has a special meaning in EMBOSS sequence <br>
> names.<br>
> <br>
> Hope this helps.<br>
> <br>
> Sincerely,<br>
> <br>
> David.<br>
> <br>
> *Von:*EMBOSS <emboss-bounces+david.bauer=<a href="mailto:bayer.com@mailman.open-bio.org" target="_blank">bayer.com@mailman.open-bio.org</a>> <br>
> *Im Auftrag von *Anandkumar Surendrarao<br>
> *Gesendet:* 09 November 2018 04:20<br>
> *An:* <a href="mailto:emboss@mailman.open-bio.org" target="_blank">emboss@mailman.open-bio.org</a><br>
> *Betreff:* [EMBOSS] shuffleseq for multifasta?<br>
> <br>
> Greetings!<br>
> <br>
> I am new to EMBOSS, and trying to use shufflseq to randomly shuffle <br>
> entire genomes (one-by-one). My input genomic sequences are in <br>
> multifasta format. And I wish to retain the same multifasta format for <br>
> the output file as well, containing the shuffled DNA sequences.<br>
> <br>
>  From the information at <br>
> <a href="http://emboss.sourceforge.net/apps/cvs/emboss/apps/shuffleseq.html" rel="noreferrer" target="_blank">http://emboss.sourceforge.net/apps/cvs/emboss/apps/shuffleseq.html</a>, it <br>
> appears to me that FASTA format for neither input not output is <br>
> supported. Am I mistaken?<br>
> <br>
> OR<br>
> <br>
> Is there a way to specify (multi)FASTA as both input and output formats?<br>
> <br>
> In one run that I completed with a genome assembly with 5 chromosmes - <br>
> Chr1 ... Chr5, the syntax I used was:<br>
> <br>
> shuffleseq -sequence Athaliana_167_TAIR9.fa.shIDscleaned-up -outseq <br>
> Athaliana_167_TAIR9_EmbossShuffled.fas<br>
> <br>
> Strangely, in the output file, the fasta headers were all repetitive Chr1.<br>
> <br>
> Hence my confusion. Could someone please clarify what my input <br>
> formatting should be and the correct syntax?<br>
> <br>
> Thanks, in advance, for your help.<br>
> <br>
> Sincerely,<br>
> <br>
> Anand<br>
> <br>
> _____<br>
> <br>
> *Anand**k*umar *S*urendra*rao*, PhD<br>
> <br>
> +1.530.574.5134<br>
> <br>
> +91.91760.70887<br>
> <br>
> <br>
> _______________________________________________<br>
> EMBOSS mailing list<br>
> <a href="mailto:EMBOSS@mailman.open-bio.org" target="_blank">EMBOSS@mailman.open-bio.org</a><br>
> <a href="http://mailman.open-bio.org/mailman/listinfo/emboss" rel="noreferrer" target="_blank">http://mailman.open-bio.org/mailman/listinfo/emboss</a><br>
> <br>
<br>
---<br>
This email has been checked for viruses by AVG.<br>
<a href="https://www.avg.com" rel="noreferrer" target="_blank">https://www.avg.com</a><br>
<br>
</blockquote></div>