<div dir="ltr">Thank you both.  I&#39;ll get to work on both of those suggestions and let you know what I figure out.<div><br></div><div>  Damian</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Sep 17, 2015 at 4:01 AM, Ivan Gregoretti <span dir="ltr">&lt;<a href="mailto:ivangreg@gmail.com" target="_blank">ivangreg@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">In case it is needed, merging paired reads in FASTQ format can be done<br>

with a tool called FLASH, &quot;Fast Length Adjustment of SHort reads&quot;.<br>

<br>

I use it routinely for merging pairs of 2x300 bp from Illumina&#39;s technology.<br>

<br>

I hope this helps.<br>

<br>

Ivan<br>

<br>

<br>

<br>

Ivan Gregoretti, PhD<br>

Bioinformatics<br>

<div class="HOEnZb"><div class="h5"><br>

<br>

<br>

On Thu, Sep 17, 2015 at 7:08 AM, Peter Cock &lt;<a href="mailto:p.j.a.cock@googlemail.com">p.j.a.cock@googlemail.com</a>&gt; wrote:<br>

&gt; Hi Damian,<br>

&gt;<br>

&gt; This sounds very like read merging down with paired end Illumina FASTQ<br>

&gt; files, although here you are presumably using &quot;Sanger&quot; capillary<br>

&gt; sequencing? If so the ABI files can be turned into FASTQ files with<br>

&gt; quality scores rather than just FASTA files (e.g. with Biopython&#39;s<br>

&gt; SeqIO). You would probably have to rename your reads, e.g.<br>

&gt; &quot;identifier/1 (space) optional text&quot; and &quot;identifier/2 (space)<br>

&gt; optional text&quot; but I&#39;m not sure how well pair-merging tools would cope<br>

&gt; with these longer reads.<br>

&gt;<br>

&gt; Peter<br>

&gt;<br>

&gt;<br>

&gt;<br>

&gt; Peter<br>

&gt;<br>

&gt;<br>

&gt; On Wed, Sep 16, 2015 at 10:25 PM, Damian Menning &lt;<a href="mailto:dmenning@mail.usf.edu">dmenning@mail.usf.edu</a>&gt; wrote:<br>

&gt;&gt; Hello All,<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;   I have a fasta dataset in a single file with multiple paired end reads in<br>

&gt;&gt; paired sets of forward and reverse sequences (the reverse sequence is in the<br>

&gt;&gt; correct orientation).  I am pretty sure this is the real world example<br>

&gt;&gt; requested in 6.1.3 of the Biopython Cookbook J.  Within this dataset all of<br>

&gt;&gt; the information is the same i.e. ID:, Name:, Number of features:. The only<br>

&gt;&gt; exceptions are the descriptions and sequences.  Ex.<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;&gt;UAR Kaktovik 11-004 F L15774b(M13F)<br>

&gt;&gt;<br>

&gt;&gt; GTAGTATAGCAATTACCTTGGTCTTGTAAGCCAAAAACGGAGAATACCTACTCTCCCTAA<br>

&gt;&gt;<br>

&gt;&gt; GACTCAAGGAAGAAGCAACAGCTCCACTACCAGCACCCAAAGCTAATGTTCTATTTAAAC<br>

&gt;&gt;<br>

&gt;&gt; TATTCCCTGGTACATACTACTATTTTACCCCATGTCCTATTCATTTCATATATACCATCT<br>

&gt;&gt;<br>

&gt;&gt; TATGTGCTGTGCCATCGCAGTATGTCCTCGAATACCTTTCCCCCCCTATGTATATCGTGC<br>

&gt;&gt;<br>

&gt;&gt; ATTAATGGTGTGCCCCATGCATATAAGCATGTACATATTACGCTTGGTCTTACATAAGGA<br>

&gt;&gt;<br>

&gt;&gt; CTTACGTTCCGAAAGCTTATTTCAGGTGTATGGTCTGTGAGCATGTATTTCACTTAGTCC<br>

&gt;&gt;<br>

&gt;&gt; GAGAGCTTAATCACCGGGCCTCGAGAAACCAGCAACCCTTGCGAGTACGTGTACCTCTTC<br>

&gt;&gt;<br>

&gt;&gt; TCGCTCCGGGCCCATGGGGTGTGGGGGTTTCTATGTTGAAACTATACCTGGCATCTG<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;&gt;UAR Kaktovik 11-004 R CSBCH(M13R)<br>

&gt;&gt;<br>

&gt;&gt; TCCCTTCATTATTATCGGACAACTAGCCTCCATTCTCTACTTTACAATCCTCCTAGTACT<br>

&gt;&gt;<br>

&gt;&gt; TATACCTATCGCTGGAATTATTGAAAACAGCCTCTTAAAGTGGAGAGTCTTTGTAGTATA<br>

&gt;&gt;<br>

&gt;&gt; GCAATTACCTTGGTCTTGTAAGCCAAAAACGGAGAATACCTACTCTCCCTAAGACTCAAG<br>

&gt;&gt;<br>

&gt;&gt; GAAGAAGCAACAGCTCCACTACCAGCACCCAAAGCTAATGTTCTATTTAAACTATTCCCT<br>

&gt;&gt;<br>

&gt;&gt; GGTACATACTACTATTTTACCCCATGTCCTATTCATTTCATATATACCATCTTATGTGCT<br>

&gt;&gt;<br>

&gt;&gt; GTGCCATCGCAGTATGTCCTCGAATACCTTTCCCCCCCTATGTATATCGTGCATTAATGG<br>

&gt;&gt;<br>

&gt;&gt; TGTGCCCCATGCATATAAGCATGTACATATTACGCTTGGTCTTACATAAGGACTTACGTT<br>

&gt;&gt;<br>

&gt;&gt; CCGAAAGCTTATTTCAGGTGTATGGTCTGTGAGCATGTATTTCACTTAGTCCGAGAGCTT<br>

&gt;&gt;<br>

&gt;&gt; AATCACCGGGCCTCGAGAAACCAGCAACCCTTGCGAGTACGTGTACCTCTTCTCGCTCCG<br>

&gt;&gt;<br>

&gt;&gt; GGCCCATGGGGTGTGGGGGTTTCTATGTTGAAACTATACCTG<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; My end goal is to align the paired ends of the sequences that have the same<br>

&gt;&gt; description and save the aligned sequence to another file for further<br>

&gt;&gt; analyses.  I have a few problems:<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; 1) The descriptions of each sequence are not identical so I need to delete<br>

&gt;&gt; all but the first three parts and include the associated sequence. I.e.<br>

&gt;&gt; remove F L15774b(M13F) and  R CSBCH(M13R) above. The script below is what I<br>

&gt;&gt; have to make a new dictionary in this format.  Is this the best way to<br>

&gt;&gt; proceed in order to align the sequences in the next step?<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; handle = open(&quot;pairedend2.txt&quot;, &#39;r&#39;)<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; output_handle = open(&quot;AlignDict.txt&quot;, &quot;a&quot;)<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; desc2=dict()<br>

&gt;&gt;<br>

&gt;&gt; from Bio import SeqIO<br>

&gt;&gt;<br>

&gt;&gt; for seq_record in SeqIO.parse(handle, &quot;fasta&quot;):<br>

&gt;&gt;<br>

&gt;&gt;     parts = seq_record.description.split(&quot; &quot;)<br>

&gt;&gt;<br>

&gt;&gt;     des = [str(parts[0] + &#39; &#39; + parts[1] + &#39; &#39; + parts[2] + &#39;:&#39; +<br>

&gt;&gt; seq_record.seq)]<br>

&gt;&gt;<br>

&gt;&gt;     desc2=(dict(v.split(&#39;:&#39;) for v in des))<br>

&gt;&gt;<br>

&gt;&gt;     print (&#39;\n&#39; + str(desc2))<br>

&gt;&gt;<br>

&gt;&gt;     output_handle.write(str(desc2) + &#39;\n&#39;)<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; output_handle.close()<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; 2) My second issue is figuring out how to do the alignment.  I thought I<br>

&gt;&gt; would do a local alignment using something like needle (or is there a better<br>

&gt;&gt; way?) but the script examples I have seen so far use two files with a single<br>

&gt;&gt; sequence in each and I have one file with multiple sequences.  There is no<br>

&gt;&gt; easy way to separate these out into individual sequences into different<br>

&gt;&gt; files as the data sets are quite large.<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; Any help/ideas would be greatly appreciated.<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; Thank you<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt;   Damian<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; --<br>

&gt;&gt; Damian Menning, Ph.D.<br>

&gt;&gt;<br>

&gt;&gt; _______________________________________________<br>

&gt;&gt; Biopython mailing list  -  <a href="mailto:Biopython@mailman.open-bio.org">Biopython@mailman.open-bio.org</a><br>

&gt;&gt; <a href="http://mailman.open-bio.org/mailman/listinfo/biopython" rel="noreferrer" target="_blank">http://mailman.open-bio.org/mailman/listinfo/biopython</a><br>

&gt; _______________________________________________<br>

&gt; Biopython mailing list  -  <a href="mailto:Biopython@mailman.open-bio.org">Biopython@mailman.open-bio.org</a><br>

&gt; <a href="http://mailman.open-bio.org/mailman/listinfo/biopython" rel="noreferrer" target="_blank">http://mailman.open-bio.org/mailman/listinfo/biopython</a><br>

</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div><font face="arial, helvetica, sans-serif" size="2">Damian Menning, Ph.D.</font></div></div></div></div></div></div></div></div></div>

</div>