<div dir="ltr"><div><div>Hi Chris,<br><br></div><font size="2"><span style="font-family:arial,helvetica,sans-serif">Thanks for explaining what is going on. The protein sequence (</span></font><font size="2"><span style="font-family:arial,helvetica,sans-serif">YP_008791527.1</span></font><font size="2"><span style="font-family:arial,helvetica,sans-serif">) in</span></font>deed comes from a GenBank record that has been removed (NC_022785). It seems the FASTA file containing the list of sequence accessions I am using (in each header) includes accessions to truncated or removed GenBank records. <br><br>I wonder if should simply manually curate my FASTA file every time I come upon such error (replace NC_022785 with the newer CP006567 - the newer Streptomyces rapamycinicus NRRL 5491 genome). This seems to have come up about a quarter of the way through fully parsing the FASTA file.<br><br></div><div>Regards,<br></div><div>Jon<br></div><div><br><br><font size="2"><span style="font-family:arial,helvetica,sans-serif"></span></font></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Jun 20, 2017 at 10:53 PM, Fields, Christopher J <span dir="ltr"><<a href="mailto:cjfields@illinois.edu" target="_blank">cjfields@illinois.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">







<div bgcolor="white" link="#0563C1" vlink="#954F72" lang="EN-US">
<div class="m_-6913420783478753391WordSection1">
<p class="MsoNormal">Hi Jon,<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">It looks like the script is attempting to parse a bad Genbank record, one that was truncated by an external error from NCBI, and failing (which is probably a good thing if the record is faulty). 
<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">I noticed the record for that protein no longer is valid (it’s discontinued); the genome was replaced with this one:<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal"><a href="https://www.ncbi.nlm.nih.gov/genome/?term=txid1343740[Organism:noexp]" target="_blank">https://www.ncbi.nlm.nih.gov/<wbr>genome/?term=txid1343740[<wbr>Organism:noexp]</a><u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">Was this an older cached record?<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<p class="MsoNormal">chris<u></u><u></u></p>
<p class="MsoNormal"><u></u> <u></u></p>
<div style="border:none;border-top:solid #b5c4df 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="margin-left:.5in"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">Bioperl-l <bioperl-l-bounces+cjfields=<a href="mailto:illinois.edu@mailman.open-bio.org" target="_blank">il<wbr>linois.edu@mailman.open-bio.<wbr>org</a>> on behalf of "Moller, Abraham" <<a href="mailto:mollera2@miamioh.edu" target="_blank">mollera2@miamioh.edu</a>><br>
<b>Date: </b>Tuesday, June 20, 2017 at 7:24 PM<br>
<b>To: </b>"<a href="mailto:bioperl-l@mailman.open-bio.org" target="_blank">bioperl-l@mailman.open-bio.<wbr>org</a>" <<a href="mailto:bioperl-l@mailman.open-bio.org" target="_blank">bioperl-l@mailman.open-bio.<wbr>org</a>><br>
<b>Subject: </b>[Bioperl-l] Problems downloading and parsing GenBank records<u></u><u></u></span></p>
</div><div><div class="h5">
<div>
<p class="MsoNormal" style="margin-left:.5in"><u></u> <u></u></p>
</div>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-right:0in;margin-bottom:12.0pt;margin-left:.5in">
Hi all,<u></u><u></u></p>
<p style="margin-left:.5in">I have been using a script to parse GenBank files to find taxonomic information corresponding to bacterial genomes. After several tries, my script has failed with the following error:<u></u><u></u></p>
<p style="margin-left:.5in">...<br>
<code><span style="font-size:10.0pt">Bacteria_Actinobacteria_<wbr>Streptomycetales_<wbr>Streptomycetaceae_<wbr>Streptomyces_Streptomyces_sp._<wbr>4F</span></code><br>
<code><span style="font-size:10.0pt">Bacteria_Actinobacteria_<wbr>Streptomycetales_<wbr>Streptomycetaceae_<wbr>Streptomyces_Streptomyces_<wbr>glaucescens</span></code><br>
<code><span style="font-size:10.0pt">--------------------- WARNING ---------------------</span></code><br>
<code><span style="font-size:10.0pt">MSG: Unbalanced quote in:</span></code><br>
<code><span style="font-size:10.0pt">/locus_tag="M271_25565"</span></code><br>
<code><span style="font-size:10.0pt">/inference="COORDINATES: ab initio prediction:GeneMarkS+"</span></code><br>
<code><span style="font-size:10.0pt">/note="Derived by automated computational analysis using</span></code><br>
<code><span style="font-size:10.0pt">gene prediction method: GeneMarkS+."</span></code><br>
<code><span style="font-size:10.0pt">/codon_start=1</span></code><br>
<code><span style="font-size:10.0pt">/transl_table=11</span></code><br>
<code><span style="font-size:10.0pt">/product="membrane protein"</span></code><br>
<code><span style="font-size:10.0pt">/protein_id="YP_008791527.1"</span></code><br>
<code><span style="font-size:10.0pt">/db_xref="GeneID:17596261"</span></code><br>
<code><span style="font-size:10.0pt">/translation="<wbr>MPSPTSLAPAGPTATPTRTTATARRLMAIC<wbr>GTLLAALLCALSVG</span></code><br>
<code><span style="font-size:10.0pt">ANSASAHAALTSTDPADGSVVKTAPREVTL<wbr>NFSEGVLLSGDSVRVLDPKGKRVDTGKT</span></code><br>
<code><span style="font-size:10.0pt">AHVDGKSSTAAAGLHSGLPDG Error: External viewer error: Empty Response. Bytes read: 0 Status:</span></code>
<code><span style="font-size:10.0pt">TimeoutNo further qualifiers will be added for this feature</span></code><br>
------------------------------<wbr>---------------------`<u></u><u></u></p>
<p style="margin-left:.5in">After this, the script seems to halt for hours at least, if not indefinitely...<br>
Is this a BioPerl or GenBank issue? Any help would be appreciated.<u></u><u></u></p>
</div>
<p class="MsoNormal" style="margin-left:.5in">Thanks,<u></u><u></u></p>
</div>
<p class="MsoNormal" style="margin-left:.5in">Jon Moller<br clear="all">
<u></u><u></u></p>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-left:.5in"><br>
-- <u></u><u></u></p>
<div>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-left:.5in">Abraham (Jon) Moller <u></u><u></u></p>
<div>
<p class="MsoNormal" style="margin-left:.5in">Microbiology and Chemistry | 2016<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:.5in">Cell, Molecular, and Structural Biology (CMSB) BS/MS | Liang Bioinfo Lab<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:.5in">Microbiology Club President <u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:.5in"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:.5in"><u></u> <u></u></p>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div></div></div>
</div>

</blockquote></div><br><br clear="all"><br>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr">Abraham (Jon) Moller<div>Microbiology and Chemistry | 2016</div><div>Cell, Molecular, and Structural Biology (CMSB) BS/MS | Liang Bioinfo Lab</div><div>Microbiology Club President </div><div><br></div><div><br></div></div></div></div></div>
</div>