<div dir="ltr">Greetings EMBOSS users!<br><div><br></div><div>I have ~ 18000 files, each with clustal formatted protein alignments derived from Pfam-A.full.</div><div>Some of these files are large > 500MB in size, the largest alignment is 3GB!</div><div><br></div><div>I need to calculate the following alignment statistics</div><div>A. average aligned length</div><div>B. std. dev. of aligned length<br></div><div>C. average of pairwise sequence ID %</div><div>D. std. dev. of pairwise sequence ID %</div><div><br></div><div>Here are my 2 problems that I seek help with:</div><div>1. I can calculate A and C using alistat that comes with UBUNTU, but not B or D.</div><div>2. For the really large alignments, there  is no option due to RAM requirements, and so I've used alistat's -f  (fast) option, which estimates average %id by "sampling"</div><div><br></div><div>If EMBOSS has tools / tricks to report A - D, while having reasonable RAM and disk-usage footprints, and quick processing times, please let me know.</div><div><br></div><div>I am open to suggestions regarding other tools as well.</div><div>I look forward to your replies. Thanks, in advance.</div><div><br></div><div>Sincerely,</div><div>Anand</div></div>