Dear Christian,<div>Thank you. I understand what you are saying. I am mainly asking regarding McLachlan. Sorry if it appears I want to learn about HPC from you.</div><div>I am working with people in the lab, for sure. They are just not aware about Cactus and I am learning as well.</div>
<div>I apologize for that, and will try to avoid it in the future.</div><div>Sincerely,</div><div>Jose</div><div><br><br><div class="gmail_quote">On Thu, Mar 29, 2012 at 8:01 AM, Christian D. Ott <span dir="ltr">&lt;<a href="mailto:cott@tapir.caltech.edu">cott@tapir.caltech.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
Hi Jose,<br>
<br>
look, the Einstein Toolkit team is very happy to help new users like<br>
you to get started and sort out specific questions regarding parts<br>
of the toolkit.<br>
<br>
What we really can&#39;t do is provide you with very basic<br>
high-performance computing training via the mailing list. This is<br>
because many if not most people on this list actually volunteer to<br>
help in their spare time and are not paid as consultants for general<br>
HPC questions. You are at Berkeley lab and there are many experts that<br>
can help you with basic HPC questions, plus there are tons of resources<br>
available on-line, that I would kindly ask you to consult first.<br>
<br>
Regarding your scaling question:<br>
<br>
<a href="https://support.scinet.utoronto.ca/wiki/index.php/Introduction_To_Performance" target="_blank">https://support.scinet.utoronto.ca/wiki/index.php/Introduction_To_Performance</a><br>
<br>
gives a good introduction to performance measurements. There are many<br>
more webpages like this available on the internet. The plot shown in<br>
the Einstein Toolkit paper (arXiv:1111.3344) is a weak scaling test.<br>
<br>
Best,<br>
<br>
�- Christian Ott<br>
<div class="HOEnZb"><div class="h5"><br>
<br>
<br>
<br>
On Wed, Mar 28, 2012 at 11:55:30PM -0700, Jose Fiestas Iquira wrote:<br>
&gt; Hello,<br>
&gt;<br>
&gt; I reduced the simulation time by setting Cactus::cctk_final_time = .01 in<br>
&gt; order to measure performance with CrayPat. It run only 8 iterations. I used<br>
&gt; 16 and 24 cores for testing, and obtained almost the same performance<br>
&gt; (~1310 sec. simulation time, and ~16MFlops).<br>
&gt;<br>
&gt; It remembers me Fig.2 in the reference you sent<br>
&gt; <a href="http://arxiv.org/abs/1111.3344" target="_blank">http://arxiv.org/abs/1111.3344</a><br>
&gt;<br>
&gt; which I don&#39;t really understand. I would expect shorter times with larger<br>
&gt; number of cores. Why does it not happen here?<br>
&gt;<br>
&gt; I am using McLachlan to simulate a binary system. So, all my regards are<br>
&gt; concerning this specific application. Do you think it will scale in the<br>
&gt; sense that simulation time will be shorter, the larger of number of cores I<br>
&gt; use?<br>
&gt;<br>
&gt; Thanks,<br>
&gt; Jose<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; On Wed, Mar 21, 2012 at 5:08 AM, Erik Schnetter &lt;<a href="mailto:schnetter@cct.lsu.edu">schnetter@cct.lsu.edu</a>&gt;wrote:<br>
&gt;<br>
&gt; &gt; On Tue, Mar 20, 2012 at 10:45 PM, Frank Loeffler &lt;<a href="mailto:knarf@cct.lsu.edu">knarf@cct.lsu.edu</a>&gt;<br>
&gt; &gt; wrote:<br>
&gt; &gt; &gt; Hi,<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; On Tue, Mar 20, 2012 at 05:14:38PM -0700, Jose Fiestas Iquira wrote:<br>
&gt; &gt; &gt;&gt; Is there documentation about performance of Cactus ETK in large<br>
&gt; &gt; machines. I<br>
&gt; &gt; &gt;&gt; have some questions regarding best performance according to initial<br>
&gt; &gt; &gt;&gt; conditions, calculation time required, etc.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Performance very much depends on the specific setup. One poorly scaling<br>
&gt; &gt; &gt; function can ruin the otherwise best run.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;&gt; If there are performance plots like Flops vs. Number of nodes would<br>
&gt; &gt; help me<br>
&gt; &gt; &gt;&gt; as well.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Flops are very problem-dependent. There isn&#39;t such thing as flops/s for<br>
&gt; &gt; &gt; Cactus, not even for one given machine. If we talk about the Einstein<br>
&gt; &gt; &gt; equations and a typical production run I would expect a few percent of<br>
&gt; &gt; &gt; the peak performance of any given CPU, as we are most of the time bound<br>
&gt; &gt; by<br>
&gt; &gt; &gt; memory bandwidth.<br>
&gt; &gt;<br>
&gt; &gt; I would like to add some more numbers to Frank&#39;s description:<br>
&gt; &gt;<br>
&gt; &gt; One some problems (e.g. evaluating the BSSN equations with a<br>
&gt; &gt; higher-order stencil), I have measured more than 20% of the<br>
&gt; &gt; theoretical peak performance. The bottleneck seem to be L1 data cache<br>
&gt; &gt; accesses, because the BSSN equation kernels require a large number of<br>
&gt; &gt; local (temporary) variables.<br>
&gt; &gt;<br>
&gt; &gt; If you look for parallel scaling, then e.g.<br>
&gt; &gt; &lt;<a href="http://arxiv.org/abs/1111.3344" target="_blank">http://arxiv.org/abs/1111.3344</a>&gt; contains a scaling graph for the BSSN<br>
&gt; &gt; equations evolved with mesh refinement. This shows that, for this<br>
&gt; &gt; benchmark, the Einstein Toolkit scales well to more than 12k cores.<br>
&gt; &gt;<br>
&gt; &gt; -erik<br>
&gt; &gt;<br>
&gt; &gt; --<br>
&gt; &gt; Erik Schnetter &lt;<a href="mailto:schnetter@cct.lsu.edu">schnetter@cct.lsu.edu</a>&gt;<br>
&gt; &gt; <a href="http://www.perimeterinstitute.ca/personal/eschnetter/" target="_blank">http://www.perimeterinstitute.ca/personal/eschnetter/</a><br>
&gt; &gt;<br>
<br>
</div></div><div class="HOEnZb"><div class="h5">&gt; _______________________________________________<br>
&gt; Users mailing list<br>
&gt; <a href="mailto:Users@einsteintoolkit.org">Users@einsteintoolkit.org</a><br>
&gt; <a href="http://lists.einsteintoolkit.org/mailman/listinfo/users" target="_blank">http://lists.einsteintoolkit.org/mailman/listinfo/users</a><br>
<br>
</div></div></blockquote></div><br></div>