Hello,<div><br><div>I reduced the simulation time by setting Cactus::cctk_final_time = .01 in order to measure performance with CrayPat. It run only 8 iterations. I used 16 and 24 cores for testing, and obtained almost the same performance (~1310 sec. simulation time, and ~16MFlops). </div>
<div><br></div><div>It remembers me Fig.2 in the reference you sent</div><div><a href="http://arxiv.org/abs/1111.3344">http://arxiv.org/abs/1111.3344</a></div><div><br></div><div>which I don&#39;t really understand. I would expect shorter times with larger number of cores. Why does it not happen here? </div>
<div><br></div><div>I am using McLachlan to simulate a binary system. So, all my regards are concerning this specific application. Do you think it will scale in the sense that simulation time will be shorter, the larger of number of cores I use?</div>
<div><br></div><div>Thanks,</div><div>Jose</div><div><br></div><div><br></div><br><div class="gmail_quote">On Wed, Mar 21, 2012 at 5:08 AM, Erik Schnetter <span dir="ltr">&lt;<a href="mailto:schnetter@cct.lsu.edu">schnetter@cct.lsu.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">On Tue, Mar 20, 2012 at 10:45 PM, Frank Loeffler &lt;<a href="mailto:knarf@cct.lsu.edu">knarf@cct.lsu.edu</a>&gt; wrote:<br>

&gt; Hi,<br>
&gt;<br>
&gt; On Tue, Mar 20, 2012 at 05:14:38PM -0700, Jose Fiestas Iquira wrote:<br>
&gt;&gt; Is there documentation about performance of Cactus ETK in large machines. I<br>
&gt;&gt; have some questions regarding best performance according to initial<br>
&gt;&gt; conditions, calculation time required, etc.<br>
&gt;<br>
&gt; Performance very much depends on the specific setup. One poorly scaling<br>
&gt; function can ruin the otherwise best run.<br>
&gt;<br>
&gt;&gt; If there are performance plots like Flops vs. Number of nodes would help me<br>
&gt;&gt; as well.<br>
&gt;<br>
&gt; Flops are very problem-dependent. There isn&#39;t such thing as flops/s for<br>
&gt; Cactus, not even for one given machine. If we talk about the Einstein<br>
&gt; equations and a typical production run I would expect a few percent of<br>
&gt; the peak performance of any given CPU, as we are most of the time bound by<br>
&gt; memory bandwidth.<br>
<br>
</div>I would like to add some more numbers to Frank&#39;s description:<br>
<br>
One some problems (e.g. evaluating the BSSN equations with a<br>
higher-order stencil), I have measured more than 20% of the<br>
theoretical peak performance. The bottleneck seem to be L1 data cache<br>
accesses, because the BSSN equation kernels require a large number of<br>
local (temporary) variables.<br>
<br>
If you look for parallel scaling, then e.g.<br>
&lt;<a href="http://arxiv.org/abs/1111.3344" target="_blank">http://arxiv.org/abs/1111.3344</a>&gt; contains a scaling graph for the BSSN<br>
equations evolved with mesh refinement. This shows that, for this<br>
benchmark, the Einstein Toolkit scales well to more than 12k cores.<br>
<span class="HOEnZb"><font color="#888888"><br>
-erik<br>
<br>
--<br>
Erik Schnetter &lt;<a href="mailto:schnetter@cct.lsu.edu">schnetter@cct.lsu.edu</a>&gt;<br>
<a href="http://www.perimeterinstitute.ca/personal/eschnetter/" target="_blank">http://www.perimeterinstitute.ca/personal/eschnetter/</a><br>
</font></span></blockquote></div><br></div>