<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
Hi Roland and Peter,</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
No worries, thank you for the follow-up!&nbsp; I added the memory directive and received the same segfault error (and the backtrace looks the same as well).&nbsp; Each node on Quartz has 512GB for 128 cores, so I requested 4GB per core.&nbsp; For example, a submission with
 10 cores (2 processes with 5 threads each) had:</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<i>#SBATCH --mem=40GB</i><br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
I repeated the attempt with a different setup but the same memory scaling of 4 GB per core, such as 2 processes with 1 thread each (so 8GB memory requested), and failed the same way.&nbsp; Also tried using an entire node (8 processes with 16 threads per) and all
 its memory (--mem=0), and failed.&nbsp; <br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
I'm using the default <i>static_tov.par</i>, no changes:</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<i><br>
</i></div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<i>IO::out_dir &nbsp; &nbsp; &nbsp;= $parfile</i></div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<br>
<div><i>IOScalar::outScalar_every = 32</i></div>
<div><i>IOScalar::one_file_per_group = yes</i></div>
<div><i>IOScalar::outScalar_vars &nbsp;= &quot;</i></div>
<div><i>&nbsp;HydroBase::rho</i></div>
<div><i>&nbsp;HydroBase::press</i></div>
<div><i>&nbsp;HydroBase::eps</i></div>
<div><i>&nbsp;HydroBase::vel</i></div>
<div><i>&nbsp;ADMBase::lapse</i></div>
<div><i>&nbsp;ADMBase::metric</i></div>
<div><i>&nbsp;ADMBase::curv</i></div>
<div><i>&nbsp;ML_ADMConstraints::ML_Ham</i></div>
<div><i>&nbsp;ML_ADMConstraints::ML_mom</i></div>
<div><i><br>
</i></div>
<div><i>&quot;</i></div>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);" class="elementToProof">
Thank you,</div>
<div class="elementToProof">Jessica
<div id="Signature">
<div>
<div name="divtagdefaultwrapper" style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:; margin:0">
<b><br>
</b></div>
<div name="divtagdefaultwrapper" style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:; margin:0">
<b>Dr. Jessica S. Warren</b> </div>
<div name="divtagdefaultwrapper" style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:; margin:0">
<div>Physics Lecturer</div>
<div>Indiana University Northwest</div>
<div>warrenjs@iun.edu</div>
</div>
<div>
<div style="font-family:Calibri,Arial,Helvetica,sans-serif; font-size:12pt; color:rgb(0,0,0);">
<br>
<hr tabindex="-1" style="display:inline-block; width:98%;">
<b>From:</b> Roland Haas<br>
<b>Sent:</b> Thursday, August 18, 2022 3:36 PM<br>
<b>To:</b> Warren, Jessica Sawyer<br>
<b>Cc:</b> users@einsteintoolkit.org<br>
<b>Subject:</b> Re: [Users] [External] Re: Running with SLURM
<div><br>
</div>
</div>
<div class="BodyFragment"><font size="2"><span style="font-size:11pt;">
<div class="PlainText">Hello Jessica,<br>
<br>
Sorry for the delay in responding.<br>
<br>
We discussed your issue during today's weekly Einstein Toolkit call<br>
(<a href="http://lists.einsteintoolkit.org/pipermail/users/2022-August/008660.html" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">http://lists.einsteintoolkit.org/pipermail/users/2022-August/008660.html</a>)<br>
and there were some suggestions.<br>
<br>
The error you see is somewhat puzzling. The segfault happens in a MPI<br>
call that is part of the Carpet Reduction call (during output).<br>
<br>
The puzzling thing is that this is not the first MPI call in this run<br>
(there are some much earlier) nor the first reduction (eg there are<br>
reductions for the min/max output that you saw on screen).<br>
<br>
There was one suggestions that were mentioned:<br>
<br>
* Peter Diener noted that he had seem on one cluster issues with errors<br>
&nbsp; and segfaults later in the run where he needed to explicitly pass a<br>
&nbsp; &quot;#SBATCH --memory XGB&quot; to sbatch to request that memory is available<br>
<br>
>From the fact that you can see output to screen but the failure in a<br>
reduction to me sounds like the issue is somehow encountered while<br>
executing code in the CarpetIOScalar thorn (IOBasic is to screen,<br>
IOScalar is to disk). Are you passing any &quot;strange&quot; options or special<br>
variables to its outScalar_vars option?<br>
<br>
Yours,<br>
Roland<br>
<br>
&gt; Hi Roland,<br>
&gt; <br>
&gt; The admins reinstalled openmpi and it now runs the hello script<br>
&gt; correctly.&nbsp; However, the Toolkit would still produce seg faults after<br>
&gt; srun.&nbsp; Switching to mvapich seems to have largely done the trick<br>
&gt; though, as the TOV job is now able to start executing.&nbsp; As long as<br>
&gt; there is only 1 MPI process (with however many threads), the TOV job<br>
&gt; runs to completion correctly.&nbsp; However, anytime there are multiple<br>
&gt; MPI processes, it crashes at the first time iteration:<br>
&gt; <br>
&gt; INFO (TOVSolver): Done interpolation.<br>
&gt; ---------------------------------------------------------------------------<br>
&gt; Iteration&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Time |&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ADMBASE::alp |<br>
&gt; HYDROBASE::rho |&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; minimum&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; maximum |&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; minimum&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; maximum<br>
&gt; ---------------------------------------------------------------------------<br>
&gt;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 0&nbsp;&nbsp;&nbsp;&nbsp; 0.000 |&nbsp;&nbsp;&nbsp; 0.6698612&nbsp;&nbsp;&nbsp; 0.9966374 | 1.000000e-10<br>
&gt; 0.0012800 Rank 1 with PID 3964893 received signal 11<br>
&gt; Writing backtrace to static_tov/backtrace.1.txt<br>
&gt; srun: error: c40: task 1: Segmentation fault (core dumped)<br>
&gt; <br>
&gt; The backtrace is attached, as well as the last portion of the output,<br>
&gt; and it looks like the issue is tied to Carpet.&nbsp; Are there some<br>
&gt; settings in the parameter file that need adjusting or setting to fix<br>
&gt; this?&nbsp; Or perhaps specific settings for the number of ranks and<br>
&gt; threads?<br>
&gt; <br>
&gt; Thank you,<br>
&gt; Jessica<br>
&gt; <br>
&gt; <br>
&gt; Dr. Jessica S. Warren<br>
&gt; Physics Lecturer<br>
&gt; Indiana University Northwest<br>
&gt; warrenjs@iun.edu<br>
&gt; <br>
&gt; ________________________________<br>
&gt; From: Roland Haas<br>
&gt; Sent: Thursday, August 11, 2022 8:32 AM<br>
&gt; To: Warren, Jessica Sawyer<br>
&gt; Cc: users@einsteintoolkit.org<br>
&gt; Subject: Re: [Users] [External] Re: Running with SLURM<br>
&gt; <br>
&gt; Hello Jessica,<br>
&gt; <br>
&gt; If you get the same error from hello-world and from Cactus then it<br>
&gt; would seem that there is still something off with the MPI stack.<br>
&gt; <br>
&gt; The -lmpi_cxx option instructs the linker to link in C++ bindings for<br>
&gt; MPI though for just the hello world example, it being C code, this is<br>
&gt; not required and -lmpi alone is sufficient.<br>
&gt; <br>
&gt; I would see two options that would let you get running somewhat<br>
&gt; quickly:<br>
&gt; <br>
&gt; 1. report your issues with OpenMPI and hello-world (including link to<br>
&gt; the source code on the web, and the exact command line to compile) to<br>
&gt; the admins and ask them for help<br>
&gt; <br>
&gt; 1.5 instead of using gcc to compile for OpenMPI do use the MPI<br>
&gt; official compiler wrapper mpicc which would just be:<br>
&gt; <br>
&gt; mpicc -o hello hello.c<br>
&gt; <br>
&gt; that is you do not have to pass and library or inlcude options. If<br>
&gt; this fails, I would definitely talk to the admins.<br>
&gt; <br>
&gt; 2. compile hello-world using mvapich. For this the easiest way is to<br>
&gt; make sure to load the mvapich module and then use the same compiler<br>
&gt; wrapper invication to compile:<br>
&gt; <br>
&gt; mpicc -o hello hello.c<br>
&gt; <br>
&gt; If 2 works then you can also compile the Einstein Toolkit with<br>
&gt; mvapich. You have to make sure to load the correct module before<br>
&gt; compiling the toolkit and then ExternalLibraries/MPI should figure<br>
&gt; out (from the mpicc wrapper) how to compile the toolkit.<br>
&gt; <br>
&gt; Yours,<br>
&gt; Roland<br>
&gt; <br>
&gt; <br>
&gt; &gt; Hi Roland,<br>
&gt; &gt;<br>
&gt; &gt; Thank you so much.&nbsp; The compute nodes are able to be used for<br>
&gt; &gt; compilation, and the directories match what is listed in<br>
&gt; &gt; make.MPI.defn.&nbsp; When doing the 'hello' example you linked to, it was<br>
&gt; &gt; unable to compile due to a linker error (/usr/bin/ld: cannot find<br>
&gt; &gt; -lmpi_cxx).&nbsp; I re-ran it in verbose mode and found the directory it<br>
&gt; &gt; was searching did exist and did have lmpi but not lmpi_cxx.&nbsp; The<br>
&gt; &gt; admins said they had had some issues installing openmpi (couldn't<br>
&gt; &gt; recall exactly what), and recommended mpavich (since that does have<br>
&gt; &gt; lmpicxx installed and is their preferred implementation).&nbsp; However,<br>
&gt; &gt; they reinstalled openmpi in an effort to get that to work and it did<br>
&gt; &gt; allow the 'hello' script to compile, but when executed it produced:<br>
&gt; &gt;<br>
&gt; &gt; --------------------------------------------------------------------------<br>
&gt; &gt; No OpenFabrics connection schemes reported that they were able to be<br>
&gt; &gt; used on a specific port.&nbsp; As such, the openib BTL (OpenFabrics<br>
&gt; &gt; support) will be disabled for this port.<br>
&gt; &gt;<br>
&gt; &gt;&nbsp;&nbsp; Local host:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; h1<br>
&gt; &gt;&nbsp;&nbsp; Local device:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; mlx5_0<br>
&gt; &gt;&nbsp;&nbsp; Local port:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 1<br>
&gt; &gt;&nbsp;&nbsp; CPCs attempted:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; rdmacm, udcm<br>
&gt; &gt; --------------------------------------------------------------------------<br>
&gt; &gt; Hello world from processor h1.quartz.uits.iu.edu, rank 0 out of 1<br>
&gt; &gt; processors<br>
&gt; &gt;<br>
&gt; &gt; Similarly, doing the TOV job via sbatch, after the srun command it<br>
&gt; &gt; gave the same OpenFabrics message (for each MPI rank) and then the<br>
&gt; &gt; same segmentation faults as before.&nbsp; I've contacted the admins about<br>
&gt; &gt; this and am waiting to hear back.&nbsp; Do you have any recommendations -<br>
&gt; &gt; perhaps it would be easier to try switching over to mvapich?&nbsp; If so,<br>
&gt; &gt; could you point me to some resources on how to reconfigure?<br>
&gt; &gt;<br>
&gt; &gt; Thank you,<br>
&gt; &gt; Jessica<br>
&gt; &gt;<br>
&gt; &gt; Dr. Jessica S. Warren<br>
&gt; &gt; Physics Lecturer<br>
&gt; &gt; Indiana University Northwest<br>
&gt; &gt; warrenjs@iun.edu<br>
&gt; &gt; ________________________________<br>
&gt; &gt; From: Roland Haas &lt;rhaas@illinois.edu&gt;<br>
&gt; &gt; Sent: Tuesday, August 9, 2022 9:48 AM<br>
&gt; &gt; To: Warren, Jessica Sawyer &lt;warrenjs@iun.edu&gt;<br>
&gt; &gt; Cc: users@einsteintoolkit.org &lt;users@einsteintoolkit.org&gt;<br>
&gt; &gt; Subject: [External] Re: [Users] Running with SLURM<br>
&gt; &gt;<br>
&gt; &gt; Hello Jessica,<br>
&gt; &gt;<br>
&gt; &gt; You may also find something useful in the setting up a new machine<br>
&gt; &gt; seminar presentation:<br>
&gt; &gt;<br>
&gt; &gt; <a href="https://urldefense.com/v3/__https://www.einsteintoolkit.org/seminars/2022_02_24/index.html__;!!DZ3fjg!9JAgxc4juluJwklwTQgJGsYLXJIzzdHOqX8rwuiuymRXLrFedDv4PXSatzu0HVAYDfBFpiYxw1_jUDmUew$" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">
https://urldefense.com/v3/__https://www.einsteintoolkit.org/seminars/2022_02_24/index.html__;!!DZ3fjg!9JAgxc4juluJwklwTQgJGsYLXJIzzdHOqX8rwuiuymRXLrFedDv4PXSatzu0HVAYDfBFpiYxw1_jUDmUew$</a><br>
&gt; &gt;<br>
&gt; &gt; Yours,<br>
&gt; &gt; Roland<br>
&gt; &gt;<br>
&gt; &gt; --<br>
&gt; &gt; My email is as private as my paper mail. I therefore support<br>
&gt; &gt; encrypting and signing email messages. Get my PGP key from<br>
&gt; &gt; <a href="https://urldefense.com/v3/__http://pgp.mit.edu__;!!DZ3fjg!9JAgxc4juluJwklwTQgJGsYLXJIzzdHOqX8rwuiuymRXLrFedDv4PXSatzu0HVAYDfBFpiYxw19et3mEyg$" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">
https://urldefense.com/v3/__http://pgp.mit.edu__;!!DZ3fjg!9JAgxc4juluJwklwTQgJGsYLXJIzzdHOqX8rwuiuymRXLrFedDv4PXSatzu0HVAYDfBFpiYxw19et3mEyg$</a><br>
&gt; &gt;&nbsp; .&nbsp; <br>
&gt; <br>
&gt; <br>
&gt; --<br>
&gt; My email is as private as my paper mail. I therefore support<br>
&gt; encrypting and signing email messages. Get my PGP key from<br>
&gt; <a href="https://urldefense.com/v3/__http://pgp.mit.edu__;!!DZ3fjg!_ZQHbCvNiX5H7WOd1mpD6m4ZA8ifF0XyFfV1P_ciu1NcIUBzbMZrd5MUw2aPPDdBii4pcb2ZGT1cTOAsRw$" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">
https://urldefense.com/v3/__http://pgp.mit.edu__;!!DZ3fjg!_ZQHbCvNiX5H7WOd1mpD6m4ZA8ifF0XyFfV1P_ciu1NcIUBzbMZrd5MUw2aPPDdBii4pcb2ZGT1cTOAsRw$</a><br>
&gt;&nbsp; .<br>
<br>
<br>
-- <br>
My email is as private as my paper mail. I therefore support encrypting<br>
and signing email messages. Get my PGP key from <a href="http://pgp.mit.edu" target="_blank" rel="noopener noreferrer" data-auth="NotApplicable">
http://pgp.mit.edu</a> .<br>
</div>
</span></font></div>
</div>
</div>
</div>
</div>
</body>
</html>