<div dir="ltr">Hi Roland,<div><br></div><div>Leo Werneck created a pull request to address your comment, and I have reviewed and merged it:</div><div><a href="https://bitbucket.org/zach_etienne/wvuthorns/commits/f3202a79db27673f5083894e6beb3f1a75e08b3d">https://bitbucket.org/zach_etienne/wvuthorns/commits/f3202a79db27673f5083894e6beb3f1a75e08b3d</a><br clear="all"><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div dir="ltr"><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">Regarding the original issue reported: Always run the Einstein Toolkit executable with the -reo option enabled, so that output from all processors is written to files. It&#39;s very likely that one MPI process (not process zero) is erroring out, and you won&#39;t see it on process zero.</div><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">-Zach</div><div style="font-size:12.8px"><br></div><span style="font-size:12.8px">*     *     *</span><br style="font-size:12.8px"><span style="font-size:12.8px">Zachariah Etienne</span></div><div><span style="font-size:12.8px">Assoc. Prof. of Physics, U. of Idaho</span></div><div><span style="font-size:12.8px">Adjunct Assoc. Prof. of Physics &amp; Astronomy, West Virginia U.</span></div><div dir="ltr"><div><a href="https://etienneresearch.com" target="_blank">https://etienneresearch.com</a></div><div><a href="https://blackholesathome.net/" target="_blank">https://blackholesathome.net</a><br></div></div></div></div></div></div></div></div></div></div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Sep 22, 2022 at 6:29 AM Roland Haas &lt;<a href="mailto:rhaas@illinois.edu">rhaas@illinois.edu</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hello all,<br>
<br>
The exit(1) really should be a CCTK_ERROR(&quot;Failed after Font fix&quot;)<br>
ideally with output of the offending variable values.<br>
<br>
Would one of you mind creating a bug report for IllinoisGRMHD so  that<br>
the IGM maintainers become aware and can produce a fix before the next<br>
release?<br>
<br>
Yours,<br>
Roland<br>
<br>
&gt; Hello Federico,<br>
&gt; I was having the same problem with binary black holes evolutions with<br>
&gt; IllinoisGRMHD. In my case, the &quot;exit(1)&quot; statement in<br>
&gt; harm_primitives_lowlevel.C in the piece of code you copied above silently<br>
&gt; killed my runs when the Font fix failed, pretty much as in your run. Just<br>
&gt; commenting it out solved that problem for me, so you can give it a try if<br>
&gt; you want.<br>
&gt; <br>
&gt; On Thu, Sep 22, 2022, 07:37 Federico Cattorini &lt;<a href="mailto:f.cattorini@campus.unimib.it" target="_blank">f.cattorini@campus.unimib.it</a>&gt;<br>
&gt; wrote:<br>
&gt; <br>
&gt; &gt; Hello Erik,<br>
&gt; &gt;<br>
&gt; &gt;    Thanks for your reply.<br>
&gt; &gt;<br>
&gt; &gt; I followed your suggestions and found two strings that may be indicative<br>
&gt; &gt; of what&#39;s going on. In the standard outputs &#39;CCTK_Proc14.out&#39; and<br>
&gt; &gt; &#39;CCTK_Proc15.out&#39; the last lines read<br>
&gt; &gt;<br>
&gt; &gt; INFO (IllinoisGRMHD): Font fix failed!<br>
&gt; &gt; INFO (IllinoisGRMHD): i,j,k = 67 63 16, stats.failure_checker = 0 x,y,z =<br>
&gt; &gt; 3.392857e+00 8.892857e+00 2.392857e+00 , index=111739 st_i = -1.002115e+08<br>
&gt; &gt; 2.298583e+08 -1.221746e+08, rhostar = 1.573103e+02, Bi = -1.064528e+03<br>
&gt; &gt; 1.120144e+03 2.972675e+03, gij = 6.643816e+00 5.521615e-01 4.380688e-01<br>
&gt; &gt; 7.244355e+00 -1.685406e-03 6.830374e+00, Psi6 = 1.803534e+01<br>
&gt; &gt;<br>
&gt; &gt; I assume this means that there are issues in the con2prim of IGM. That<br>
&gt; &gt; INFO is printed by harm_primitives_lowlevel.C:<br>
&gt; &gt;<br>
&gt; &gt;     // Use the new Font fix subroutine  <br>
&gt; &gt;&gt;     int font_fix_applied=0;<br>
&gt; &gt;&gt;     if(check!=0) {<br>
&gt; &gt;&gt;       font_fix_applied=1;<br>
&gt; &gt;&gt;       CCTK_REAL u_xl=1e100, u_yl=1e100, u_zl=1e100; // Set to insane<br>
&gt; &gt;&gt; values to ensure they are overwritten.<br>
&gt; &gt;&gt;       if (gamma_equals2==1) {<br>
&gt; &gt;&gt;         check =<br>
&gt; &gt;&gt; font_fix_gamma_equals2(u_xl,u_yl,u_zl,CONSERVS,PRIMS,METRIC_PHYS,METRIC_LAP_PSI4,eos);<br>
&gt; &gt;&gt;       } else {<br>
&gt; &gt;&gt; check =<br>
&gt; &gt;&gt; font_fix_general_gamma(u_xl,u_yl,u_zl,CONSERVS,PRIMS,METRIC_PHYS,METRIC_LAP_PSI4,eos);<br>
&gt; &gt;&gt;       }<br>
&gt; &gt;&gt;       //Translate to HARM primitive now:<br>
&gt; &gt;&gt;       prim[UTCON1] = METRIC_PHYS[GUPXX]*u_xl + METRIC_PHYS[GUPXY]*u_yl +<br>
&gt; &gt;&gt; METRIC_PHYS[GUPXZ]*u_zl;<br>
&gt; &gt;&gt;       prim[UTCON2] = METRIC_PHYS[GUPXY]*u_xl + METRIC_PHYS[GUPYY]*u_yl +<br>
&gt; &gt;&gt; METRIC_PHYS[GUPYZ]*u_zl;<br>
&gt; &gt;&gt;       prim[UTCON3] = METRIC_PHYS[GUPXZ]*u_xl + METRIC_PHYS[GUPYZ]*u_yl +<br>
&gt; &gt;&gt; METRIC_PHYS[GUPZZ]*u_zl;<br>
&gt; &gt;&gt;       if (check==1) {<br>
&gt; &gt;&gt;         CCTK_VInfo(CCTK_THORNSTRING,&quot;Font fix failed!&quot;);<br>
&gt; &gt;&gt;         CCTK_VInfo(CCTK_THORNSTRING,&quot;i,j,k = %d %d %d,<br>
&gt; &gt;&gt; stats.failure_checker = %d x,y,z = %e %e %e , index=%d st_i = %e %e %e,<br>
&gt; &gt;&gt; rhostar = %e, Bi = %e %e %e, gij = %e %e %e %e %e %e, Psi6 =<br>
&gt; &gt;&gt; %e&quot;,i,j,k,stats.failure_checker,X[index],Y[index],Z[index],index,mhd_st_x_orig,mhd_st_y_orig,mhd_st_z_orig,rho_star_orig,PRIMS[BX_CENTER],PRIMS[BY_CENTER],PRIMS[BZ_CENTER],METRIC_PHYS[GXX],METRIC_PHYS[GXY],METRIC_PHYS[GXZ],METRIC_PHYS[GYY],METRIC_PHYS[GYZ],METRIC_PHYS[GZZ],METRIC_LAP_PSI4[PSI6]);<br>
&gt; &gt;&gt;         exit(1);  // Let&#39;s exit instead of printing potentially GBs of<br>
&gt; &gt;&gt; log files. Uncomment if you really want to deal with a mess.<br>
&gt; &gt;&gt;       }<br>
&gt; &gt;&gt;     }<br>
&gt; &gt;&gt;     stats.failure_checker+=font_fix_applied*10000;<br>
&gt; &gt;&gt;     stats.font_fixed=font_fix_applied;<br>
&gt; &gt;&gt;  <br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; Can I do anything that may help pinpoint the cause of this error?<br>
&gt; &gt;<br>
&gt; &gt; Thanks in advance,<br>
&gt; &gt;<br>
&gt; &gt; Federico<br>
&gt; &gt;<br>
&gt; &gt; Il giorno gio 15 set 2022 alle ore 15:30 Erik Schnetter &lt;  <br>
&gt; &gt; <a href="mailto:schnetter@gmail.com" target="_blank">schnetter@gmail.com</a>&gt; ha scritto:  <br>
&gt; &gt;  <br>
&gt; &gt;&gt; Federico<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; Thanks for including the output, that is helpful.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; There are parameters &quot;Carpet::verbose&quot; and &quot;Carpet::veryverbose&quot;. You<br>
&gt; &gt;&gt; can set them to &quot;yes&quot; and recover from a checkpoint. This gives more<br>
&gt; &gt;&gt; information about what the code is doing, and thus where it crashes.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; The output you attached is only from the first MPI process. Other<br>
&gt; &gt;&gt; processes&#39; output might contain a clue. You can add the command line<br>
&gt; &gt;&gt; option &quot;-roe&quot; to Cactus when you run the simulation. This will collect<br>
&gt; &gt;&gt; output from all processes.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; -erik<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; On Thu, Sep 15, 2022 at 9:20 AM Federico Cattorini<br>
&gt; &gt;&gt; &lt;<a href="mailto:f.cattorini@campus.unimib.it" target="_blank">f.cattorini@campus.unimib.it</a>&gt; wrote:  <br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; Hello everyone,<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; I am experiencing some issue in a number of GRMHD simulations of black  <br>
&gt; &gt;&gt; hole binaries employing IllinoisGRMHD.  <br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; As an example, I will write about an unequal-mass BHB configuration  <br>
&gt; &gt;&gt; (with q = 2) that I&#39;m running.  <br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; After approximately ten orbits, the run stops with no error codes or  <br>
&gt; &gt;&gt; any other message that could help me identify the issue. The last lines of<br>
&gt; &gt;&gt; the standard output are  <br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** Iter. # 353949, Lev: 9, Integrating to  <br>
&gt; &gt;&gt; time: 3.160260e+03 *****  <br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): C2P: Lev: 9 NumPts= 569160 | Fixes: Font= 393 VL=  <br>
&gt; &gt;&gt; 179 rho*= 2 | Failures: 0 InHoriz= 0 / 0 | Error: 7.124e-02, ErrDenom:<br>
&gt; &gt;&gt; 4.838e+13 | 4.51 iters/gridpt  <br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** Iter. # 353949, Lev: 9, Integrating to  <br>
&gt; &gt;&gt; time: 3.160269e+03 *****  <br>
&gt; &gt;&gt; &gt; Simfactory Done at date: gio 04 ago 2022 11:43:01 CEST<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; I tried restarting my simulation from the latest checkpoint, but the  <br>
&gt; &gt;&gt; same sudden stop occurred at the same timestep.  <br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; At first, I thought about some problem with IGM. The last INFO is  <br>
&gt; &gt;&gt; printed by IllinoisGRMHD_driver_evaluate_MHD_rhs.C, so I put some prints in<br>
&gt; &gt;&gt; it to identify the spot where the error occurs.  <br>
&gt; &gt;&gt; &gt; Unfortunately, I drew a blank, since the stop seems to occur just after  <br>
&gt; &gt;&gt; the end of IllinoisGRMHD_driver_evaluate_MHD_rhs:  <br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** line 52: entering  <br>
&gt; &gt;&gt; IllinoisGRMHD_driver_evaluate_MHD_rhs *****  <br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** Iter. # 353949, Lev: 10, Integrating to  <br>
&gt; &gt;&gt; time: 3.160251e+03 *****  <br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** line 100:  <br>
&gt; &gt;&gt; IllinoisGRMHD_driver_evaluate_MHD_rhs *****  <br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** line 204: just before  <br>
&gt; &gt;&gt; reconstruct_set_of_prims_PPM *****  <br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** DEBUG END of  <br>
&gt; &gt;&gt; IllinoisGRMHD_driver_evaluate_MHD_rhs *****  <br>
&gt; &gt;&gt; &gt; Simfactory Done at date: gio 04 ago 2022 19:44:55 CEST<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; I tried to restart the simulation and run it on pure MPI. It ran for a  <br>
&gt; &gt;&gt; few more iterations, then stopped as well:  <br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** line 52: entering  <br>
&gt; &gt;&gt; IllinoisGRMHD_driver_evaluate_MHD_rhs *****  <br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** Iter. # 353565, Lev: 10, Integrating to  <br>
&gt; &gt;&gt; time: 3.156831e+03 *****  <br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** line 100:  <br>
&gt; &gt;&gt; IllinoisGRMHD_driver_evaluate_MHD_rhs *****  <br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** line 204: just before  <br>
&gt; &gt;&gt; reconstruct_set_of_prims_PPM *****  <br>
&gt; &gt;&gt; &gt; INFO (IllinoisGRMHD): ***** DEBUG END of  <br>
&gt; &gt;&gt; IllinoisGRMHD_driver_evaluate_MHD_rhs *****  <br>
&gt; &gt;&gt; &gt; Simfactory Done at date: ven 05 ago 2022 19:00:13 CEST<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; The simulation setup is as follows:<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt;    Allocated:<br>
&gt; &gt;&gt; &gt;       Nodes:                      10<br>
&gt; &gt;&gt; &gt;       Cores per node:             48<br>
&gt; &gt;&gt; &gt;    SLURM setting<br>
&gt; &gt;&gt; &gt;       SLURM_NNODES :  10<br>
&gt; &gt;&gt; &gt;       SLURM_NPROCS :  20<br>
&gt; &gt;&gt; &gt;       SLURM_NTASKS :  20<br>
&gt; &gt;&gt; &gt;       SLURM_CPUS_ON_NODE  :  48<br>
&gt; &gt;&gt; &gt;       SLURM_CPUS_PER_TASK :  24<br>
&gt; &gt;&gt; &gt;       SLURM_TASKS_PER_NODE:  2(x10)<br>
&gt; &gt;&gt; &gt;    Running:<br>
&gt; &gt;&gt; &gt;       MPI processes:              20<br>
&gt; &gt;&gt; &gt;       OpenMP threads per process: 24<br>
&gt; &gt;&gt; &gt;       MPI processes per node:     2.0<br>
&gt; &gt;&gt; &gt;       OpenMP threads per core:    1.0<br>
&gt; &gt;&gt; &gt;       OpenMP threads per node:    48<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; while the pure-MPI setup is<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt;    Allocated:<br>
&gt; &gt;&gt; &gt;       Nodes:                      10<br>
&gt; &gt;&gt; &gt;       Cores per node:             48<br>
&gt; &gt;&gt; &gt;    SLURM setting<br>
&gt; &gt;&gt; &gt;       SLURM_NNODES :  10<br>
&gt; &gt;&gt; &gt;       SLURM_NPROCS :  480<br>
&gt; &gt;&gt; &gt;       SLURM_NTASKS :  480<br>
&gt; &gt;&gt; &gt;       SLURM_CPUS_ON_NODE  :  48<br>
&gt; &gt;&gt; &gt;       SLURM_CPUS_PER_TASK :  1<br>
&gt; &gt;&gt; &gt;       SLURM_TASKS_PER_NODE:  48(x10)<br>
&gt; &gt;&gt; &gt;    Running:<br>
&gt; &gt;&gt; &gt;       MPI processes:              480<br>
&gt; &gt;&gt; &gt;       OpenMP threads per process: 1<br>
&gt; &gt;&gt; &gt;       MPI processes per node:     48.0<br>
&gt; &gt;&gt; &gt;       OpenMP threads per core:    1.0<br>
&gt; &gt;&gt; &gt;       OpenMP threads per node:    48<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; I am using The Lorentz version of ET.<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; I&#39;ve had this issue for two binary BH simulations, both unequal-mass  <br>
&gt; &gt;&gt; with q = 2. My colleague Giacomo Fedrigo experienced the same problem<br>
&gt; &gt;&gt; running an equal-mass simulation.  <br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; I attach the q = 2 (s_UUmis_Q2) parameter file and the ET config-info  <br>
&gt; &gt;&gt; file. Also, I attach the st. error and output of my q = 2 run and of<br>
&gt; &gt;&gt; Giacomo&#39;s run (b1_UUmis_a12b_pol3_r56_gauss_9). The st. outputs were cut<br>
&gt; &gt;&gt; for readability reasons.  <br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; Can someone please help me with this?<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; Thanks in advance,<br>
&gt; &gt;&gt; &gt;<br>
&gt; &gt;&gt; &gt; Federico<br>
&gt; &gt;&gt; &gt; _______________________________________________<br>
&gt; &gt;&gt; &gt; Users mailing list<br>
&gt; &gt;&gt; &gt; <a href="mailto:Users@einsteintoolkit.org" target="_blank">Users@einsteintoolkit.org</a><br>
&gt; &gt;&gt; &gt; <a href="https://urldefense.com/v3/__http://lists.einsteintoolkit.org/mailman/listinfo/users__;!!DZ3fjg!7hy50UiCZQBt5fMM3BkYAFxBF_QtxwDruO1lrCkhZyGvaCqcGuHp9Eg9PprMhD3OmG4NmwDCZZRZhS79OILzwtdeSg$" rel="noreferrer" target="_blank">https://urldefense.com/v3/__http://lists.einsteintoolkit.org/mailman/listinfo/users__;!!DZ3fjg!7hy50UiCZQBt5fMM3BkYAFxBF_QtxwDruO1lrCkhZyGvaCqcGuHp9Eg9PprMhD3OmG4NmwDCZZRZhS79OILzwtdeSg$</a>    <br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; --<br>
&gt; &gt;&gt; Erik Schnetter &lt;<a href="mailto:schnetter@gmail.com" target="_blank">schnetter@gmail.com</a>&gt;<br>
&gt; &gt;&gt; <a href="https://urldefense.com/v3/__http://www.perimeterinstitute.ca/personal/eschnetter/__;!!DZ3fjg!7hy50UiCZQBt5fMM3BkYAFxBF_QtxwDruO1lrCkhZyGvaCqcGuHp9Eg9PprMhD3OmG4NmwDCZZRZhS79OIJtSmdJRA$" rel="noreferrer" target="_blank">https://urldefense.com/v3/__http://www.perimeterinstitute.ca/personal/eschnetter/__;!!DZ3fjg!7hy50UiCZQBt5fMM3BkYAFxBF_QtxwDruO1lrCkhZyGvaCqcGuHp9Eg9PprMhD3OmG4NmwDCZZRZhS79OIJtSmdJRA$</a>  <br>
&gt; &gt;&gt;  <br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; Users mailing list<br>
&gt; &gt; <a href="mailto:Users@einsteintoolkit.org" target="_blank">Users@einsteintoolkit.org</a><br>
&gt; &gt; <a href="https://urldefense.com/v3/__http://lists.einsteintoolkit.org/mailman/listinfo/users__;!!DZ3fjg!7hy50UiCZQBt5fMM3BkYAFxBF_QtxwDruO1lrCkhZyGvaCqcGuHp9Eg9PprMhD3OmG4NmwDCZZRZhS79OILzwtdeSg$" rel="noreferrer" target="_blank">https://urldefense.com/v3/__http://lists.einsteintoolkit.org/mailman/listinfo/users__;!!DZ3fjg!7hy50UiCZQBt5fMM3BkYAFxBF_QtxwDruO1lrCkhZyGvaCqcGuHp9Eg9PprMhD3OmG4NmwDCZZRZhS79OILzwtdeSg$</a>  <br>
&gt; &gt;  <br>
<br>
<br>
<br>
-- <br>
My email is as private as my paper mail. I therefore support encrypting<br>
and signing email messages. Get my PGP key from <a href="http://keys.gnupg.net" rel="noreferrer" target="_blank">http://keys.gnupg.net</a>.<br>
_______________________________________________<br>
Users mailing list<br>
<a href="mailto:Users@einsteintoolkit.org" target="_blank">Users@einsteintoolkit.org</a><br>
<a href="http://lists.einsteintoolkit.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.einsteintoolkit.org/mailman/listinfo/users</a><br>
</blockquote></div>