<div dir="auto"><div><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Hello Erik,<br></div><div dir="ltr"><br>   Thanks for your reply.<br>   <br>I followed your suggestions and found two strings that may be indicative of what&#39;s going on. In the standard outputs &#39;CCTK_Proc14.out&#39; and &#39;CCTK_Proc15.out&#39; the last lines read<br><br>INFO (IllinoisGRMHD): Font fix failed!<br>INFO (IllinoisGRMHD): i,j,k = 67 63 16, stats.failure_checker = 0 x,y,z = 3.392857e+00 8.892857e+00 2.392857e+00 , index=111739 st_i = -1.002115e+08 2.298583e+08 -1.221746e+08, rhostar = 1.573103e+02, Bi = -1.064528e+03 1.120144e+03 2.972675e+03, gij = 6.643816e+00 5.521615e-01 4.380688e-01 7.244355e+00 -1.685406e-03 6.830374e+00, Psi6 = 1.803534e+01<br><br>I assume this means that there are issues in the con2prim of IGM. That INFO is printed by harm_primitives_lowlevel.C:<br><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">    // Use the new Font fix subroutine<br>    int font_fix_applied=0;<br>    if(check!=0) {<br>      font_fix_applied=1;<br>      CCTK_REAL u_xl=1e100, u_yl=1e100, u_zl=1e100; // Set to insane values to ensure they are overwritten.<br>      if (gamma_equals2==1) {<br>        check = font_fix_gamma_equals2(u_xl,u_yl,u_zl,CONSERVS,PRIMS,METRIC_PHYS,METRIC_LAP_PSI4,eos);<br>      } else {<br>      check = font_fix_general_gamma(u_xl,u_yl,u_zl,CONSERVS,PRIMS,METRIC_PHYS,METRIC_LAP_PSI4,eos);<br>      }<br>      //Translate to HARM primitive now:<br>      prim[UTCON1] = METRIC_PHYS[GUPXX]*u_xl + METRIC_PHYS[GUPXY]*u_yl + METRIC_PHYS[GUPXZ]*u_zl;<br>      prim[UTCON2] = METRIC_PHYS[GUPXY]*u_xl + METRIC_PHYS[GUPYY]*u_yl + METRIC_PHYS[GUPYZ]*u_zl;<br>      prim[UTCON3] = METRIC_PHYS[GUPXZ]*u_xl + METRIC_PHYS[GUPYZ]*u_yl + METRIC_PHYS[GUPZZ]*u_zl;<br>      if (check==1) {<br>        CCTK_VInfo(CCTK_THORNSTRING,&quot;Font fix failed!&quot;);<br>        CCTK_VInfo(CCTK_THORNSTRING,&quot;i,j,k = %d %d %d, stats.failure_checker = %d x,y,z = %e %e %e , index=%d st_i = %e %e %e, rhostar = %e, Bi = %e %e %e, gij = %e %e %e %e %e %e, Psi6 = %e&quot;,i,j,k,stats.failure_checker,X[index],Y[index],Z[index],index,mhd_st_x_orig,mhd_st_y_orig,mhd_st_z_orig,rho_star_orig,PRIMS[BX_CENTER],PRIMS[BY_CENTER],PRIMS[BZ_CENTER],METRIC_PHYS[GXX],METRIC_PHYS[GXY],METRIC_PHYS[GXZ],METRIC_PHYS[GYY],METRIC_PHYS[GYZ],METRIC_PHYS[GZZ],METRIC_LAP_PSI4[PSI6]);<br>        exit(1);  // Let&#39;s exit instead of printing potentially GBs of log files. Uncomment if you really want to deal with a mess.<br>      }<br>    }<br>    stats.failure_checker+=font_fix_applied*10000;<br>    stats.font_fixed=font_fix_applied;<br></blockquote>    <br><br>Can I do anything that may help pinpoint the cause of this error?<br><br>Thanks in advance,<br><br>Federico</div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">Il giorno gio 15 set 2022 alle ore 15:30 Erik Schnetter &lt;<a href="mailto:schnetter@gmail.com" target="_blank" rel="noreferrer">schnetter@gmail.com</a>&gt; ha scritto:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Federico<br>
<br>
Thanks for including the output, that is helpful.<br>
<br>
There are parameters &quot;Carpet::verbose&quot; and &quot;Carpet::veryverbose&quot;. You<br>
can set them to &quot;yes&quot; and recover from a checkpoint. This gives more<br>
information about what the code is doing, and thus where it crashes.<br>
<br>
The output you attached is only from the first MPI process. Other<br>
processes&#39; output might contain a clue. You can add the command line<br>
option &quot;-roe&quot; to Cactus when you run the simulation. This will collect<br>
output from all processes.<br>
<br>
-erik<br>
<br>
On Thu, Sep 15, 2022 at 9:20 AM Federico Cattorini<br>
&lt;<a href="mailto:f.cattorini@campus.unimib.it" target="_blank" rel="noreferrer">f.cattorini@campus.unimib.it</a>&gt; wrote:<br>
&gt;<br>
&gt; Hello everyone,<br>
&gt;<br>
&gt; I am experiencing some issue in a number of GRMHD simulations of black hole binaries employing IllinoisGRMHD.<br>
&gt;<br>
&gt; As an example, I will write about an unequal-mass BHB configuration (with q = 2) that I&#39;m running.<br>
&gt;<br>
&gt; After approximately ten orbits, the run stops with no error codes or any other message that could help me identify the issue. The last lines of the standard output are<br>
&gt;<br>
&gt; INFO (IllinoisGRMHD): ***** Iter. # 353949, Lev: 9, Integrating to time: 3.160260e+03 *****<br>
&gt; INFO (IllinoisGRMHD): C2P: Lev: 9 NumPts= 569160 | Fixes: Font= 393 VL= 179 rho*= 2 | Failures: 0 InHoriz= 0 / 0 | Error: 7.124e-02, ErrDenom: 4.838e+13 | 4.51 iters/gridpt<br>
&gt; INFO (IllinoisGRMHD): ***** Iter. # 353949, Lev: 9, Integrating to time: 3.160269e+03 *****<br>
&gt; Simfactory Done at date: gio 04 ago 2022 11:43:01 CEST<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; I tried restarting my simulation from the latest checkpoint, but the same sudden stop occurred at the same timestep.<br>
&gt;<br>
&gt; At first, I thought about some problem with IGM. The last INFO is printed by IllinoisGRMHD_driver_evaluate_MHD_rhs.C, so I put some prints in it to identify the spot where the error occurs.<br>
&gt; Unfortunately, I drew a blank, since the stop seems to occur just after the end of IllinoisGRMHD_driver_evaluate_MHD_rhs:<br>
&gt;<br>
&gt; INFO (IllinoisGRMHD): ***** line 52: entering IllinoisGRMHD_driver_evaluate_MHD_rhs *****<br>
&gt; INFO (IllinoisGRMHD): ***** Iter. # 353949, Lev: 10, Integrating to time: 3.160251e+03 *****<br>
&gt; INFO (IllinoisGRMHD): ***** line 100: IllinoisGRMHD_driver_evaluate_MHD_rhs *****<br>
&gt; INFO (IllinoisGRMHD): ***** line 204: just before reconstruct_set_of_prims_PPM *****<br>
&gt; INFO (IllinoisGRMHD): ***** DEBUG END of  IllinoisGRMHD_driver_evaluate_MHD_rhs *****<br>
&gt; Simfactory Done at date: gio 04 ago 2022 19:44:55 CEST<br>
&gt;<br>
&gt;<br>
&gt; I tried to restart the simulation and run it on pure MPI. It ran for a few more iterations, then stopped as well:<br>
&gt;<br>
&gt; INFO (IllinoisGRMHD): ***** line 52: entering IllinoisGRMHD_driver_evaluate_MHD_rhs *****<br>
&gt; INFO (IllinoisGRMHD): ***** Iter. # 353565, Lev: 10, Integrating to time: 3.156831e+03 *****<br>
&gt; INFO (IllinoisGRMHD): ***** line 100: IllinoisGRMHD_driver_evaluate_MHD_rhs *****<br>
&gt; INFO (IllinoisGRMHD): ***** line 204: just before reconstruct_set_of_prims_PPM *****<br>
&gt; INFO (IllinoisGRMHD): ***** DEBUG END of  IllinoisGRMHD_driver_evaluate_MHD_rhs *****<br>
&gt; Simfactory Done at date: ven 05 ago 2022 19:00:13 CEST<br>
&gt;<br>
&gt;<br>
&gt; The simulation setup is as follows:<br>
&gt;<br>
&gt;    Allocated:<br>
&gt;       Nodes:                      10<br>
&gt;       Cores per node:             48<br>
&gt;    SLURM setting<br>
&gt;       SLURM_NNODES :  10<br>
&gt;       SLURM_NPROCS :  20<br>
&gt;       SLURM_NTASKS :  20<br>
&gt;       SLURM_CPUS_ON_NODE  :  48<br>
&gt;       SLURM_CPUS_PER_TASK :  24<br>
&gt;       SLURM_TASKS_PER_NODE:  2(x10)<br>
&gt;    Running:<br>
&gt;       MPI processes:              20<br>
&gt;       OpenMP threads per process: 24<br>
&gt;       MPI processes per node:     2.0<br>
&gt;       OpenMP threads per core:    1.0<br>
&gt;       OpenMP threads per node:    48<br>
&gt;<br>
&gt;<br>
&gt; while the pure-MPI setup is<br>
&gt;<br>
&gt;    Allocated:<br>
&gt;       Nodes:                      10<br>
&gt;       Cores per node:             48<br>
&gt;    SLURM setting<br>
&gt;       SLURM_NNODES :  10<br>
&gt;       SLURM_NPROCS :  480<br>
&gt;       SLURM_NTASKS :  480<br>
&gt;       SLURM_CPUS_ON_NODE  :  48<br>
&gt;       SLURM_CPUS_PER_TASK :  1<br>
&gt;       SLURM_TASKS_PER_NODE:  48(x10)<br>
&gt;    Running:<br>
&gt;       MPI processes:              480<br>
&gt;       OpenMP threads per process: 1<br>
&gt;       MPI processes per node:     48.0<br>
&gt;       OpenMP threads per core:    1.0<br>
&gt;       OpenMP threads per node:    48<br>
&gt;<br>
&gt;<br>
&gt; I am using The Lorentz version of ET.<br>
&gt;<br>
&gt; I&#39;ve had this issue for two binary BH simulations, both unequal-mass with q = 2. My colleague Giacomo Fedrigo experienced the same problem running an equal-mass simulation.<br>
&gt;<br>
&gt; I attach the q = 2 (s_UUmis_Q2) parameter file and the ET config-info file. Also, I attach the st. error and output of my q = 2 run and of Giacomo&#39;s run (b1_UUmis_a12b_pol3_r56_gauss_9). The st. outputs were cut for readability reasons.<br>
&gt;<br>
&gt; Can someone please help me with this?<br>
&gt;<br>
&gt; Thanks in advance,<br>
&gt;<br>
&gt; Federico<br>
&gt; _______________________________________________<br>
&gt; Users mailing list<br>
&gt; <a href="mailto:Users@einsteintoolkit.org" target="_blank" rel="noreferrer">Users@einsteintoolkit.org</a><br>
&gt; <a href="http://lists.einsteintoolkit.org/mailman/listinfo/users" rel="noreferrer noreferrer" target="_blank">http://lists.einsteintoolkit.org/mailman/listinfo/users</a><br>
<br>
<br>
<br>
-- <br>
Erik Schnetter &lt;<a href="mailto:schnetter@gmail.com" target="_blank" rel="noreferrer">schnetter@gmail.com</a>&gt;<br>
<a href="http://www.perimeterinstitute.ca/personal/eschnetter/" rel="noreferrer noreferrer" target="_blank">http://www.perimeterinstitute.ca/personal/eschnetter/</a><br>
</blockquote></div>
</div></div></div>