<div dir="ltr">I see, thanks, Roland!<div><br></div><div>As a matter of fact, I had that option already activated, otherwise it would just give me a memory error.</div><div><br></div><div>I'm thinking of maybe restarting the simulation with openMP activated to speed up the process, do you think it will help? Otherwise, I will try your hack.</div><div><br></div><div>Cheers.</div><div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><font color="#999999">Luciano</font></div></div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Apr 15, 2024 at 10:19 AM Roland Haas <<a href="mailto:rhaas@illinois.edu">rhaas@illinois.edu</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hello Luciano ,<br>
<br>
> I'm trying to restart a simulation with a different number of processors<br>
> than the original run. Is there something in particular I need to do to<br>
> make it work? When I do, it gets stuck for hours reading the checkpoints.<br>
> The checkpoint is distributed in a number of files corresponding to the<br>
> original number of procs I used, should I recombine them in a particular<br>
> way?<br>
<br>
The issue is that when changing the number of MPI ranks the data needs<br>
to be reorganized and right now this means that each MPI rank will open<br>
every single file to look for data, which can overwhelm the file system.<br>
<br>
A quick workaround is often to set:<br>
<br>
CarpetIOHDF5::open_one_input_file_at_a_time = "yes"<br>
<br>
which reduces IO contention.<br>
<br>
If that is still too slow (this has happened only with many hundreds of<br>
MPI ranks though), then you can try the hacked version of CarpetIOHDF5<br>
in the branch rhaas/map which contains an helper script that you can<br>
run offline to parse all information in the checkpoint files into a<br>
"map" file. At checkpoint recovery time the MPI ranks then read in the<br>
map file which tells them exactly where they need to look for their<br>
data, this significantly reduces IO issues. It is is not user friendly<br>
though and was an emergency hack and will most likely require some<br>
trial and error to get it right, so setting the parameter above would<br>
be my first attempt.<br>
<br>
Yours,<br>
Roland<br>
<br>
-- <br>
My email is as private as my paper mail. I therefore support encrypting<br>
and signing email messages. Get my PGP key from <a href="http://pgp.mit.edu" rel="noreferrer" target="_blank">http://pgp.mit.edu</a> .<br>
</blockquote></div>