O cluster consiste nas oito máquinas complex{000-111}, dual core e de 64 bits. O cluster agora usa o Berkeley Lab Checkpoint/Restart (BLCR). A idéia é a seguinte: você submete o programa, faz checkpoint periódicos (de duas em duas horas, por exemplo) e se acaso o programa for abortado, você pode resubmetê-lo a partir do último checkpoint, na mesma máquina ou em outra com configuração semelhante (que é o caso do cluster). Existe uma documentação farta no BLCR User's Guide, mas para usar bastam os seguintes passos:
cr_run nome_do_programa argumentos
cr_checkpoint PIDonde PID é o número do processo do programa (obtenha com o comando
ps ux
).
cr_checkpoint --term PIDO checkpoint ou a suspensão do programa criam um arquivo
context.PID
.
cr_restart context.PID
crontab -e
(man 5 crontab, para maiores explicações) e adicione a seguinte linha
* */2 * * * checkpoint PIDIsto vai criar um checkpoint nas horas pares.