Como rodar programas no cluster Complex

O cluster consiste nas oito máquinas complex{000-111}, dual core e de 64 bits. O cluster agora usa o Berkeley Lab Checkpoint/Restart (BLCR). A idéia é a seguinte: você submete o programa, faz checkpoint periódicos (de duas em duas horas, por exemplo) e se acaso o programa for abortado, você pode resubmetê-lo a partir do último checkpoint, na mesma máquina ou em outra com configuração semelhante (que é o caso do cluster). Existe uma documentação farta no BLCR User's Guide, mas para usar bastam os seguintes passos:

  • submeta o programa, precedido do comando cr_run

cr_run nome_do_programa argumentos

  • para um checkpoint, faça

cr_checkpoint PID
onde PID é o número do processo do programa (obtenha com o comando ps ux).

  • para suspender o programa, faça

cr_checkpoint --term PID
O checkpoint ou a suspensão do programa criam um arquivo context.PID.

  • Para restart o processo, rode

cr_restart context.PID

  • Para automatizar o processo, coloque o checkpoint no seu crontab. Rode o programa crontab -e (man 5 crontab, para maiores explicações) e adicione a seguinte linha

* */2 * * * checkpoint PID
Isto vai criar um checkpoint nas horas pares.

Discussão

Thadeu PennaThadeu Penna, 2008/10/17 11:06

Sim, a automatização deve ser feita depois do processo iniciado. Depois de inserido no crontab não é necessário rodar o checkpoint. O exemplo que eu dei, salva o checkpoint nas horas pares (e não de duas em duas horas a partir do momento que começou a rodar).

Orahcio Felício de SousaOrahcio Felício de Sousa, 2008/10/17 10:58

A automatização deve ser feita antes de iniciar o processo com checkpoint? Após inserir a linha no contrab devo chamar o checkpoint novamente?

Enter your comment
OWCMW
 
tutoriais/rodar-programas.txt · Última modificação: 2007/12/20 10:26 (edição externa)
CC Attribution-Share Alike 3.0 Unported
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0