Destio небольшой блог

Ошибки и проблемы с TORQUE

После внезапного ребута, TORQUE не захотел работать и даже запускать pbs_server, ругаясь следующим образом:
PBS_Server: LOG_ERROR::No such file or directory (2) in job_log_open, 
could not open /var/spool/torque/job_logs//20120511
Could not open job_logs

PBS_Server: LOG_ERROR::PBS_Server, pbsd_init failed

Этой директории отродясь там не было, ну ладно, хозяин-барин. Создаем пустую директорию с пустым файлом. TORQUE доволен.


При запуске pbs_server может появиться и такое:

PBS_Server:
LOG_ERROR::Unknown node (15064) in process_host_name_part, host quad not found PBS_Server:
LOG_ERROR::process_host_name_part, host quad not found

Очевидно эта нода — quad, сдохла. Выкинем ее из $torque_root/server_priv/nodes.


Подобное означает что демон уже запущен.

pbs_server: network: Address already in use PBS_Server: 
LOG_ERROR::PBS_Server, init_network failed dis

Можно посмотреть что именно запущено:

ps ax | grep pbs

При использовании стандартного планировщика может возникнуть такая штука, что все задания в очереди будут находиться в режиме ожидания или просто не запускаться, хотя ресурсов вполне достаточно. Эта хрень происходит из-за того что TORQUE пытается помочь тем заданиям, которые по ее мнению торчат в очереди слишком долго. Помощь какая-то дерьмовая, поэтому все просто висит. Чтобы починить нужно открыть конфиг планировщика /var/spool/torque/sched_priv/sched_config и поменять значение параметра с:
help_starving_jobs true ALL

на

help_starving_jobs false ALL

После этого нужно перезапустить планировщик и все должно бы работать.

Ярлыки:


Ближайшие сообщения:

Похожие сообщения:

Комментарии к этой записи отключены.