我们将操作系统从Debian 5升级到了Debian 6,从而升级了Torque。
现在qstat和qsub工作大约1分钟,再过一分钟就失败了。
我有扭矩2.5.5(但我试过2.4.8,它有相同的问题)。
当我们运行qstat的一半时间和一半的时间,我们得到:
pbs_iff: cannot read reply from pbs_server No Permission. qstat: cannot connect to server torque-server (errno=15007) Unauthorized Request
在妈妈系统日志上:
pbs_mom: LOG_ERROR::Operation now in progress (115) in TMomFinalizeChild, cannot open interactive qsub socket to host girkelab-3.ucr.edu:51056 - 'cannot connect to port 777 in client_to_svr - errno:115 Operation now in progress' - check routing tables/multi-homed host issues
在服务器上:
/opt/torque-2.5.5/bin/qmgr -c 'print server' # # Create queues and set their attributes. # # # Create and define queue batch # create queue batch set queue batch queue_type = Execution set queue batch resources_default.nodes = 1 set queue batch enabled = True set queue batch started = True # # Set server attributes. # set server scheduling = True set server acl_hosts = torque-server set server acl_hosts += torque-server+biocluster+parrot+owl set server acl_hosts += owl-33+biocluster-33 set server acl_hosts += girkelab-3+girkelab-4 set server operators = root@torque-server set server default_queue = batch set server log_events = 511 set server mail_from = adm set server query_other_jobs = True set server scheduler_iteration = 600 set server node_check_rate = 150 set server tcp_timeout = 6 set server log_level = 0 set server submit_hosts = biocluster+parrot+owl set server submit_hosts += girkelab-3+girkelab-4 set server submit_hosts += owl-33+biocluster-33 set server allow_node_submit = True set server next_job_number = 206082
为什么当它工作一半的时候会出现权限错误?
我能做些什么来诊断问题?
结论:由于节点死了,服务器被卡住了。
在我们想出来之前,有很多事情被尝试过了:
没有什么,是错的,不pipe我试过什么样的短暂的“没有权限”的错误都不会消失。
我有一个节点前一天晚上死了。 之前我们遇到了一些问题,比如Torque堵塞而不是检测到死点。 所以,我从/var/spool/torque/server_priv/nodes (标准的Torqueconfiguration位置)中删除了节点。 重新启动扭矩,但没有帮助。
在我的老板的晚些时候,我们find了解决办法。 /var/spool/torque/server_priv/jobs/中有一堆旧文件(“正在运行的作业”),这些文件属于已删除的死节点。 删除。 重新开始。 解决了。
“没有权限”?
那么,你不是唯一的: http : //comments.gmane.org/gmane.comp.clustering.torque.user/8401