这是一个非常开放的问题,因为这是我第一次创build一个集群。 我只是想知道会有什么types的安全问题,以及如何防止这些问题。 背景信息 在内部群集上使用SGE(当前正在安装并确定哪个时间表最好)。 将允许PVM / MPI程序和Perl程序一样运行,也可能只是分叉,因为它们是令人尴尬的并行执行的(如果我没有记错的话,SGE允许fork,但是在我编译之前,更多的信息。有人请只对此发表评论)。 将有一个连接到集群的外部节点,此节点将提交从Internet / Server接收的作业。 所有的用户都必须通过互联网向服务器提交他们的请求(试图想办法避免他们在本地连接时绕过)。 这个项目的目标: 最终允许任何人通过互联网提交作业运行,然后在程序完成时通知。 此外,允许他们查看数据,甚至可以下载数据以供离线查看。 不太可能,但可能:当我们的程序不足时,甚至可能允许用户上传程序来微调他们的数据。
有没有一种方法可以在SGE指定ppn (或等价物)? 我不想在一个节点使用所有的CPU,所以我将能够有更多的内存每个核心。 (在PBS中,例如-l nodes=16:ppn=2 ) 谢谢。
我有例如20个计算机集群和4个用户。 我想为用户提供5个主机(或N个插槽),但如果不是整个集群用户,则可以在其他主机/插槽上运行用户作业。 有可能在sge6.2u2?
曾经有一次,Sun有免费的SGE。 棘手的安装和configuration,但function和免费。 现在我们得到了: Ubuntu上的开源软件包不太适合开箱即用(详细请求)。 它们背后的实际来源,具有依赖于c-shell和其他过时的构build过程,可以从两个相互竞争的位置获得。 来自Oracle的商业包装 来自Univa的商业包装 我真正希望的是具有这个简单的安装和维护的基本function。 嘿,我会采取一个前端hadoop只是排队和分发简单的shell脚本定义的工作。
我正在尝试使用virtual_free来限制运行群集中每个网格节点的大内存作业的数量。 这似乎按预期工作。 在我修改代码以提交内存实例的作业后,qstat -f -q $ queueName不再显示等待插槽的作业列表。 作业提交了一个特定的队列(-q $ queueName)。 我猜这是由于SGE队列select的魔力而发生的。 有办法让我的工作像以前一样出现吗? 谢谢! UPDATE 我在用着: qstat -f -u * -q $ queueName 查看队列。 如果我放弃队列参数,我可以看到工作。 如果我检查一个特定的工作,我可以看到它具有正确的hard_queue_list值集。 我也使用Sun Grid Engine 6.1u4
使用sge与称为“gpu.q”的资源复合体允许gpu设备(这些都是nvidia设备)的资源pipe理。 但是,在系统中有多个gpu设备(独占模式),如果两个作业分配在同一个节点上,则用户无法在正确的gpu上不透明地创build上下文。 有没有人遇到这个问题? 我正在想办法pipe理特定的GPU资源,并映射主机和设备ID。 就像是 hostA -> gpu0:in_use hostA -> gpu1:free hostB -> gpu0:free hostB -> gpu1:in_use 等等…然后根据资源请求,通过CUDA_VISIBLE_DEVICESvariables显示在每个主机上分配的gpu资源。 这似乎是一个相当普遍的问题 – 到目前为止,一些人已经通过计算集群中gpu的普及来解决这个问题。
有没有人知道设置要求使用特定的群集节点。 我有一个服务器128G的RAM,我想坐下来,直到用户明确要求类似-l h_vmem=100G Grid Engine是否能够像这样?
我在服务器上使用Sun GridEngine(Rocks Cluster)来运行远程作业。 当我尝试用qdel删除作业时,它经常按预期工作,但是qdel会删除几乎所有find的东西。 例如,在今天的某个时候,我有77个正在运行的工作: [znorg @ server MD] $ qstat 作业ID先前的名称用户状态提交/开始在队列槽ja-task-ID ————————————————– ————————————————– ————- 7711 0.55500 shg_oAll_c znorg dr 10/30/2012 13:49:07 [email protected] 1 7712 0.55500 shg_oCAB_c znorg dr 10/30/2012 13:49:07 [email protected] 1 7873 0.55500 a1h3l_prdA znorg r 11/08/2012 13:37:22 [email protected] 1 7874 0.55500 a1t8k_obsA znorg r 11/08/2012 13:37:22 [email protected] 1 7875 0.55500 a1t8k_prdA znorg […]
我在CentOS 5上。 [root@newjanux spooldb]# uname -a Linux newjanux 2.6.18-164.el5 #1 SMP Thu Sep 3 03:28:30 EDT 2009 x86_64 x86_64 x86_64 GNU/Linux 和SGE 6.2u2 我已经有了原始数据库的副本,以防万一… berkeley数据库不会开始腐败。 这个工具可以解决这个问题,但是却失败了(用同样的方法): [root@newjanux spooldb]# /opt/sge/utilbin/lx24-amd64/db_recover -v -c Finding last valid log LSN: file: 2136 offset 2719640 db_recover: Log file corrupt at LSN: [399][10485626] db_recover: PANIC: Invalid argument db_recover: DB_ENV->open: DB_RUNRECOVERY: Fatal […]
我的OGEconfiguration有问题。 节点的load_avg没有被设置(保持在-NA-)。 由于这个原因,并且由于队列上的np_load_avg阈值,没有任何作业正在运行。 [ce@node1 ce]$ qhost -F -lh=node2 HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS ——————————————————————————- node2 – – – – – – – 默认/ spool / localhost /消息和qmaster /消息中都不会popup错误消息。 队列调度消息是“复杂属性np_load_avg没有值”。 我看不出有什么迹象表明可能会出错,执行节点上的以下工作: 的gethostname gethostbyname主 qstat -f loadcheck