gridengine 服务器 Gind.cn

高性能集群的安全性问题

这是一个非常开放的问题，因为这是我第一次创build一个集群。我只是想知道会有什么types的安全问题，以及如何防止这些问题。背景信息在内部群集上使用SGE（当前正在安装并确定哪个时间表最好）。将允许PVM / MPI程序和Perl程序一样运行，也可能只是分叉，因为它们是令人尴尬的并行执行的（如果我没有记错的话，SGE允许fork，但是在我编译之前，更多的信息。有人请只对此发表评论）。将有一个连接到集群的外部节点，此节点将提交从Internet / Server接收的作业。所有的用户都必须通过互联网向服务器提交他们的请求（试图想办法避免他们在本地连接时绕过）。这个项目的目标：最终允许任何人通过互联网提交作业运行，然后在程序完成时通知。此外，允许他们查看数据，甚至可以下载数据以供离线查看。不太可能，但可能：当我们的程序不足时，甚至可能允许用户上传程序来微调他们的数据。

如何在SGE排队系统中指定ppn（在PBS上）的等价物？

有没有一种方法可以在SGE指定ppn （或等价物）？我不想在一个节点使用所有的CPU，所以我将能够有更多的内存每个核心。（在PBS中，例如-l nodes=16:ppn=2 ）谢谢。

在sge中dynamic分配主机

我有例如20个计算机集群和4个用户。我想为用户提供5个主机（或N个插槽），但如果不是整个集群用户，则可以在其他主机/插槽上运行用户作业。有可能在sge6.2u2？

SGE的替代品

曾经有一次，Sun有免费的SGE。棘手的安装和configuration，但function和免费。现在我们得到了： Ubuntu上的开源软件包不太适合开箱即用（详细请求）。它们背后的实际来源，具有依赖于c-shell和其他过时的构build过程，可以从两个相互竞争的位置获得。来自Oracle的商业包装来自Univa的商业包装我真正希望的是具有这个简单的安装和维护的基本function。嘿，我会采取一个前端hadoop只是排队和分发简单的shell脚本定义的工作。

在添加virtual_free后，Sun Grid Engine（SGE）作业不可见

我正在尝试使用virtual_free来限制运行群集中每个网格节点的大内存作业的数量。这似乎按预期工作。在我修改代码以提交内存实例的作业后，qstat -f -q $ queueName不再显示等待插槽的作业列表。作业提交了一个特定的队列（-q $ queueName）。我猜这是由于SGE队列select的魔力而发生的。有办法让我的工作像以前一样出现吗？谢谢！ UPDATE 我在用着： qstat -f -u * -q $ queueName 查看队列。如果我放弃队列参数，我可以看到工作。如果我检查一个特定的工作，我可以看到它具有正确的hard_queue_list值集。我也使用Sun Grid Engine 6.1u4

使用CUDA_VISIBLE_DEVICES和sge

使用sge与称为“gpu.q”的资源复合体允许gpu设备（这些都是nvidia设备）的资源pipe理。但是，在系统中有多个gpu设备（独占模式），如果两个作业分配在同一个节点上，则用户无法在正确的gpu上不透明地创build上下文。有没有人遇到这个问题？我正在想办法pipe理特定的GPU资源，并映射主机和设备ID。就像是 hostA -> gpu0:in_use hostA -> gpu1:free hostB -> gpu0:free hostB -> gpu1:in_use 等等…然后根据资源请求，通过CUDA_VISIBLE_DEVICESvariables显示在每个主机上分配的gpu资源。这似乎是一个相当普遍的问题 – 到目前为止，一些人已经通过计算集群中gpu的普及来解决这个问题。

网格引擎资源要求

有没有人知道设置要求使用特定的群集节点。我有一个服务器128G的RAM，我想坐下来，直到用户明确要求类似-l h_vmem=100G Grid Engine是否能够像这样？

qdel删除了我所有的工作

我在服务器上使用Sun GridEngine（Rocks Cluster）来运行远程作业。当我尝试用qdel删除作业时，它经常按预期工作，但是qdel会删除几乎所有find的东西。例如，在今天的某个时候，我有77个正在运行的工作： [znorg @ server MD] $ qstat 作业ID先前的名称用户状态提交/开始在队列槽ja-task-ID ————————————————– ————————————————– ————- 7711 0.55500 shg_oAll_c znorg dr 10/30/2012 13:49:07 [email protected] 1 7712 0.55500 shg_oCAB_c znorg dr 10/30/2012 13:49:07 [email protected] 1 7873 0.55500 a1h3l_prdA znorg r 11/08/2012 13:37:22 [email protected] 1 7874 0.55500 a1t8k_obsA znorg r 11/08/2012 13:37:22 [email protected] 1 7875 0.55500 a1t8k_prdA znorg […]

如何恢复Berkeley DB（包含在Sun Grid Engine安装中）？

我在CentOS 5上。 [root@newjanux spooldb]# uname -a Linux newjanux 2.6.18-164.el5 #1 SMP Thu Sep 3 03:28:30 EDT 2009 x86_64 x86_64 x86_64 GNU/Linux 和SGE 6.2u2 我已经有了原始数据库的副本，以防万一… berkeley数据库不会开始腐败。这个工具可以解决这个问题，但是却失败了（用同样的方法）： [root@newjanux spooldb]# /opt/sge/utilbin/lx24-amd64/db_recover -v -c Finding last valid log LSN: file: 2136 offset 2719640 db_recover: Log file corrupt at LSN: [399][10485626] db_recover: PANIC: Invalid argument db_recover: DB_ENV->open: DB_RUNRECOVERY: Fatal […]

OGE没有load_avg的值

我的OGEconfiguration有问题。节点的load_avg没有被设置（保持在-NA-）。由于这个原因，并且由于队列上的np_load_avg阈值，没有任何作业正在运行。 [ce@node1 ce]$ qhost -F -lh=node2 HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS ——————————————————————————- node2 – – – – – – – 默认/ spool / localhost /消息和qmaster /消息中都不会popup错误消息。队列调度消息是“复杂属性np_load_avg没有值”。我看不出有什么迹象表明可能会出错，执行节点上的以下工作：的gethostname gethostbyname主 qstat -f loadcheck

Intereting Posts

按date删除窗口中的目录 SSH – 在后台执行脚本，如果尚未运行？是否有可能创build一个iptables的代码锁？ htaccess到nginx（nginx下的水印图片） OpenNMS能让我看到目前所有超出的阈值吗？我的服务器应该从VHD引导吗？ VMWare服务器高处理器使用率（磁盘I / O）我如何将数据从VMware备份到磁带？为什么我的lvm物理卷比它包含的分区有更less的空间？ networking连接到服务器的速度很慢，只能从一台设备上连接 Nagios中是否有一个允许内存之间检查的function？无法从服务器运行batch file，用户无权访问文件在bash中比较两个用户列表 Nginx SSLInsecureRenegotiation等效我如何限制CentOS服务器的上载/下载频宽？

Articles of gridengine