集群服务器 Gind.cn

Lustre替代70节点科学集群

我们的实验室有一个群集 70个计算节点 4个IO节点 Infiniband QDR互连 12T磁盘arrays使用IB SRP协议访问主要应用是debugging和运行基于MPI的并行科学程序。客户端/计算节点将每隔几分钟同时写入几千字节的数据（总计）。这个文件系统曾经是Lustre ，与主stream的超级计算机中心相似。但是安装过于复杂，可维护性太差。那么是否有任何易于使用的“小型”分布式networking文件系统？或者，对于这种情况NFS可以吗？

耗尽所有内存后LSF节点死亡

我有一个LSF集群，并遇到以下问题。一段时间后，随机操作系统进程开始死亡（他们成为僵尸或不存在），并且LSF节点不报告任何麻烦回到NSF主。我相信这是由LSF任务耗尽节点上的内存（128GB）引起的。任务以非根LSF用户身份运行。题。我怎样才能让LSF任务而不是OS进程？任何其他的build议和想法将不胜感激。（我在此承认记忆是困难的。）

有没有办法在运行SLURM的集群上检查资源利用率？

不知道这个问题是否适合在这里或在Unix.SE，但我觉得在这里感觉更合适。我正在对一个使用SLURM进行调度工作的国家集群进行一些计算量大的研究。我意识到，我的批处理脚本（创build一堆subprocess）的一部分function比我预期的慢得多，我怀疑有太多的线程被我使用的分析工具调用。我希望检查是否有太多的上下文切换，但它显示为我需要PID来检查上下文切换的数量。通过ps或top检查进程没有给出我正在运行的特定工具名称的任何命中，所以我认为由我的脚本运行的实际进程被SLURM“隐藏”在不同的级别。我认为这是有道理的，因为我通过ssh进行交互的实际计算机和执行计算的节点是不一样的。但是，有没有办法通过命令行来检查CPU利用率（例如％负载）或上下文切换的数量？

在多套接字服务器中应该使用多less个infiniband适配器？

双sockets主板的每个CPU都有无限的频段适配器吗？也就是说，如果有两个infiniband频段适配器，每个CPU的PCIe插槽中都有一个。这是否消除了通过QPI的信号，或者是信号通过QPI传播的时间可以忽略（因此可以使用一个适配器）？

ProFTPd跨多个物理服务器的MySQL

我有一个提供FTP空间的网站。这对主要网站来说是次要的function，但却是一个受欢迎的function。我使用ProFTPd和MySQL，很好地将用户设置在他们的主目录中，并locking它们等。为了安全起见，它还给用户FTP访问。我现在遇到的麻烦是缩放。我的4tb服务器空间不足，需要将FTPstream量卸载到多台服务器上。不过，我似乎已经在各种情况下遇到了绊脚石。 scheme1：我只运行多台服务器，并在每台服务器上分配单独的用户FTP空间。优点包括在主服务器上的stream量不是瓶颈，但是如果驱动器上只剩下100GB，则不允许用户A（例如）升级到500GB的存储。（可能会发生）。场景2：运行GlusterFS之类的东西，创build一个服务器池作为分布式文件系统，并将我的用户目录作为Gluster客户端挂载到主服务器上。我看到的缺点是，如果将来有50台FTP服务器（也许），那么所有50台服务器都会将stream量指向我的一台主服务器，瓶颈将是巨大的。场景3：使用类似S3FS的东西，只需安装一个或多个桶。优势在于无限可扩展性，但缺点包括以上瓶颈和来自AWS的惊人带宽账单。有没有人可以为我描述的场景提出一条“最佳路线”。忘记现有的客户端，我很高兴地移动一个数据库中的数据和目录条目，如果这意味着我可以得到一个工作模型。我只是没有意识到它会变得stream行，所以没有给它一个很大的先进的想法。所以理想情况下，我期望做的是能够像现在一样从PHP创buildFTP用户和配额，创build主目录并locking用户，但是能够添加额外的服务器（有冗余），可以很好的扩展而不是瓶颈。而且，如果通过SSH的SFTP可以添加到所有这些，那将是一个天堂般的结果。我可以单独完成上述所有事情，但似乎无法find适合我所有需求的解决scheme。您的帮助和build议将不胜感激。

了解在群集中使用哪种Coldfusion服务器

我们为Coldfusion应用程序提供了一个2台服务器的负载均衡集群。我遇到了一些奇怪的行为，并希望找出正在运行Web应用程序的用户当前所在的两台服务器中的哪一台。有没有办法找出哪个服务器正在用于特定的请求？ cgi.servervariables只提供cfprod.domain.com这样的信息，我需要的是cfprod1.domain.com或cfprod2.domain.com

如何dynamic扩展云服务器以提供按需托pipe服务？

我有兴趣使用Rackspace Cloud Servers API构build一个dynamic可扩展的托pipe服务。 Cloud Servers API允许我以编程方式添加和删除服务器实例。系统要求在大多数情况下，只有一台共享服务器，但也可能是专用服务器，当带宽超过某个目标时，将调配一个新的服务器，从其他位置复制或恢复Web目录（可使用云文件，或svn，git等）。可以使用puppet或一些自定义脚本来configuration文件。理想情况下，每个域或一组域将拥有一旦超过的带宽配额，将触发一个新服务器的部署，只有该域的文件在1个小时的时间内部署。如果在该目标之后带宽仍然超出，则服务器将保持另一个小时，等到不再需要时，服务器将被移除。如果有人已经部署了这样一个系统，或者可以提供一些援助，这将是非常感谢！关键问题： 1.如何确定多个实例的带宽使用情况？ 2.当给定的服务器只有一个小时（我可以在这里使用代理服务器），我怎样才能避免DNScaching问题？ 3.确保将文件快速部署到每个新部署的服务器的最佳方法是什么？ 4.使用像这样的dynamic集群，我该如何支持FTP（我不喜欢使用FTP，但有些项目可能需要它）。

粘性会话不粘在Coldfusion集群上

我们正试图将一个传统的Coldfusion站点部署到一个新的CF8集群上。集群由在单个Windows 2008服务器上运行在JRUN4下的三个cf实例组成。我已经将集群设置为不复制会话，并打开了粘性会话。每个实例都设置为使用J2EE会话variables。该网站的应用程序标签有： sessionmanagement="Yes" setclientcookies="Yes" setdomaincookies="Yes" 当每个实例启动时…没有错误报告在实例日志中，并且它们没有任何问题地join集群。尽pipe这些实例具有： 16/10 08:31:25 info SessionReplicationService successfully joined a JINI lookup service (assigned JINI-ID …..) 和 16/10 08:31:25 info Clusterable service SessionReplicationService discovered a SessionReplicationService peer on a JRun server named "xxxx" on host xxxx 这是有趣的，因为会话复制是closures的，SessionReplicationService负责粘性会话吗？这足够的背景下，问题是，粘滞的会话似乎根本无法正常工作，每个请求被弹回到一个不同的实例，而且好像每个实例的会话正在丢失呢？一旦集群下到一个实例，Web应用程序就像预期的那样工作，会话看起来很好。有没有人对我有什么想法？我一直在拖网，我似乎找不到任何答案。

从Windows VistaconfigurationHyper-V Server 2008 R2故障转移群集

如何configurationHyper-V Server 2008 R2故障转移群集function？我可以从Vista系统使用mmc还是必须使用Powershell？

有关创build群集文件共享的说明

我需要在现有的双节点SQL Server故障转移群集（Windows Server 2003）上创build群集文件共享的万无一失的说明。该scheme是我有一个非群集感知应用程序安装在两个节点上需要创build和复制子文件夹之间的特定目录中的文件。无论群集中的哪个节点处于活动状态，我都需要一个文件共享，该文件共享就像是一个文件夹（例如networking共享）一样。我试过按照这篇TechNet文章中的说明，但马上就遇到了困难。例如，TechNet文章中的第1步说：使用Windows资源pipe理器，在群集磁盘上创build一个文件夹我如何知道哪个磁盘是群集磁盘？在同一篇文章的第4步中，您必须创build一个物理磁盘资源。当它指向“可能的所有者”时，我停在了向导的第2页上 – 这应该总是两个节点，勾选“在单独的资源监视器中运行此资源”框的效果是什么。最后，一旦我创build了文件共享，这是如何暴露给我的应用程序？我是否将它传递给UNCpath，就像networking上的常规文件共享一样？基本上，我需要一个白痴指南，这样我就不会搞乱现有的SQLconfiguration。

Intereting Posts

我怎样才能从物理损坏的硬盘恢复数据？使用10GBe NIC故障转移群集主机replace1GBe Exchange 2003-> 2010迁移，忙/闲问题安装软件时如何find依赖关系？ Windows 7和VMware Server NPS不会运行或安装，错误代码0x80070643 IP地址不断分配，已被使用无法通过对等连接在另一个vpc中ping通ec2 最可靠的MariaDB到Postgres转储方法尝试将32位Windows XP转换为x64硬件进行迁移testing 用于Informix SE的专用硬盘dbname.dbs文件和用于/ tmp文件的专用ramdisk 使用远程netsh – 不列出（或转储）接口 Debian Squeeze：如何找出RabbitMQ是否安装？ Python源RPMS的centos？ DNS的推进需要比预期更长的时间？

Articles of 集群