我们的实验室有一个群集 70个计算节点 4个IO节点 Infiniband QDR互连 12T磁盘arrays使用IB SRP协议访问 主要应用是debugging和运行基于MPI的并行科学程序。 客户端/计算节点将每隔几分钟同时写入几千字节的数据 (总计)。 这个文件系统曾经是Lustre ,与主stream的超级计算机中心相似。 但是安装过于复杂,可维护性太差。 那么是否有任何易于使用的“小型”分布式networking文件系统? 或者,对于这种情况NFS可以吗?
我有一个LSF集群,并遇到以下问题。 一段时间后,随机操作系统进程开始死亡(他们成为僵尸或不存在),并且LSF节点不报告任何麻烦回到NSF主。 我相信这是由LSF任务耗尽节点上的内存(128GB)引起的。 任务以非根LSF用户身份运行。 题。 我怎样才能让LSF任务而不是OS进程? 任何其他的build议和想法将不胜感激。 (我在此承认记忆是困难的。)
不知道这个问题是否适合在这里或在Unix.SE,但我觉得在这里感觉更合适。 我正在对一个使用SLURM进行调度工作的国家集群进行一些计算量大的研究。 我意识到,我的批处理脚本(创build一堆subprocess)的一部分function比我预期的慢得多,我怀疑有太多的线程被我使用的分析工具调用。 我希望检查是否有太多的上下文切换,但它显示为我需要PID来检查上下文切换的数量 。 通过ps或top检查进程没有给出我正在运行的特定工具名称的任何命中,所以我认为由我的脚本运行的实际进程被SLURM“隐藏”在不同的级别。 我认为这是有道理的,因为我通过ssh进行交互的实际计算机和执行计算的节点是不一样的。 但是,有没有办法通过命令行来检查CPU利用率(例如%负载)或上下文切换的数量?
双sockets主板的每个CPU都有无限的频段适配器吗? 也就是说,如果有两个infiniband频段适配器,每个CPU的PCIe插槽中都有一个。 这是否消除了通过QPI的信号,或者是信号通过QPI传播的时间可以忽略(因此可以使用一个适配器)?
我有一个提供FTP空间的网站。 这对主要网站来说是次要的function,但却是一个受欢迎的function。 我使用ProFTPd和MySQL,很好地将用户设置在他们的主目录中,并locking它们等。为了安全起见,它还给用户FTP访问。 我现在遇到的麻烦是缩放。 我的4tb服务器空间不足,需要将FTPstream量卸载到多台服务器上。 不过,我似乎已经在各种情况下遇到了绊脚石。 scheme1:我只运行多台服务器,并在每台服务器上分配单独的用户FTP空间。 优点包括在主服务器上的stream量不是瓶颈,但是如果驱动器上只剩下100GB,则不允许用户A(例如)升级到500GB的存储。 (可能会发生)。 场景2:运行GlusterFS之类的东西,创build一个服务器池作为分布式文件系统,并将我的用户目录作为Gluster客户端挂载到主服务器上。 我看到的缺点是,如果将来有50台FTP服务器(也许),那么所有50台服务器都会将stream量指向我的一台主服务器,瓶颈将是巨大的。 场景3:使用类似S3FS的东西,只需安装一个或多个桶。 优势在于无限可扩展性,但缺点包括以上瓶颈和来自AWS的惊人带宽账单。 有没有人可以为我描述的场景提出一条“最佳路线”。 忘记现有的客户端,我很高兴地移动一个数据库中的数据和目录条目,如果这意味着我可以得到一个工作模型。 我只是没有意识到它会变得stream行,所以没有给它一个很大的先进的想法。 所以理想情况下,我期望做的是能够像现在一样从PHP创buildFTP用户和配额,创build主目录并locking用户,但是能够添加额外的服务器(有冗余),可以很好的扩展而不是瓶颈。 而且,如果通过SSH的SFTP可以添加到所有这些,那将是一个天堂般的结果。 我可以单独完成上述所有事情,但似乎无法find适合我所有需求的解决scheme。 您的帮助和build议将不胜感激。
我们为Coldfusion应用程序提供了一个2台服务器的负载均衡集群。 我遇到了一些奇怪的行为,并希望找出正在运行Web应用程序的用户当前所在的两台服务器中的哪一台。 有没有办法找出哪个服务器正在用于特定的请求? cgi.servervariables只提供cfprod.domain.com这样的信息,我需要的是cfprod1.domain.com或cfprod2.domain.com
我有兴趣使用Rackspace Cloud Servers API构build一个dynamic可扩展的托pipe服务。 Cloud Servers API允许我以编程方式添加和删除服务器实例。 系统要求 在大多数情况下,只有一台共享服务器,但也可能是专用服务器,当带宽超过某个目标时,将调配一个新的服务器,从其他位置复制或恢复Web目录(可使用云文件,或svn,git等)。 可以使用puppet或一些自定义脚本来configuration文件。 理想情况下,每个域或一组域将拥有一旦超过的带宽配额,将触发一个新服务器的部署,只有该域的文件在1个小时的时间内部署。 如果在该目标之后带宽仍然超出,则服务器将保持另一个小时,等到不再需要时,服务器将被移除。 如果有人已经部署了这样一个系统,或者可以提供一些援助,这将是非常感谢! 关键问题: 1.如何确定多个实例的带宽使用情况? 2.当给定的服务器只有一个小时(我可以在这里使用代理服务器),我怎样才能避免DNScaching问题? 3.确保将文件快速部署到每个新部署的服务器的最佳方法是什么? 4.使用像这样的dynamic集群,我该如何支持FTP(我不喜欢使用FTP,但有些项目可能需要它)。
我们正试图将一个传统的Coldfusion站点部署到一个新的CF8集群上。 集群由在单个Windows 2008服务器上运行在JRUN4下的三个cf实例组成。 我已经将集群设置为不复制会话,并打开了粘性会话。 每个实例都设置为使用J2EE会话variables。 该网站的应用程序标签有: sessionmanagement="Yes" setclientcookies="Yes" setdomaincookies="Yes" 当每个实例启动时…没有错误报告在实例日志中,并且它们没有任何问题地join集群。 尽pipe这些实例具有: 16/10 08:31:25 info SessionReplicationService successfully joined a JINI lookup service (assigned JINI-ID …..) 和 16/10 08:31:25 info Clusterable service SessionReplicationService discovered a SessionReplicationService peer on a JRun server named "xxxx" on host xxxx 这是有趣的,因为会话复制是closures的,SessionReplicationService负责粘性会话吗? 这足够的背景下,问题是,粘滞的会话似乎根本无法正常工作,每个请求被弹回到一个不同的实例,而且好像每个实例的会话正在丢失呢? 一旦集群下到一个实例,Web应用程序就像预期的那样工作,会话看起来很好。 有没有人对我有什么想法? 我一直在拖网,我似乎找不到任何答案。
如何configurationHyper-V Server 2008 R2故障转移群集function? 我可以从Vista系统使用mmc还是必须使用Powershell?
我需要在现有的双节点SQL Server故障转移群集(Windows Server 2003)上创build群集文件共享的万无一失的说明。 该scheme是我有一个非群集感知应用程序安装在两个节点上需要创build和复制子文件夹之间的特定目录中的文件。 无论群集中的哪个节点处于活动状态,我都需要一个文件共享,该文件共享就像是一个文件夹(例如networking共享)一样。 我试过按照这篇TechNet文章中的说明,但马上就遇到了困难。 例如,TechNet文章中的第1步说: 使用Windows资源pipe理器,在群集磁盘上创build一个文件夹 我如何知道哪个磁盘是群集磁盘? 在同一篇文章的第4步中,您必须创build一个物理磁盘资源。 当它指向“可能的所有者”时,我停在了向导的第2页上 – 这应该总是两个节点,勾选“在单独的资源监视器中运行此资源”框的效果是什么。 最后,一旦我创build了文件共享,这是如何暴露给我的应用程序? 我是否将它传递给UNCpath,就像networking上的常规文件共享一样? 基本上,我需要一个白痴指南,这样我就不会搞乱现有的SQLconfiguration。