Articles of hpc

HPC / EC2 – 优化NFS的可靠性

在AWS-EC2中,我build立了一个由NFS文件服务器和许多客户端组成的Linux虚拟机集群。 如果客户端数量大于20,在大量I / O下,我遇到了文件完整性的损失:例如客户端写入到服务器的gzip文件被破坏。 我想知道什么是最好的一组NFS参数来提高这个环境下数据传输的可靠性 。 现在挂载标志是: Flags: rw,vers=3,rsize=262144,wsize=262144,hard,proto=tcp,timeo=600,retrans=2 MTU的大小是1500,NFS deamons的数量是8。 我应该减lessrsize&wsize低于MTU,并增加NFS deamons的数量? 还有什么可以改进的吗? 非常感谢。

没有服务的订阅

我正在尝试使用Windows HPC群集设置突发到Azure。 群集已经正常工作,我可以在本地networking上的机器上启动作业。 当我尝试为Azure节点创build节点模板时,input我的订阅ID并select证书(我已经上传到azure),并且收到错误消息在此订阅下找不到服务 我已经遵循了所有关于在头节点,本地机器和azure色上设置证书的文档,但是我没有做任何事情似乎可以消除错误。

为服务器2012R2中的HPC群集部署基本说明挂起

我们正在评估服务器2012R2标准与HPC包的小群集节点(约40开始 – 目前的设置只有一个计算节点)。 现在我们用旧的硬件去尝试一些东西,并得到我们需要的东西。 但是现在我被困在裸机部署基节点的时候。 configuration日志: Time Message 28-6-2015 15:19:56 Sending PXE command to boot node to WINPE (Expected boot time: 5-15 minutes) 28-6-2015 15:19:46 Sending PXE command to boot node to WINPE (Expected boot time: 5-15 minutes) 28-6-2015 15:19:43 Waiting for node to boot into WINPE 28-6-2015 15:19:43 Initiating configuration operations for template: VideoEncoder […]

扭矩队列问题

我正在与扭矩+毛伊岛的麻烦。 问题如下:我有2个队列,每个队列有10个关联的节点。 如果我提交10k个工作到第一个队列,我提交了1个工作到第二个工作,第二个工作保持在Q状态。 [root@localhost bin]# ./showstart 366808 job 366808 requires 2 procs for 1:00:50 Earliest start in 00:00:00 on Fri Dec 18 16:27:21 Earliest completion in 1:00:50 on Fri Dec 18 17:28:11 Best Partition: DEFAULT [root@localhost bin]# ./checkjob -v 366808 ….. PE: 2.00 StartPriority: 3 job can run in partition DEFAULT (80 procs available. 2 […]

随机化Slurm节点分配

有没有人有运气随机Slurm节点分配? 我们有一个由12个节点组成的小型集群,可以在1-8个人的任何地方使用不同规模/长度的作业。 当testing我们新的Slurm设置时,如果没有其他用户同时进行交互作业和批处理作业,则作业总是转到分区中的第一个节点。 有没有办法随机化这个调度? 看起来,取决于用户的时间表,他们可以始终如一地获得相同的节点,这可以掩盖硬件/configuration中可能会看到的问题。 我们的节点总是排他性的,所以我们只考虑随机化节点级调度。

高性能集群的安全性问题

这是一个非常开放的问题,因为这是我第一次创build一个集群。 我只是想知道会有什么types的安全问题,以及如何防止这些问题。 背景信息 在内部群集上使用SGE(当前正在安装并确定哪个时间表最好)。 将允许PVM / MPI程序和Perl程序一样运行,也可能只是分叉,因为它们是令人尴尬的并行执行的(如果我没有记错的话,SGE允许fork,但是在我编译之前,更多的信息。有人请只对此发表评论)。 将有一个连接到集群的外部节点,此节点将提交从Internet / Server接收的作业。 所有的用户都必须通过互联网向服务器提交他们的请求(试图想办法避免他们在本地连接时绕过)。 这个项目的目标: 最终允许任何人通过互联网提交作业运行,然后在程序完成时通知。 此外,允许他们查看数据,甚至可以下载数据以供离线查看。 不太可能,但可能:当我们的程序不足时,甚至可能允许用户上传程序来微调他们的数据。

Windows HPC Server 08适用于Matlabs

我想要安装另一个Hyper-V虚拟机来安装Matlabs /使用C做一些计算密集型编程。 我一直认为Windows Server HPC 2008是为这类工作devise的。 我会在正确的轨道上安装这个操作系统的单个虚拟机,并安装这个软件? 还是HPC更多的网格/分布式计算? 谢谢

除了MS HPC Server之外,Windows还有哪些集群pipe理软件?

那里是否存在任何开源解决scheme? 也许,更便宜的商业? 我很惊讶,谷歌search不会产生任何有意义的东西。

十几台Mac mini和戴尔机架服务器进行并行image processing

我需要做一些大规模的image processing并行。 我正在考虑并行运行一打Mac Mini来做数据处理。 我需要在机器上运行Microsoft Windows,以便我可以使用Active X控件从networking中获取数据,这是数据可用的唯一方式(有大量服务器可以从中获取数据)。 戴尔或其他公司使用机架式服务器是否更便宜/更有效? Mac Mini有800美元我需要的三件事: 千兆以太网 CUDA显卡 4 GB RAM(基本型Mac mini +100)。 有没有更便宜的设置?

优化Linux计算集群

我正在build立一个超级计算的Linux集群。 我们使用OpenMPI和GoToBlas2运行最新的HPCC基准testing,但结果非常糟糕。 当我使用一个进程对集群中的每个核心运行基准testing时,结果比在单个进程中运行基准testing结果差得多(超过100倍)。 这显然不是我们所期望的那种performance。 我唯一的想法就是MPI在这些进程之间传输消息的时间太长了。 有没有人有任何想法,我怎么可以优化服务器设置,使性能不吸收这么多? 我们正在使用OpenMPI v1.4.3的Rocks集群发行版。 我们的计算节点是戴尔机架式服务器,每台服务器带有两个四核英特尔至强处理器。 它们通过千兆以太网电缆连接。