hpc 服务器 Gind.cn

HPC / EC2 – 优化NFS的可靠性

在AWS-EC2中，我build立了一个由NFS文件服务器和许多客户端组成的Linux虚拟机集群。如果客户端数量大于20，在大量I / O下，我遇到了文件完整性的损失：例如客户端写入到服务器的gzip文件被破坏。我想知道什么是最好的一组NFS参数来提高这个环境下数据传输的可靠性。现在挂载标志是： Flags: rw,vers=3,rsize=262144,wsize=262144,hard,proto=tcp,timeo=600,retrans=2 MTU的大小是1500，NFS deamons的数量是8。我应该减lessrsize＆wsize低于MTU，并增加NFS deamons的数量？还有什么可以改进的吗？非常感谢。

没有服务的订阅

我正在尝试使用Windows HPC群集设置突发到Azure。群集已经正常工作，我可以在本地networking上的机器上启动作业。当我尝试为Azure节点创build节点模板时，input我的订阅ID并select证书（我已经上传到azure），并且收到错误消息在此订阅下找不到服务我已经遵循了所有关于在头节点，本地机器和azure色上设置证书的文档，但是我没有做任何事情似乎可以消除错误。

为服务器2012R2中的HPC群集部署基本说明挂起

我们正在评估服务器2012R2标准与HPC包的小群集节点（约40开始 – 目前的设置只有一个计算节点）。现在我们用旧的硬件去尝试一些东西，并得到我们需要的东西。但是现在我被困在裸机部署基节点的时候。 configuration日志： Time Message 28-6-2015 15:19:56 Sending PXE command to boot node to WINPE (Expected boot time: 5-15 minutes) 28-6-2015 15:19:46 Sending PXE command to boot node to WINPE (Expected boot time: 5-15 minutes) 28-6-2015 15:19:43 Waiting for node to boot into WINPE 28-6-2015 15:19:43 Initiating configuration operations for template: VideoEncoder […]

扭矩队列问题

我正在与扭矩+毛伊岛的麻烦。问题如下：我有2个队列，每个队列有10个关联的节点。如果我提交10k个工作到第一个队列，我提交了1个工作到第二个工作，第二个工作保持在Q状态。 [root@localhost bin]# ./showstart 366808 job 366808 requires 2 procs for 1:00:50 Earliest start in 00:00:00 on Fri Dec 18 16:27:21 Earliest completion in 1:00:50 on Fri Dec 18 17:28:11 Best Partition: DEFAULT [root@localhost bin]# ./checkjob -v 366808 ….. PE: 2.00 StartPriority: 3 job can run in partition DEFAULT (80 procs available. 2 […]

随机化Slurm节点分配

有没有人有运气随机Slurm节点分配？我们有一个由12个节点组成的小型集群，可以在1-8个人的任何地方使用不同规模/长度的作业。当testing我们新的Slurm设置时，如果没有其他用户同时进行交互作业和批处理作业，则作业总是转到分区中的第一个节点。有没有办法随机化这个调度？看起来，取决于用户的时间表，他们可以始终如一地获得相同的节点，这可以掩盖硬件/configuration中可能会看到的问题。我们的节点总是排他性的，所以我们只考虑随机化节点级调度。

高性能集群的安全性问题

这是一个非常开放的问题，因为这是我第一次创build一个集群。我只是想知道会有什么types的安全问题，以及如何防止这些问题。背景信息在内部群集上使用SGE（当前正在安装并确定哪个时间表最好）。将允许PVM / MPI程序和Perl程序一样运行，也可能只是分叉，因为它们是令人尴尬的并行执行的（如果我没有记错的话，SGE允许fork，但是在我编译之前，更多的信息。有人请只对此发表评论）。将有一个连接到集群的外部节点，此节点将提交从Internet / Server接收的作业。所有的用户都必须通过互联网向服务器提交他们的请求（试图想办法避免他们在本地连接时绕过）。这个项目的目标：最终允许任何人通过互联网提交作业运行，然后在程序完成时通知。此外，允许他们查看数据，甚至可以下载数据以供离线查看。不太可能，但可能：当我们的程序不足时，甚至可能允许用户上传程序来微调他们的数据。

Windows HPC Server 08适用于Matlabs

我想要安装另一个Hyper-V虚拟机来安装Matlabs /使用C做一些计算密集型编程。我一直认为Windows Server HPC 2008是为这类工作devise的。我会在正确的轨道上安装这个操作系统的单个虚拟机，并安装这个软件？还是HPC更多的网格/分布式计算？谢谢

除了MS HPC Server之外，Windows还有哪些集群pipe理软件？

那里是否存在任何开源解决scheme？也许，更便宜的商业？我很惊讶，谷歌search不会产生任何有意义的东西。

十几台Mac mini和戴尔机架服务器进行并行image processing

我需要做一些大规模的image processing并行。我正在考虑并行运行一打Mac Mini来做数据处理。我需要在机器上运行Microsoft Windows，以便我可以使用Active X控件从networking中获取数据，这是数据可用的唯一方式（有大量服务器可以从中获取数据）。戴尔或其他公司使用机架式服务器是否更便宜/更有效？ Mac Mini有800美元我需要的三件事：千兆以太网 CUDA显卡 4 GB RAM（基本型Mac mini +100）。有没有更便宜的设置？

优化Linux计算集群

我正在build立一个超级计算的Linux集群。我们使用OpenMPI和GoToBlas2运行最新的HPCC基准testing，但结果非常糟糕。当我使用一个进程对集群中的每个核心运行基准testing时，结果比在单个进程中运行基准testing结果差得多（超过100倍）。这显然不是我们所期望的那种performance。我唯一的想法就是MPI在这些进程之间传输消息的时间太长了。有没有人有任何想法，我怎么可以优化服务器设置，使性能不吸收这么多？我们正在使用OpenMPI v1.4.3的Rocks集群发行版。我们的计算节点是戴尔机架式服务器，每台服务器带有两个四核英特尔至强处理器。它们通过千兆以太网电缆连接。

Intereting Posts

相当于CDN，但对于dynamic内容？以非root用户身份一致是否有可能在VPS服务器上有不同的主机，如php / java / python su：不能设置组别：操作不允许我是否需要Server 2003的R2来更新DC上的模式以支持Mac系统？使用fusionio iodrive2缓慢的吞吐速度使用ubuntu唤醒局域网导致不断的重新启动 Windows 2008 Server R2上的IIS 7将无法启动，无法删除在某些端口将Internet用户从eth0转发到ppp +（VPN客户端） AWS对当前实例的更长资源ID的影响 CalDav / CardDav在Open-Xchange上如何诊断不稳定的磁盘行为？在SQL Server 2005中移动日志文件的最佳方法如何configurationSQL Server 2008 R2日志传送不要使用spamassassin转发垃圾邮件

Articles of hpc