你好,感谢大家提前! 我和我的团队一直困扰着我们用于科学研究的集群的稳定性。 我们有很多科学和软件工程经验,但是运行集群的经验不是太多。 我会尽量简短。 我们运行一个HPC集群,每个集群有10台机器,每台机器配有4到8个用于科学计算的NVIDIA GeForce 1080 GTX GPU。 这些机器本身是Supermicro GPU SuperServers(我们有几个不同的型号)。 每个主板都有两个通用网卡,其中只有一个连接到我们的networking。 此外,这些机器还具有一个独立的pipe理(IPMI)NIC,这些NIC也连接到同一个networking。 注意:所有的NIC都连接到同一个子网。 该networking由一个Meraki MX84路由器运行,一个24端口Netgear路由器位于路由器和机器之间。 还有两个特殊的机器; 一个运行MAAS,这是我们用来pipe理群集。 另一个是RAID控制器和几个TB的RAID5arrays。 所有机器都通过NFS连接到本机。 所有的机器都运行Ubuntu Server 16.04 这些机器位于离我们办公室大约一个小时的托pipe中心。 我们有两种连接这些机器的方法:1)将一个VPN插入Meraki提供的networking中,2)通过一个反向隧道将ssh连接到另一台我们在云中运行的机器上。 在正常情况下,我们在GPU机器上运行CPU和GPU密集型作业,这些作业从NFS安装的RAIDarrays中加载必要的数据。 问题是:系统不稳定! 在所有事情发生之前,我们无法从这些机器中获得超过几天的运行时间。 这是地狱的症状: 大多数机器不能连接到(既不是SSH也不是VPN)。 无法访问的机器也无法通过IPMI访问 有些机器可以连接到,但提供一个非常慢的shell(我的意思是你可以键入命令,但键盘和响应之间存在明显的延迟;感觉非常像networking问题) 我们可以看到的那些机器似乎已经打破了出站互联网连接。 具体而言, ping google.com导致DNSparsing问题: unknown host google.com 软重启机器是不够的; 为了恢复function,我们必须通过远程PDU重新上电。 我们的调查显示,我们根本无法进入的机器实际上还活着; 这是一个networking问题,阻止我们访问他们。 在post的底部是一个日志,我从一个“死”机器重新启动后拉。 您所看到的是正常的DHCP活动,直到凌晨3:00左右才会发生,此时DHCPDISCOVER广播启动失败。 当然,在这一点上,ssh隧道(使用autossh运行)开始失败。 我原来的理论是,罪魁祸首是MAAS,因为我们使用的是DHCP服务器,而不是由Meraki路由器提供的。 为了testing这个理论,我重新安装了MAAS,这次使用了Meraki的DHCP服务,而不是MAAS。 两天之后,系统以标准方式失败,所以我认为我排除了MAAS(至less就DHCP而言)。 我们队中的一些人有一个直觉,认为是NFS。 这个理论就像NFS失败,然后一切都变得怪异。 我们知道当NFS死亡时,客户机文件系统很难恢复,但不清楚这将如何影响networking。 在这个问题上的任何帮助将是伟大的。 就像我说的; […]
我有一些BSD系统,我正在考虑将jail用于与系统其他部分隔离的进程。 主机系统有一些NFS挂载,并且存在NFS服务器发生故障时,NFS客户端往往无响应的问题。 只要没有安装受影响的path,监狱是否可以正常工作,或者如果主机安装的NFS服务器出现故障,那么监狱应该没有响应?
我运行一个节点Ganeti服务器Supermicro MBD-X10SDV-6C + -TLN4F-O与英特尔至强D-1528和32 GB的RAM我有以下设置: OS Ubuntu 16.04.2 Raid 1中的2X 250GB固态硬盘 – >实例的操作系统和LVM的ext4分区 raid 5中的3X 1TB WD Red安装在/ data – > ext4 1X 2TB WD Red安装在/ Backup – > ext4 现在对于我的NextCloud,我想保持数据与实例磁盘分离,只需将Raid 5设备挂载到NextCloud实例以存储数据,以便随时replaceGaneti Instance,而不会丢失数据。 其他实例(OpenVpn,dnsmaq,Radius等)不需要访问Raid设备,因此我将使用configurationpipe理。 什么是最好的方式来实现这一点,是更好的只是将其挂载为NFS或可能将ext4转换为ZFS和NFS挂载? 有没有其他的方法? 先谢谢了
我试图让nfs在Ubuntu 16.04.2 LTS上工作。 我得到以下错误: 我已经尝试重新安装nfs-common,nfs-kernel-server和其他软件包按照其他论坛提供的说明,并不能得到它的工作。 由于这个原因,每次都通过dpkg安装失败。 May 17 11:32:44 ocrservernew systemd[1]: Mounting RPC Pipe File System… May 17 11:32:44 ocrservernew systemd[1]: Mounting NFSD configuration filesystem… May 17 11:32:44 ocrservernew mount[1962]: mount: unknown filesystem type 'rpc_pipefs' May 17 11:32:44 ocrservernew systemd[1]: run-rpc_pipefs.mount: Mount process exited, code=exi May 17 11:32:44 ocrservernew systemd[1]: Failed to mount RPC Pipe […]
我试图找出在同一个盒子上与多个虚拟机共享存储的最佳方式。 我知道一系列的select:NFS,iSCSI,光纤通道,桥接等,但我不清楚它们如何组合在一起或相互排斥。 根据我目前阅读的内容,以下是一些我所理解为真实的陈述,但不是确定的陈述。 如果有人能够肯定或纠正我的理解,那就太好了。 目前我正在考虑使用Proxmox(KVM + ZFS),但是如果其他虚拟机pipe理程序在这些语句方面有重要的区别,请解释一下。 对或错?: 为了在同一主机上的虚拟机之间共享存储设备,我可以使用桥接networking来最大化速度。 使用桥接networking,不使用物理networking硬件,而是CPU充当虚拟网卡,速度更快,因为系统总线的速度限制,而不是以太网/光纤通道等。 由于上述原因,除了消除less量的CPU开销之外,使用像光纤通道这样的特殊function与虚拟机共享存储没有任何好处。 使用fibrechannel卡可能会不必要地为虚拟机与托pipe存储的交互创build一个额外的步骤。 iSCSI vs NFS设置的速度和复杂性在虚拟机pipe理程序之间有很大差异,所以一旦我决定了一切,就应该做出这个select。
我想弄清楚如何使用k8s持续音量声明的单个nfs共享。 例如,假设我configuration了一个nfs pv: apiVersion: v1 kind: PersistentVolume metadata: name: nfs-pv spec: capacity: storage: 10Gi accessModes: – ReadWriteMany persistentVolumeReclaimPolicy: Retain storageClassName: nfs-storage nfs: path: /var/nfs_exports server: 10.9.0.205 readOnly: false 是否有可能创build多个音量声明映射到此单个共享中的子目录? 再举一个例子,假设我创build了以下数量的声明: apiVersion: v1 kind: PersistentVolumeClaim metadata: name: influx-data namespace: kube-system spec: storageClassName: nfs-storage accessModes: – ReadWriteMany resources: requests: storage: 5Gi — 和: apiVersion: v1 kind: PersistentVolumeClaim […]
我有一个NFS服务器连接到一个可重构的计算机(与BORPH系统)。 我使用“run netboot”通过DHCP + TFTP + NFS启动minicom,我看到以下错误: Sending DHCP requests .<6>eth0: link is up, 100 FDX, pause enabled ., OK IP-Config: Got DHCP answer from 192.168.100.1, my address is 192.168.100.2 IP-Config: Complete: device=eth0, addr=192.168.100.2, mask=255.255.255.0, gw=192.168.100.1, host=roach030193, domain=, nis-domain=(none), bootserver=192.168.100.1, rootserver=192.168.100.1, rootpath=/srv/roachboot/etch Looking up port of RPC 100003/2 on 192.168.100.1 rpcbind: server 192.168.100.1 not responding, […]
如何通过nfs共享整个zpool(包括子文件系统)? 使用belowzfs文件系统: NAME USED AVAIL REFER MOUNTPOINT backup 7.22T 6.83T 3.94T /backup backup/compressed 3.28T 6.83T 3.28T /backup/compressed 当使用nfs-kernel-server直接共享backup ,它的内容可以从nfs-clients获得。 不幸的是,'压缩文件夹'( backup/compressed )显示,但它的内容不。 如果使用sudo zfs set sharenfs=on backup/compressed或nfs-kernel-server sudo zfs set sharenfs=on backup/compressed共享sudo zfs set sharenfs=on backup/compressed ,则该文件夹仍然无法访问。 我已经确认这两个文件系统已被共享: showmount -e Export list for node1: /backup/compressed * /backup * 如何使用nfs共享zfs文件系统及其子文件系统? 更新: cat /proc/fs/nfsd/exports返回: # Version 1.1 […]
我在同一台服务器上有几个NFS挂载点,但有不同的目录。 例如: xxxx:/stats /data/stats xxxx:/scratch /data/scratch xxxx:/ops /data/ops 但是,当我尝试运行木偶,它添加以下到我的fstab。 (错误的安装分配) xxxx:/scratch /data/stats nfs defaults,nodev,nosharecache 0 0 xxxx:/scratch /data/ops nfs defaults,nodev,nosharecache 0 0 xxxx:/scratch /data/scratch nfs defaults,nodev,nosharecache 0 0 它使用所有安装分区上的最后一个安装选项。 所以我做了一些研究,发现了以下的错误。 https://tickets.puppetlabs.com/browse/DOCUMENT-242 然后添加nosharecache选项,但仍然没有运气。 这是我的木偶代码 class profile::mounts::stats { # Hiera lookups $location = hiera('profile::mounts::stats::location') $location2 = hiera('profile::mounts::stats::location2') tag 'new_mount' file { '/data/stats': ensure => directory, owner => […]
我有一个使用nginx服务器(EC2)和NFS驱动器来存储CMS文件(EFS)的简单AWS云。 亚马逊有着名的信用,我在一个非常低的stream量云上没有信用。 经过调查发现,EC2正在淹没EFS的元数据请求。 我只是不知道如何以及为什么? 所有文件共有8GB的NFS,他们都是PHP文件。 静态文件被卸载到S3。 EC2和EFS之间的stream量大约是每秒1MB,但是元数据stream量是每秒5MB! 这就是每分钟100-300MB的元数据stream量! 在检查nfsstat并转储stream量后,发现有90%的stream量是GETATTR请求和响应。 但观察EC2,处理器几乎睡着了,所以处理5MB每秒听起来超现实。 不提1MB传输的5MB元数据。 我想做更多的search,但我的知识和谷歌已经结束,所以不知道从这里。 试图利用lsof和nsfstats,无法find世界上需要这么多的元数据。 任何帮助将非常感激。 编辑:如果你正在寻找一个解决scheme,因为这个或类似的原因用尽AWS EFS学分 – EFS学分是基于你正在采取的空间。 该解决scheme(来自AWS支持团队)将创build虚拟文件以增加您的贷项余额。 在我的情况下,通过命令添加50GB的“空”占用空间的技巧: dd if=/dev/zero of=/path/to/efs/dummyfile bs=1G count=10 以上将在EFS上创build10GB的“空”文件,这将增加您的信用