nfs 服务器 Gind.cn

HPC群集中的networking连接消失

你好，感谢大家提前！我和我的团队一直困扰着我们用于科学研究的集群的稳定性。我们有很多科学和软件工程经验，但是运行集群的经验不是太多。我会尽量简短。我们运行一个HPC集群，每个集群有10台机器，每台机器配有4到8个用于科学计算的NVIDIA GeForce 1080 GTX GPU。这些机器本身是Supermicro GPU SuperServers（我们有几个不同的型号）。每个主板都有两个通用网卡，其中只有一个连接到我们的networking。此外，这些机器还具有一个独立的pipe理（IPMI）NIC，这些NIC也连接到同一个networking。注意：所有的NIC都连接到同一个子网。该networking由一个Meraki MX84路由器运行，一个24端口Netgear路由器位于路由器和机器之间。还有两个特殊的机器; 一个运行MAAS，这是我们用来pipe理群集。另一个是RAID控制器和几个TB的RAID5arrays。所有机器都通过NFS连接到本机。所有的机器都运行Ubuntu Server 16.04 这些机器位于离我们办公室大约一个小时的托pipe中心。我们有两种连接这些机器的方法：1）将一个VPN插入Meraki提供的networking中，2）通过一个反向隧道将ssh连接到另一台我们在云中运行的机器上。在正常情况下，我们在GPU机器上运行CPU和GPU密集型作业，这些作业从NFS安装的RAIDarrays中加载必要的数据。问题是：系统不稳定！在所有事情发生之前，我们无法从这些机器中获得超过几天的运行时间。这是地狱的症状：大多数机器不能连接到（既不是SSH也不是VPN）。无法访问的机器也无法通过IPMI访问有些机器可以连接到，但提供一个非常慢的shell（我的意思是你可以键入命令，但键盘和响应之间存在明显的延迟;感觉非常像networking问题）我们可以看到的那些机器似乎已经打破了出站互联网连接。具体而言， ping google.com导致DNSparsing问题： unknown host google.com 软重启机器是不够的; 为了恢复function，我们必须通过远程PDU重新上电。我们的调查显示，我们根本无法进入的机器实际上还活着; 这是一个networking问题，阻止我们访问他们。在post的底部是一个日志，我从一个“死”机器重新启动后拉。您所看到的是正常的DHCP活动，直到凌晨3:00左右才会发生，此时DHCPDISCOVER广播启动失败。当然，在这一点上，ssh隧道（使用autossh运行）开始失败。我原来的理论是，罪魁祸首是MAAS，因为我们使用的是DHCP服务器，而不是由Meraki路由器提供的。为了testing这个理论，我重新安装了MAAS，这次使用了Meraki的DHCP服务，而不是MAAS。两天之后，系统以标准方式失败，所以我认为我排除了MAAS（至less就DHCP而言）。我们队中的一些人有一个直觉，认为是NFS。这个理论就像NFS失败，然后一切都变得怪异。我们知道当NFS死亡时，客户机文件系统很难恢复，但不清楚这将如何影响networking。在这个问题上的任何帮助将是伟大的。就像我说的; […]

BSD监狱可用性在NFS服务器失败的情况下

我有一些BSD系统，我正在考虑将jail用于与系统其他部分隔离的进程。主机系统有一些NFS挂载，并且存在NFS服务器发生故障时，NFS客户端往往无响应的问题。只要没有安装受影响的path，监狱是否可以正常工作，或者如果主机安装的NFS服务器出现故障，那么监狱应该没有响应？

将Raid 5装载到Ganeti VM

我运行一个节点Ganeti服务器Supermicro MBD-X10SDV-6C + -TLN4F-O与英特尔至强D-1528和32 GB的RAM我有以下设置： OS Ubuntu 16.04.2 Raid 1中的2X 250GB固态硬盘 – >实例的操作系统和LVM的ext4分区 raid 5中的3X 1TB WD Red安装在/ data – > ext4 1X 2TB WD Red安装在/ Backup – > ext4 现在对于我的NextCloud，我想保持数据与实例磁盘分离，只需将Raid 5设备挂载到NextCloud实例以存储数据，以便随时replaceGaneti Instance，而不会丢失数据。其他实例（OpenVpn，dnsmaq，Radius等）不需要访问Raid设备，因此我将使用configurationpipe理。什么是最好的方式来实现这一点，是更好的只是将其挂载为NFS或可能将ext4转换为ZFS和NFS挂载？有没有其他的方法？先谢谢了

无法启动nfs服务器

我试图让nfs在Ubuntu 16.04.2 LTS上工作。我得到以下错误：我已经尝试重新安装nfs-common，nfs-kernel-server和其他软件包按照其他论坛提供的说明，并不能得到它的工作。由于这个原因，每次都通过dpkg安装失败。 May 17 11:32:44 ocrservernew systemd[1]: Mounting RPC Pipe File System… May 17 11:32:44 ocrservernew systemd[1]: Mounting NFSD configuration filesystem… May 17 11:32:44 ocrservernew mount[1962]: mount: unknown filesystem type 'rpc_pipefs' May 17 11:32:44 ocrservernew systemd[1]: run-rpc_pipefs.mount: Mount process exited, code=exi May 17 11:32:44 ocrservernew systemd[1]: Failed to mount RPC Pipe […]

当多台虚拟机在同一台主机上共享一台存储设备时，数据实际在哪里传输？

我试图找出在同一个盒子上与多个虚拟机共享存储的最佳方式。我知道一系列的select：NFS，iSCSI，光纤通道，桥接等，但我不清楚它们如何组合在一起或相互排斥。根据我目前阅读的内容，以下是一些我所理解为真实的陈述，但不是确定的陈述。如果有人能够肯定或纠正我的理解，那就太好了。目前我正在考虑使用Proxmox（KVM + ZFS），但是如果其他虚拟机pipe理程序在这些语句方面有重要的区别，请解释一下。对或错？：为了在同一主机上的虚拟机之间共享存储设备，我可以使用桥接networking来最大化速度。使用桥接networking，不使用物理networking硬件，而是CPU充当虚拟网卡，速度更快，因为系统总线的速度限制，而不是以太网/光纤通道等。由于上述原因，除了消除less量的CPU开销之外，使用像光纤通道这样的特殊function与虚拟机共享存储没有任何好处。使用fibrechannel卡可能会不必要地为虚拟机与托pipe存储的交互创build一个额外的步骤。 iSCSI vs NFS设置的速度和复杂性在虚拟机pipe理程序之间有很大差异，所以一旦我决定了一切，就应该做出这个select。

kubernetes和跨多个豆荚共享nfs卷

我想弄清楚如何使用k8s持续音量声明的单个nfs共享。例如，假设我configuration了一个nfs pv： apiVersion: v1 kind: PersistentVolume metadata: name: nfs-pv spec: capacity: storage: 10Gi accessModes: – ReadWriteMany persistentVolumeReclaimPolicy: Retain storageClassName: nfs-storage nfs: path: /var/nfs_exports server: 10.9.0.205 readOnly: false 是否有可能创build多个音量声明映射到此单个共享中的子目录？再举一个例子，假设我创build了以下数量的声明： apiVersion: v1 kind: PersistentVolumeClaim metadata: name: influx-data namespace: kube-system spec: storageClassName: nfs-storage accessModes: – ReadWriteMany resources: requests: storage: 5Gi — 和： apiVersion: v1 kind: PersistentVolumeClaim […]

无法通过NFS挂载根

我有一个NFS服务器连接到一个可重构的计算机（与BORPH系统）。我使用“run netboot”通过DHCP + TFTP + NFS启动minicom，我看到以下错误： Sending DHCP requests .<6>eth0: link is up, 100 FDX, pause enabled ., OK IP-Config: Got DHCP answer from 192.168.100.1, my address is 192.168.100.2 IP-Config: Complete: device=eth0, addr=192.168.100.2, mask=255.255.255.0, gw=192.168.100.1, host=roach030193, domain=, nis-domain=(none), bootserver=192.168.100.1, rootserver=192.168.100.1, rootpath=/srv/roachboot/etch Looking up port of RPC 100003/2 on 192.168.100.1 rpcbind: server 192.168.100.1 not responding, […]

如何共享一个zfs文件系统，包括通过nfs的子文件系统？尝试的方法未能共享子文件系统

如何通过nfs共享整个zpool（包括子文件系统）？使用belowzfs文件系统： NAME USED AVAIL REFER MOUNTPOINT backup 7.22T 6.83T 3.94T /backup backup/compressed 3.28T 6.83T 3.28T /backup/compressed 当使用nfs-kernel-server直接共享backup ，它的内容可以从nfs-clients获得。不幸的是，'压缩文件夹'（ backup/compressed ）显示，但它的内容不。如果使用sudo zfs set sharenfs=on backup/compressed或nfs-kernel-server sudo zfs set sharenfs=on backup/compressed共享sudo zfs set sharenfs=on backup/compressed ，则该文件夹仍然无法访问。我已经确认这两个文件系统已被共享： showmount -e Export list for node1: /backup/compressed * /backup * 如何使用nfs共享zfs文件系统及其子文件系统？更新： cat /proc/fs/nfsd/exports返回： # Version 1.1 […]

与多个NFS在同一台服务器上安装的木偶

我在同一台服务器上有几个NFS挂载点，但有不同的目录。例如： xxxx:/stats /data/stats xxxx:/scratch /data/scratch xxxx:/ops /data/ops 但是，当我尝试运行木偶，它添加以下到我的fstab。（错误的安装分配） xxxx:/scratch /data/stats nfs defaults,nodev,nosharecache 0 0 xxxx:/scratch /data/ops nfs defaults,nodev,nosharecache 0 0 xxxx:/scratch /data/scratch nfs defaults,nodev,nosharecache 0 0 它使用所有安装分区上的最后一个安装选项。所以我做了一些研究，发现了以下的错误。 https://tickets.puppetlabs.com/browse/DOCUMENT-242 然后添加nosharecache选项，但仍然没有运气。这是我的木偶代码 class profile::mounts::stats { # Hiera lookups $location = hiera('profile::mounts::stats::location') $location2 = hiera('profile::mounts::stats::location2') tag 'new_mount' file { '/data/stats': ensure => directory, owner => […]

nginx Web服务器使用元数据请求泛滥NFS

我有一个使用nginx服务器（EC2）和NFS驱动器来存储CMS文件（EFS）的简单AWS云。亚马逊有着名的信用，我在一个非常低的stream量云上没有信用。经过调查发现，EC2正在淹没EFS的元数据请求。我只是不知道如何以及为什么？所有文件共有8GB的NFS，他们都是PHP文件。静态文件被卸载到S3。 EC2和EFS之间的stream量大约是每秒1MB，但是元数据stream量是每秒5MB！这就是每分钟100-300MB的元数据stream量！在检查nfsstat并转储stream量后，发现有90％的stream量是GETATTR请求和响应。但观察EC2，处理器几乎睡着了，所以处理5MB每秒听起来超现实。不提1MB传输的5MB元数据。我想做更多的search，但我的知识和谷歌已经结束，所以不知道从这里。试图利用lsof和nsfstats，无法find世界上需要这么多的元数据。任何帮助将非常感激。编辑：如果你正在寻找一个解决scheme，因为这个或类似的原因用尽AWS EFS学分 – EFS学分是基于你正在采取的空间。该解决scheme（来自AWS支持团队）将创build虚拟文件以增加您的贷项余额。在我的情况下，通过命令添加50GB的“空”占用空间的技巧： dd if=/dev/zero of=/path/to/efs/dummyfile bs=1G count=10 以上将在EFS上创build10GB的“空”文件，这将增加您的信用

Intereting Posts

apt-get更新，更新脚本条件与弹性IP关联的EC2公有DNS名称是否稳定？ Outlook签名分发工具？ MySQLi扩展未激活 SQL Server数据库邮件在发送邮件时使用线程吗？如何使用虚拟化为SMB实现高可用性？在域上login用户图片你如何http-auth服务器上的所有网站？从HP SmartArray P600迁移RAID6arrays到LSI MegaRAID SAS 8888ELP 有2015年3月补丁星期二打破2003年份额？在Windows x32自定义映像中安装SNMP 在lvm上reiserfsck 我应该使用example.com和www.example.com的单一SSL证书吗？数据存储和networking性能问题在Red Hat上configuration邮件中继

Articles of nfs