服务器 Gind.cn

服务器问题集锦,包括 Linux(Ubuntu, Centos,Debian等)和Windows Server服务器

令人难以置信的快照删除

我有一个通过iSCSI公开的HP LeftHand存储的ESXi盒子。 我有一个1TB磁盘的虚拟机,其中800GB被消耗。 磁盘在LeftHand存储上configuration较厚。 在虚拟机上打开了一个快照(这样Veeam Backup and Recovery就可以完成),并且开放了大约6个小时。 在此期间创build了大约5GB的增量磁盘。 快照删除现在已经花费了5个多小时,而且还没有完成。 存储arrays几乎不报告该arrays上的IOPS(大约600,这是背景噪声),没有吞吐量(大约8MB /秒,这又是背景噪声),平均队列深度为9。 换句话说,快照合并过程似乎不是IO绑定,我看不到任何导致快照删除的速度太慢。 它正在工作,通过观看增量文件来判断。 还有什么我应该看看,为什么这个(相对较小)的快照是如此之慢被删除? 根据VMWare文档 ,我正在观看ls -lh | grep -E "delta|flat|sesparse" ls -lh | grep -E "delta|flat|sesparse"现在,我看到两个增量文件正在改变: -rw——- 1 root root 194.0M Jun 15 01:28 EXAMPLE-000001-delta.vmdk -rw——- 1 root root 274.0M Jun 15 01:27 EXAMPLE-000002-delta.vmdk 我推断一个快照文件正在合并,而另一个正在合并过程中收集三angular洲。 然后新的合并,在这个过程中创build另一个三angular洲。 随着每次迭代(以及大多数迭代),文件大小都在下降,所以我认为最终这个整合过程将会完成(也许我需要从虚拟机离开networking30分钟,让这个完成而不产生任何变化) 。 每百兆大约需要2分钟才能整合。 这从来没有发生过。 正常的Veeam备份下的快照移除需要大约40分钟(所以肯定不会很快,但不会太慢)。 6小时零2分钟后,快照终于被删除。 不过,我仍然想知道是否有任何方法可以排除这类问题(存储性能之外)。

什么是一个简单的Ansible剧本对〜100主机的合理性能?

我们开始看Ansible来replace旧的cfengine2安装。 我有一个简单的手册: 复制一个sudoers文件 复制模板化的resolv.conf(由group_vars和host_vars数据提供) 检查一些服务正在运行 检查本地用户的存在 剧本需要花费4分钟的挂钟时间才能运行在97台机器上(全部通过快速1gig或10gignetworking连接,局域网延迟低于1ms),并且占用2核4G内存虚拟机超过50%的CPU运行它。 在一台机器上运行需要大约11秒钟的时间,耗费大约4秒的用户+系统CPU时间,这对于所涉及的工作量而言,TBH仍然有点过分。 显而易见的一点: 我已经在playbook-dir local ansible.cfg中显式启用了pipe道 我有事实cachingjsonfile启用,相同的本地ansible.cfg 我有叉子设置为50,相同(我尝试了其他值) 我确信Ansible使用的不是Paramiko,而是使用持久控制套接字 – 我可以看到SSH进程在运行期间被启动并持续存在。 这种性能水平是正常的还是我的设置有问题? 如果可以的话,我怎么去决定呢? 编辑:截至2017年8月,我们仍然看到这个问题。 Ansible版本是2.2.1,剧本的大小已经增长了。 最新的数字: 98个主机 无论如何,4.6s真实,3.2s用户,2.5s系统时间 一个完整的剧本运行需要4分钟,使用100%的用户和〜35%的系统CPU(2核心虚拟机部署服务器,100%是一个完整的CPU) 目标操作系统主要是CentOS 7,一些CentOS 6 分析不会显示任何特定的任务热点AFAICT 尽pipe现在剧本已经大了很多,但我仍然认为没有什么可以certificatePlaybook服务器上的CPU负载水平 – wallclock时间,但是部署服务器在大部分运行时应该大部分闲置,据我所知,它主要是文件副本和一些模板扩展。 请注意,我们正在对主机/群组进行相当广泛的使用 有几个人询问了关于性能分析的尾部分析: Tuesday 01 August 2017 16:02:24 +0100 (0:00:00.539) 0:06:22.991 ******** =============================================================================== yumrepo : centos repos ————————————————– 9.77s sshd : copy CentOS 6 […]

大型系统(约2000用户)的stream量控制的最佳解决scheme是什么?

以下情况:我们是一个为当地居民大厅pipe理互联网连接的学生,总共有大约2000名terminal用户。 我们有一个交通点系统,每个MB下载或上传成本点,新的点加小时。 目前,我们阻止用户的互联网访问,当他把所有的点(通过在我们的Debian网关路由器上的iptables中的放弃他的REJECT政策)。 我们只想限制用户的带宽。 什么是最好的方法来做到这一点? 简单的答案是设置用户的交换机端口(主要是Cisco Catalyst 3550s)的速率限制。 然而,这是不可取的,因为我们自己的networking和大学networking内的stream量应该是无限的。 是否有一种方法可以限制仅在具有特定目的地或源IP范围的数据包(在出口和入口都在Cisco IOS中)的带宽? 我找不到任何东西。 另一种方法是控制网关路由器上的stream量。 我想到了几个解决scheme: tc或tcng – 似乎都有一个相当神秘的语法,既不提供执行每IPstream量控制的好function。 对于这么多人来说,专用的QDisc可能会让路由器变慢。 而且,两者的文档都相当过时。 shorewall – 似乎有一个相当整齐的configuration语法,但是,我不确定它是否可以处理这个数量的stream量和用户,是否适合每个IPstream量限制 pfSense – 看起来像一个旨在用于我们的目的的操作系统。 但是,这将需要我们重新安装我们的网关路由器。 我们没有其他的BSD系统,pfSense需要非常好的stream量统计function(我们目前在那里使用fprobe-ulog和ulog-acctd)。 你有什么经验? 哪种解决scheme适合我们的需求,最容易维护? 你有其他想法吗? 如果您需要关于我们的系统的任何其他信息,请不要犹豫,问。 提前致谢。 编辑 :我用iptables和tc实现了系统。 每个用户都有一个/ 28个子网,一个VPN IP(来自10.0.0.0/8)和一个外部IP,全部通过一个iptables链来操纵。 这条链只有一个规则,一个简单的RETURN 。 每5分钟一个Python脚本读出这些规则的字节计数器。 它重置计数器并更新PostgreSQL数据库中用户的stream量点账户。 如果用户的点余额减less到某个阈值以下,则为该用户创build两个tc类(一个用于input,一个用于网关路由器上的输出接口),IP被input到属于这些类的tcfilter中。 这些课程由HTB限制速度。 与之前使用fprobe-ulog和ulog-acctd系统相比,字节计数由iptables完成的速度要快得多。 networking速度已经为我们的用户大大改善。