故障排除服务器 Gind.cn

如何调查由nagios3报告的关键服务器负载？

我的Ubuntu服务器上运行的Nagios3偶尔会向我发送类似以下内容的电子邮件报告： Notification Type: PROBLEM Service: Current Load Host: localhost Address: 127.0.0.1 State: CRITICAL Date/Time: Mon May 22 00:14:54 CEST 2017 Additional Info: **CRITICAL – load average: 3.57, 21.36, 15.40** （通常我会收到三封电子邮件，警告，关键，恢复，每天两次，正常工作时间）我该如何调查哪个服务导致这个问题，以及如何跟踪什么时候发生了什么？（我怀疑一些Apache运行的网站，哪一个？实际上是哪个url？）

部分连接到1台交换机的局域网会定期冻结

我正在pipe理一个分布在两座build筑物上的办公室networking。（请参阅下面的networking设置）在2号楼，我们遇到了一个networking变慢，然后完全中断的问题。将其重新启动的唯一方法是重启交换机，然后再重新启动，进入GUI仪表板，并从仪表板重新启动它。这个问题已经发生了4次（而且越来越频繁）。第一次发生在两周前，昨天又发生了两次，今天又发生两次。我试图找出可能导致它的原因。我相信我已经缩小了交换机，因为build筑2中唯一的networking设备是交换机和WiFi接入点。当交换机closures时，WiFi接入点仍在运行。当楼2停机时，如果我去楼1，我仍然可以连接到networking。任何想法可能会导致上述？我的两个猜测是： networking风暴 – 但这将是一个奇怪的，因为我们最近没有添加显着的新设备到networking。那么为什么突然之间呢，再加上为什么每次重置都会变得更糟呢？故障开关（需要在保修期内更换） networkingconfiguration如下： 1号楼 Draytek 2860路由器（连接到光纤调制解调器） Netgear 24千兆端口智能交换机 Ubiquity UAP wifi接入点（主要用于手机/平板电脑..低stream量） 4台有线局域网的计算机（使用较多，因为我们都使用局域网同步模式下的Dropbox来处理繁重的文件）打印机和其他设备所有布线cat6 2号楼（通过CAT6连接到1号楼30米长的电缆） Netgear 48千兆端口智能交换机（Netgear GS748T） Ubiquity UAP wifi接入点（主要由2台笔记本电脑使用，build设1的使用率更高，再次使用Dropbox LAN同步的大部分stream量）。

诊断性能差的好工具和方法

我的公司正在开发一个基于networking的数据查看器应用程序，需要相当大量的带宽才能正常运行。不过最近我们改变了很多东西。例如，我们更改了内部networking基础设施，以便数据可以托pipe在通过千兆以太网连接的单独机器上。最重要的是，应用程序本身不断推出新版本，因为我们仍在进行alpha和betatesting。最近我们做了一些导致性能较差的改变，我们希望在我们开始把事情分开之前，尝试找出问题所在。这是一个非常小的networking，作为一个ITpipe理员，我的经验有限。关于从哪里开始，我有一些想法，但是我想先从专家那里获得一些小小的智慧：你如何解决/避免类似的问题？什么是您使用的最有用的（Windows）工具？

DHeapmon不报告IIS6中预计的桌面总数

希望有人能帮助我理解这一点。我试图debugging我们在生产环境中看到的一些COM +错误，其中一些报告说桌面堆已经耗尽，所以在阅读了最终的Desktop Heap指南之后，我为初学者安装了Windowsdebugging工具和DHeapmon： http：// blogs.msdn.com/b/ntdebugging/archive/2007/01/04/desktop-heap-overview.aspx 基本上，据我所知 – 每个IIS工作进程（w3wp.exe）应该分配一个（非交互式）桌面堆; 默认为512k。我们在生产环境中有30多个站点，当我运行DHeapmon来报告桌面数量时，它不仅没有像我预期的那样报告30多个桌面（每个进程1个，然后是实际的Windows交互式桌面服务器） – 它报告单个数字的台式机。我证实我们不共享应用程序池或桌面，所以我应该看到每个进程的桌面，对吧？有一件事我有一个问题 – 如果一个IIS工作进程是IDLE，它应该被杀死 – 默认是20分钟，我相信。然而，我访问了一个空闲的网站，它确实为该网站产生了一个新的w3wp.exe，然后再次运行DHeapmon，并且它仍然报告相同数量的桌面。我错过了什么？有没有更好的方式来获取我以后的信息？任何帮助表示赞赏！

应用程序只在早上变得非常缓慢：跟踪罪魁祸首的工具？

我有两个Ubuntu服务器：一个充当数据库服务器（MySQL）和文件服务器和应用程序服务器。使用这三个服务，应用程序已经完美地运行了好几个月。现在我们已经发现，每天早上7:45左右真的会变慢。一小时之后，一切都变得快速而且可用，无需人工干预。我正在追查这个问题有没有什么工具来监视和loggingCPU，RAM，磁盘，networking使用？我应该如何快速find问题？

仅在某些机器上通过局域网连接到共享.mdb文件的速度较慢

每个大约10台计算机上的一个客户端程序在Windows 7机器上共享一个.mdb文件。 networking是有线的，并有一个开关。由于没有明显的原因，这两台计算机的连接如用户对客户端程序的体验所certificate的那样变得非常缓慢。两台电脑同时出现问题。所有其他电脑的性能不受影响。在有问题的计算机上，可以使用Windows资源pipe理器导航到存储数据库的文件夹，而不会有任何不适当的延迟。唯一的杀毒软件似乎是Windows防御者。交换机上的不同端口已被使用，没有任何改进。对于可能的原因，我会非常感激的发现原因后编辑。对不起浪费人们的时间。持有该文件的共享文件夹上的CPU和内存正在被吞并，另一个精神恍惚的程序正在创build大量的进程。杀掉这些解决了问题

Windows Server 2008 R2疑难解答PID泄漏

我们的其中一台服务器疯狂地泄漏PID。我写了一个简单的预定脚本，似乎每天的最高PID增加了约。 300'000 。例如，如果在8月24日00:00，最高PID是50'796，8月25日00:00最高PID是345'899，8月26日00:00最高PID是655'241，所以上。如果服务器保持一周以上，有时在10〜12天，服务器将挂起，我们不能再通过RDP访问服务器。在这种情况下，我们将不得不重启服务器，因为它只是拒绝确认任何远程命令。所以，我已经写了一个简单的脚本，以确保服务器的有序closures和重新启动; 每个星期二的凌晨2点，脚本会触发并重新启动系统。现在我们不再经历系统locking，但是根本原因当然不是固定的。你推荐哪些工具来解决这个问题？更多信息：服务器最初运行没有物理问题。然后，它使用P2V操作迁移到区域数据中心，现在运行在VMware之上。其中的“重量级”应用程序将是Microsoft SQL Server 2008 Enterprise。

Apache在运行request-tracker4的时候占用了大量的CPU

我正在尝试EC2微型实例上的请求跟踪器安装。微型实例的规格如下 1）Ubuntu 12.04 64bit，613MB RAM，8GB硬盘 2）从版本库perl 5.14.2，Apache2，MySQL5运行request-tracker 4.0.4 3）请求跟踪器4.0.4运行mod_perl2和工人MPM 4）使用Worker MPMconfiguration的Apache。下面给出的configuration片段 Timeout 150 KeepAlive On MaxKeepAliveRequests 60 KeepAliveTimeout 2 <IfModule mpm_worker_module> StartServers 2 MinSpareThreads 25 MaxSpareThreads 75 ThreadLimit 64 ThreadsPerChild 25 MaxClients 150 MaxRequestsPerChild 0 </IfModule> 现在，当我启动Apache2时，它可以正常工作一段时间，过了一会儿，CPU负载就会高达99％甚至更多。通常这是一个或多个Apache进程。我已经尝试了修改工人模块configuration没有任何运气。 Apache2和request-tracker4的日志文件都被设置为日志debugging消息，并且不显示任何内容来指示可能导致这种情况的原因。系统在任何给定的时间最多可以接收5个用户，通常（90％的时间）只有2个。我刚安装了它，我们在数据库中只有20张票。我不认为它的内存是由于服务器不交换或甚至接近它导致的问题，我很难看到内存使用量上升。将不胜感激关于如何去解决这个问题的任何指针。如果有帮助，我也尝试了一个类似的安装在一个小实例（相同的设置，除了内存碰撞高达1.7GB），我仍然看到这个问题。

思科ASA：可怕的networking速度一天一次或两次，否则罚款

我一直在尝试深究这一点，好吧，好像我不能。我们在一个数据中心有一台ASA5505（软件版本为8.3）的服务器。他们运行各种各样的服务，包括我们的网站，内部XMPP服务器，游戏服务器（Minecraft和军团要塞2，大部分都使用UDP），邮件… 每天大概在太平洋时间PST附近，防火墙的系统负载从通常的30％上升到80％以上，networking速度变得非常糟糕。根据show processes cpu-hog ，“Quack进程”（什么鸭子？！），尤其是“Dispatch Unit”，好像占用CPU一点点。 networking坏了似乎有一种模式。大约2秒钟全速，然后减速到2停止。在此期间，我启用了日志loggingfunction，没有什么有趣的事情出现。只是一些阻塞的ICMP请求，有点奇怪， Deny IP due to Land Attack from [one of our IPs] to [the exact same IP] ，但这可能是一个实际的攻击？无论如何，从两台服务器到防火墙本身，速度都是很糟糕的，尽pipe两台服务器之间的ping通总是很好，但这使得我负担过重。我不确定networking是如何build立起来的，所以防火墙和服务器之间可能只有一个小小的转换。另一个奇怪的事情，但是，这也许是正常的（找不到任何关于它的），在show threat-detection statistics我们的服务器/虚拟机的内部IP首先出现，一些实际上有大于0的数字fw-drop 。下次出现这个问题时，我该怎么办？任何想法可能会导致这个？我应该禁用限制政策地图（见下文）？编辑：从防火墙ping服务器也将显示这些症状。这里有更多的系统信息： access-list cached ACL log flows: total 0, denied 0 (deny-flow-max 4096) alert-interval 300 access-list […]

如何防止Windows Server 2008 R2自动closures应用程序？

我一直在通过VPN连接和远程桌面在Windows 2008 R2 AMD64 SP1虚拟服务器共享上运行各种进程。最近我一直注意到，当我早上回来的时候，我昨天晚上开始的stream程被停止了，申请被closures了（我是唯一使用这个份额的人）。有时处理会按预期完成，其他时间会在中途切断 – 可能在应用程序遇到错误并处于空闲状态之后。我主要通过IDLE或PythonWin使用ArcGIS 10.2和Python地理处理脚本。我试图在本地组策略编辑器中调查会话时间限制，但没有成功（请参阅附加的屏幕截图）。我正在按照这个博客的指示。看来，所有的设置都是默认的，不应该在应用程序上施加时间限制。有没有办法确保程序不会自动closures（即使发生错误），或者至lessfind一种方法来跟踪程序或操作被closures的原因？

Intereting Posts

我有一个NTFS分区，现在分区的大小似乎是错误的。有没有简单的方法来解决这个问题？将.cmd文件转换为Windows Service – 1053错误是否有可能将DNS指向2个服务器，一个在Digitalocean另一个在Linode？ Strongswan有连接，但没有隧道将文件添加到/etc/cron.d不会使其运行（Ubuntu 10.04）从用于安装AD LDS的已删除帐户中恢复如何从Windows Server 2012 R2中踢出用户 IIS网站标识和ServerBindings有什么区别？奇怪的DNS DOS攻击 – 对<空白域>的无尽recursion查询发生这个SPF问题在哪里？如何在Centos 6上安装Foreman？从DHCP / DNS自动命名XP节点如何在WHM cPanel上安装/启用ftpcopy binary和mysqldump二进制文件下载的PHP文件，而不是用nginx的try_files执行将两个sas卡合并成一个

Articles of 故障排除