Articles of 故障排除

如何调查由nagios3报告的关键服务器负载?

我的Ubuntu服务器上运行的Nagios3偶尔会向我发送类似以下内容的电子邮件报告: Notification Type: PROBLEM Service: Current Load Host: localhost Address: 127.0.0.1 State: CRITICAL Date/Time: Mon May 22 00:14:54 CEST 2017 Additional Info: **CRITICAL – load average: 3.57, 21.36, 15.40** (通常我会收到三封电子邮件,警告,关键,恢复,每天两次,正常工作时间) 我该如何调查哪个服务导致这个问题,以及如何跟踪什么时候发生了什么? (我怀疑一些Apache运行的网站,哪一个?实际上是哪个url?)

部分连接到1台交换机的局域网会定期冻结

我正在pipe理一个分布在两座build筑物上的办公室networking。 (请参阅下面的networking设置) 在2号楼,我们遇到了一个networking变慢,然后完全中断的问题。 将其重新启动的唯一方法是重启交换机,然后再重新启动,进入GUI仪表板,并从仪表板重新启动它。 这个问题已经发生了4次(而且越来越频繁)。 第一次发生在两周前,昨天又发生了两次,今天又发生两次。 我试图找出可能导致它的原因。 我相信我已经缩小了交换机,因为build筑2中唯一的networking设备是交换机和WiFi接入点。 当交换机closures时,WiFi接入点仍在运行。 当楼2停机时,如果我去楼1,我仍然可以连接到networking。 任何想法可能会导致上述? 我的两个猜测是: networking风暴 – 但这将是一个奇怪的,因为我们最近没有添加显着的新设备到networking。 那么为什么突然之间呢,再加上为什么每次重置都会变得更糟呢? 故障开关(需要在保修期内更换) networkingconfiguration如下: 1号楼 Draytek 2860路由器(连接到光纤调制解调器) Netgear 24千兆端口智能交换机 Ubiquity UAP wifi接入点(主要用于手机/平板电脑..低stream量) 4台有线局域网的计算机(使用较多,因为我们都使用局域网同步模式下的Dropbox来处理繁重的文件) 打印机和其他设备 所有布线cat6 2号楼(通过CAT6连接到1号楼30米长的电缆) Netgear 48千兆端口智能交换机(Netgear GS748T) Ubiquity UAP wifi接入点(主要由2台笔记本电脑使用,build设1的使用率更高,再次使用Dropbox LAN同步的大部分stream量)。

诊断性能差的好工具和方法

我的公司正在开发一个基于networking的数据查看器应用程序,需要相当大量的带宽才能正常运行。 不过最近我们改变了很多东西。 例如,我们更改了内部networking基础设施,以便数据可以托pipe在通过千兆以太网连接的单独机器上。 最重要的是,应用程序本身不断推出新版本,因为我们仍在进行alpha和betatesting。 最近我们做了一些导致性能较差的改变,我们希望在我们开始把事情分开之前,尝试找出问题所在。 这是一个非常小的networking,作为一个ITpipe理员,我的经验有限。 关于从哪里开始,我有一些想法,但是我想先从专家那里获得一些小小的智慧:你如何解决/避免类似的问题? 什么是您使用的最有用的(Windows)工具?

DHeapmon不报告IIS6中预计的桌面总数

希望有人能帮助我理解这一点。 我试图debugging我们在生产环境中看到的一些COM +错误,其中一些报告说桌面堆已经耗尽,所以在阅读了最终的Desktop Heap指南之后,我为初学者安装了Windowsdebugging工具和DHeapmon: http:// blogs.msdn.com/b/ntdebugging/archive/2007/01/04/desktop-heap-overview.aspx 基本上,据我所知 – 每个IIS工作进程(w3wp.exe)应该分配一个(非交互式)桌面堆; 默认为512k。 我们在生产环境中有30多个站点,当我运行DHeapmon来报告桌面数量时,它不仅没有像我预期的那样报告30多个桌面(每个进程1个,然后是实际的Windows交互式桌面服务器) – 它报告单个数字的台式机。 我证实我们不共享应用程序池或桌面,所以我应该看到每个进程的桌面,对吧? 有一件事我有一个问题 – 如果一个IIS工作进程是IDLE,它应该被杀死 – 默认是20分钟,我相信。 然而,我访问了一个空闲的网站,它确实为该网站产生了一个新的w3wp.exe,然后再次运行DHeapmon,并且它仍然报告相同数量的桌面。 我错过了什么? 有没有更好的方式来获取我以后的信息? 任何帮助表示赞赏!

应用程序只在早上变得非常缓慢:跟踪罪魁祸首的工具?

我有两个Ubuntu服务器:一个充当数据库服务器(MySQL)和文件服务器和应用程序服务器。 使用这三个服务,应用程序已经完美地运行了好几个月。 现在我们已经发现,每天早上7:45左右真的会变慢。 一小时之后,一切都变得快速而且可用,无需人工干预。 我正在追查这个问题 有没有什么工具来监视和loggingCPU,RAM,磁盘,networking使用? 我应该如何快速find问题?

仅在某些机器上通过局域网连接到共享.mdb文件的速度较慢

每个大约10台计算机上的一个客户端程序在Windows 7机器上共享一个.mdb文件。 networking是有线的,并有一个开关。 由于没有明显的原因,这两台计算机的连接如用户对客户端程序的体验所certificate的那样变得非常缓慢。 两台电脑同时出现问题。 所有其他电脑的性能不受影响。 在有问题的计算机上,可以使用Windows资源pipe理器导航到存储数据库的文件夹,而不会有任何不适当的延迟。 唯一的杀毒软件似乎是Windows防御者。 交换机上的不同端口已被使用,没有任何改进。 对于可能的原因,我会非常感激的 发现原因后编辑。 对不起浪费人们的时间。 持有该文件的共享文件夹上的CPU和内存正在被吞并,另一个精神恍惚的程序正在创build大量的进程。 杀掉这些解决了问题

Windows Server 2008 R2疑难解答PID泄漏

我们的其中一台服务器疯狂地泄漏PID。 我写了一个简单的预定脚本,似乎每天的最高PID增加了约。 300'000 。 例如,如果在8月24日00:00,最高PID是50'796,8月25日00:00最高PID是345'899,8月26日00:00最高PID是655'241,所以上。 如果服务器保持一周以上,有时在10〜12天,服务器将挂起,我们不能再通过RDP访问服务器。 在这种情况下,我们将不得不重启服务器,因为它只是拒绝确认任何远程命令。 所以,我已经写了一个简单的脚本,以确保服务器的有序closures和重新启动; 每个星期二的凌晨2点,脚本会触发并重新启动系统。 现在我们不再经历系统locking,但是根本原因当然不是固定的。 你推荐哪些工具来解决这个问题? 更多信息:服务器最初运行没有物理问题。 然后,它使用P2V操作迁移到区域数据中心,现在运行在VMware之上。 其中的“重量级”应用程序将是Microsoft SQL Server 2008 Enterprise。

Apache在运行request-tracker4的时候占用了大量的CPU

我正在尝试EC2微型实例上的请求跟踪器安装。 微型实例的规格如下 1)Ubuntu 12.04 64bit,613MB RAM,8GB硬盘 2)从版本库perl 5.14.2,Apache2,MySQL5运行request-tracker 4.0.4 3)请求跟踪器4.0.4运行mod_perl2和工人MPM 4)使用Worker MPMconfiguration的Apache。 下面给出的configuration片段 Timeout 150 KeepAlive On MaxKeepAliveRequests 60 KeepAliveTimeout 2 <IfModule mpm_worker_module> StartServers 2 MinSpareThreads 25 MaxSpareThreads 75 ThreadLimit 64 ThreadsPerChild 25 MaxClients 150 MaxRequestsPerChild 0 </IfModule> 现在,当我启动Apache2时,它可以正常工作一段时间,过了一会儿,CPU负载就会高达99%甚至更多。 通常这是一个或多个Apache进程。 我已经尝试了修改工人模块configuration没有任何运气。 Apache2和request-tracker4的日志文件都被设置为日志debugging消息,并且不显示任何内容来指示可能导致这种情况的原因。 系统在任何给定的时间最多可以接收5个用户,通常(90%的时间)只有2个。我刚安装了它,我们在数据库中只有20张票。 我不认为它的内存是由于服务器不交换或甚至接近它导致的问题,我很难看到内存使用量上升。 将不胜感激关于如何去解决这个问题的任何指针。 如果有帮助,我也尝试了一个类似的安装在一个小实例(相同的设置,除了内存碰撞高达1.7GB),我仍然看到这个问题。

思科ASA:可怕的networking速度一天一次或两次,否则罚款

我一直在尝试深究这一点,好吧,好像我不能。 我们在一个数据中心有一台ASA5505(软件版本为8.3)的服务器。 他们运行各种各样的服务,包括我们的网站,内部XMPP服务器,游戏服务器(Minecraft和军团要塞2,大部分都使用UDP),邮件… 每天大概在太平洋时间PST附近,防火墙的系统负载从通常的30%上升到80%以上,networking速度变得非常糟糕。 根据show processes cpu-hog ,“Quack进程”(什么鸭子?!),尤其是“Dispatch Unit”,好像占用CPU一点点。 networking坏了似乎有一种模式。 大约2秒钟全速,然后减速到2停止。 在此期间,我启用了日志loggingfunction,没有什么有趣的事情出现。 只是一些阻塞的ICMP请求,有点奇怪, Deny IP due to Land Attack from [one of our IPs] to [the exact same IP] ,但这可能是一个实际的攻击? 无论如何,从两台服务器到防火墙本身,速度都是很糟糕的,尽pipe两台服务器之间的ping通总是很好,但这使得我负担过重。 我不确定networking是如何build立起来的,所以防火墙和服务器之间可能只有一个小小的转换。 另一个奇怪的事情,但是,这也许是正常的(找不到任何关于它的),在show threat-detection statistics我们的服务器/虚拟机的内部IP首先出现,一些实际上有大于0的数字fw-drop 。 下次出现这个问题时,我该怎么办? 任何想法可能会导致这个? 我应该禁用限制政策地图(见下文)? 编辑:从防火墙ping服务器也将显示这些症状。 这里有更多的系统信息: access-list cached ACL log flows: total 0, denied 0 (deny-flow-max 4096) alert-interval 300 access-list […]

如何防止Windows Server 2008 R2自动closures应用程序?

我一直在通过VPN连接和远程桌面在Windows 2008 R2 AMD64 SP1虚拟服务器共享上运行各种进程。 最近我一直注意到,当我早上回来的时候,我昨天晚上开始的stream程被停止了,申请被closures了(我是唯一使用这个份额的人)。 有时处理会按预期完成,其他时间会在中途切断 – 可能在应用程序遇到错误并处于空闲状态之后。 我主要通过IDLE或PythonWin使用ArcGIS 10.2和Python地理处理脚本。 我试图在本地组策略编辑器中调查会话时间限制,但没有成功(请参阅附加的屏幕截图)。 我正在按照这个博客的指示。 看来,所有的设置都是默认的,不应该在应用程序上施加时间限制。 有没有办法确保程序不会自动closures(即使发生错误),或者至lessfind一种方法来跟踪程序或操作被closures的原因?