Articles of linux

服务器随机变成无响应

我一直有一个零星的问题,似乎随机发生在我们的Ubuntu服务器之一。 服务器将随机决定停止响应除了ping请求之外的所有服务(SSH,HTTP等)上的连接。 它仍然会响应ping,但是其他的东西都会死的。 获得系统备份的唯一方法是让数据中心执行硬重启。 我一直在试图调查这个问题将近一年,但是我一直无法弄清楚是什么导致了这种行为。 我安装了一系列监控实用程序(包括Monit),并将其设置为在CPU使用率,内存使用率或交换空间使用率超过特定阈值的情况下向我发送警报。 我还写了一个脚本来发送当前正在运行的进程列表,如果满足这些阈值的任何一个。 不幸的是,无论是什么原因导致服务器无响应速度如此之快,以至于监控工具甚至没有机会发送警报电子邮件(这或者问题的原因与cpu无关或者内存使用情况)。 我的一位朋友build议编写一个简单的bash脚本来获取ps auxf的输出,并且每5分钟将其写入一个日志文件,所以我设置了一个并放在crontab上。 今天早上我醒了,发现服务器再次没有响应,于是我联系了数据中心,让他们再次进行硬盘重启。 然后我login到服务器,查看ps auxf快照的日志文件。 在日志文件中,最后logging的快照是在午夜,并且在服务器重新启动之间没有写入更多的快照,表明服务器在午夜的某个时候没有响应,导致进程日志脚本无法运行。 上一个快照没有包含任何指示为什么会发生的进程列表。 上次快照中没有使用大量cpu时间或内存的进程。 我做了一些谷歌search,看到其他人在这里发布了相同的问题。 其中一个这样的post包含的答案build议你检查/ var / log / messages,但不幸的是在这个服务器上/ var / log / messages自2011年以来还没有写过(我不知道为什么,其他人有权访问这个服务器,可能已经改变了日志path)。 我的猜测是某种内核恐慌正在发生,导致服务器上的所有服务停止工作,但我不知道是什么导致了内核恐慌,或者甚至是实际发生了什么。 有没有人有任何想法可能造成这种情况? 这对我来说是一个非常头痛的问题,我花了几乎一年的时间来试图解决这个问题。 谢谢!

在Amazon S3中实时备份日志的最佳方式是什么?

我想实时备份所有在Amazon S3中的日志,我应该使用哪个工具?

debugging冻结的Gnu屏幕会话?

我们一直在使用我们的跳转盒上的GNU屏幕,让ssh会话在我们专用networking内的多个主机上开放。 每个主机一个窗口。 最近,我们已经build立了一个新的环境,并经常出现屏幕挂起。 大多数情况下,当很多terminal输出被假脱机到屏幕上时(例如抓取文件),屏幕变得无法响应。 terminal停止更新中间命令,我不能切换到任何其他屏幕窗口。 我可以再次login到跳转框中,然后做一个屏幕-dr,它就像什么都不是。 我们使用的.screenrc是: bindkey -k k2 screen bindkey -k k3 prev bindkey -k k4 next bindkey -k k7 copy bindkey -k k8 title bindkey -k k9 windows startup_message off hardstatus alwayslastline hardstatus string "%-w%{= BW}%50>%n %t%{-}%+w%<" nonblock on 虽然屏幕会议像这样冻结,你能build议我应该看看究竟是什么原因,因为我相当难倒? 这是在debian wheezy下,screen = 4.1.0〜20120320gitdb59704-7,这些都是EC2实例,以防相关。

Windows Azure上的Centos 7,挂载/ dev / sdb? (systemd)

我需要找出在Windows Azure上安装了哪些systemd服务/dev/sdb (aka /mnt/resource )? 我正在使用Centos 7映像,它是基于systemd的,我试图启动一个依赖于/mnt/resource已经安装的服务。 尝试使用谷歌search,但没有太多的运气呢。

Debian / Apache2服务器阻止我的IP

有一个Debian 6 LAMP服务器,从一个星期左右,我有一个随机发生的问题。 我不时从一个特定的位置(IP)访问一个特定的域。 我们的来自其他地点的雇员也可以访问https WWW页面,没有任何问题。 问题是只有一个WWW页面。 这台服务器上的邮件服务器,FTP服务器,SSH和其他WWW页面在我的位置工作正常(在这个WWW页面出现问题的时候)。 当问题发生时,浏览器(任何浏览器)显示错误: 找不到服务器 Firefox在kotly.com.pl找不到服务器。 检查input错误的地址,如ww.example.com而不是www.example.com 如果您无法加载任何页面,请检查您计算机的networking连接。 如果您的计算机或networking受防火墙或代理保护,请确保允许Firefox开发人员版访问Web。 我以为DDos-Deflect脚本有问题,因为在这个位置(IP)我们有IP摄像头,它使用mJpeg来显示视图,如果有几个人input它可能因为对服务器的请求数而被阻塞,也有人检查邮件,并有Debian服务器和我们的Windows服务器之间的沟通,所以连接形成一个来源是很多,但我已经打开DDos – 偏转脚本,也没有任何改变,如果它是DDos – 偏转脚本它会阻止所有服务器我的位置(IP)。 当问题发生时,我也不能ping或tracert域,但没有任何问题,我可以做到这一点的服务器IP。 它看起来像一个DNS问题,但我不知道可能是什么问题。 症状就像域名更改的DNS传播一样。

与许多用户和虚拟主机的Logrotate通配符

我正在托pipe多个Apache虚拟主机,具有相似的结构: – /var/www/ – domain – documentroot – logs 我已经修改了logrotate.d/apache2规则 /var/log/apache2/*.log /var/www/*/logs/*.log { … rule details … } 现在的问题,logrotate不允许我轮stream的文件夹,因为他们是由用户和组拥有根据虚拟主机(组通常有多个用户,一个用户等于一个虚拟主机) 错误讯息是 错误:跳过“/var/www/default/logs/access.log”,因为父目录具有不安全的权限(它是世界上可写或不是“root”的组可写)在configuration文件中设置“su”指令告诉logrotate哪用户/组应该用于旋转。 我如何configurationlogrotate从父文件夹使用用户和组? VirtualHosts在MPM-ITK模块下运行,以分离基础apache / php-cgi进程的权限。 是否可以避免分别为每个虚拟主机创buildconfiguration规则?

我怎样才能在Linux命令行上返回一个特定的退出码?

我有一个程序来控制一个远程机器上运行ssh的长时间运行的进程。 通常情况下,我会在这个过程中断开连接,所以我改变了这样的调用: my-long-cmd 至 my-long-cmd; echo $? > /tmp/my.cmd.status 这工作; 该进程本身启动了一些subprocess等,所以即使连接中断,它仍然继续运行,我的脚本可以定期重新连接到机器,并检查文件是否存在(从而机器已完成configuration),如果是的话,看看它是否成功退出。 但是,这也意味着如果我没有断开连接,我将永远只能看到通过SSH库echo命令的退出状态。 我试图做一些像echo $? && return $? echo $? && return $? 但return只能在脚本中使用。 是否有捷径可寻?

dict_pcre.so在debian上丢失

我像往常一样安装了postfix,使用apt-get install postfix ,但由于某些原因,在安装中不包括dict_pcre.so 。 有什么我忽略了,或者更确切地说,我怎样才能得到这个丢失的包与我的后缀安装? # cat /proc/version Linux version 3.2.0-4-amd64 ([email protected]) (gcc version 4.6.3 (Debian 4.6.3-14) ) #1 SMP Debian 3.2.63-2+deb7u1 # postconf -m btree cidr environ fail hash internal memcache nis proxy regexp sdbm sqlite static tcp texthash unix

如何防止Avahi将-2添加到主机名

通常(也许80%的时间),当我重启运行Avahi的机器时,它开始使用machinename-2.local作为主机名。 我networking上的所有机器都有唯一的主机名,所以没有冲突。 如何防止Avahi将-2添加到主机名? (这对于Google来说是非常困难的事情…)

NFS共享问题 – RPC:片段太大:xxxxx

我们有一个由其他服务器写入的NFS共享的虚拟服务器。 今天,NFS共享变得无法访问。 系统日志充满了这样的消息: RPC: fragment too large: 311176 我在google上search过,但是找不到关于这方面的很多信息。 有人可以解释这是什么意思?