在这个问题上一个星期之后,我就把这个问题敲了出来,以此来伸出援助之手。 我们有大约100个使用带有J1900赛扬处理器的AAEON PICO-ITX BT01主板的相同系统。 每个系统都运行在Debian Jessie上,内核为3.16.0-0-686。 每个系统都以相同的方式使用相同的clonezilla映像进行映像。 我们正在经历一种间歇性的失败模式,其体现在三种方式之一(尽pipe我相信所有三种方式都是相同的根本原因) 1)在BIOS飞溅的最后,它冻结,不会恢复。 虽然它显示错误代码99,但是这个代码总是显示在内核启动之前的瞬间,所以我的感觉是这个BIOS代码不是诊断的(这只是屏幕上的最后一件事)。 禁用BIOS的飞溅显示没有用,只是BIOS版本和错误代码。 View post on imgur.com 2)在内核启动的最初阶段,它报告CPU核心不能被唤醒。 系统然后挂起并且不恢复。 View post on imgur.com 3)BIOS飞溅后立即屏幕输出停止,系统挂起,不恢复。 这不会发生在每个主板上,尽pipe它们都来自相同的生产运行并使用相同的硬件(之前我们已经交换了SSD并看到了相同的问题,所以我不相信这是SSD模块)。 在现场看到这个问题后,我开始了一个testing过程,在这个过程中系统会被成像,然后在启动60秒后重新启动crontask。 我们会以这种方式刻录系统,因为它们在失败后不能恢复,在24小时之后我们会看到哪些系统仍在重启,哪些未通过testing。 我在这里问,看看是否有人有任何其他的想法,基本上。 我一直在与电路板制造商保持联系,他们有两个受影响的系统,他们正在testing,但没有结果。 我可以在我这里的系统上运行任何必要的testing,包括已经通过的和失败的。 还有一件重要的事情。 硬重启(断电)总是允许系统启动。 在主板重新上电后的第一次软重启过程中,被识别为故障的系统将无法在多数情况下启动。 我只有在软重启过程中才看到这种故障模式。 这是相当神秘的,除此之外,我喜欢硬件,并希望继续购买它。 感谢球员和女孩。
更新:我看到与/ tmp目录相关的问题,以及提到的将注释从/ home移出的注释。 它没有解决这个问题。 (在post底部的附加更新) 我有一个azure色的Ubuntu 16.04虚拟机我正在使用主机使用uwsgi作为服务器和nginx作为反向代理的烧瓶应用程序,按照本指南… https://www.digitalocean.com/community/tutorials/how-to-serve-flask-applications-with-uwsgi-and-nginx-on-ubuntu-16-04 问题是我得到一个502错误的网关,当我尝试连接到服务器的IP在端口80上的Web浏览器。当我检查日志,它说,Nginx无法find我在configuration文件中指定的Unix套接字。 错误是… 2016/08/29 23:23:20 [crit] 2792#2792: *120 connect() to unix:///home/me/appname/appname/appname.sock failed (2: No such file or directory) while connecting to upstream, client: ip.goes.in.here, server: here.goes.the.ip, request: "GET /favicon.ico HTTP/1.1", upstream: "uwsgi://unix:///home/me/appname/appname/appname.sock:", host: "the.ip.goes.here", referrer: "http://all.of.teh.ips/" 我的服务器块看起来像这样… server { listen 80; server_name ip.address.goes.here; location / { include uwsgi_params; […]
我根本不是一个Windows用户,但是我理解Active Directory是LDAP + Kerberos 5 +微软特别酱的基本思想。 所以,在我有一个Windows机器,我无法控制现有的Active Directory域的情况下,是否有可能让这台机器上的一个人显式获得一个外国领域的Kerberos票证,然后获取资源我控制哪个Linux服务器在我控制的Kerberos / LDAP领域? 具体来说,假设我在我的领域中有一个用户“[email protected]”,并且该用户使用用户名“baz”login到“BAR.COM”这个微软AD领域的随机Windows机器中。 现在,他们希望通过Samba或NFSv4从我的计算机quux.myrealm.com上的共享文件中获取文件,或者访问需要Kerberosauthentication的网页,他们需要将其作为[email protected]而不是baz @ BAR。 COM是他们用来loginwindows的身份。 Linux / Unix / MIT Kerberos的方式是“kinit [email protected]”,然后去做。 有没有在Windows上的等价物? 是否有一个等价物不需要安装任何不寻常的东西(例如Windows的MIT Kerberos)。 跨领域信任在这里不是一个select,因为我怀疑现有的ADpipe理员会为了单向authentication而放置合适的TGT条目,而且我也不希望信任这个域。
我熟悉一些configurationLinux服务器以符合PCI-DSS 3.2的常见方式,至less符合SAQ A的要求。 共同关心的是要求8.5,要求: 通用用户标识和帐户被禁用或删除 这包括root用户,这显然不能被禁用,所以需要“补偿控制”(在PCI-DSS的术语中)。 一个常见的配方是以下的一些变体: 禁用根用户login; 需要通过ssh才能使用SSH密钥; 使用sudo来获得root权限; 一旦用户拥有root权限,安装pam_loginuidlogginglogin用户ID; 和 安装并configurationauditd以logging根操作和login用户ID。 然而,如果我今天处理的话,它不是一个我保证的机器:它是一个小型集群(目前有10台机器),而且能够在机器之间ssh (和scp文件)真的非常有用。 必须以非root用户的身份执行此操作将会是一件非常痛苦的事情:几乎总是您需要的文件只能被root用户读取,并且需要放在root用户可以写入的地方。 我想要做的是在机器之间使用ssh作为root,使用服务器上的SSH密钥。 在/etc/ssh/sshd_config使用PermitRootLogin命令在Match Address块中很容易 。 我并不太担心允许一台机器受到攻击的人获得对整个集群的控制权:这些机器是相似的,如果他们设法妥协的话,他们可能会使用相同的stream程来访问其余的。 但是,如果我这样做,我没有能力跟踪谁在运行什么命令,因为当我ssh到另一台机器时,没有loginUID不再附加到进程。 PCI-DSS中的补偿控制需要“满足原始PCI DSS要求的意图和严格性”,要求8.5的目的是为了“追踪系统访问和活动给个人”。 在不保留loginUID的情况下,我们不再提供允许root用户存在的补偿控制。 我希望find的方法是将loginuid从服务器传递到服务器,以root身份login时,可能将其放入环境中。 我不介意这需要隐式地信任源服务器:它已经是。 任何人都可以提出一个这样做的手段? 或者做不到这一点,另一种追踪系统pipe理员活动作为根为特定用户,同时允许简单的机器之间的ssh和scp ?
我可以使用哪种Linux文件系统types来尝试恢复启动时的不一致性,而是放弃它们(释放空间)并快速安装? 我有一个应用程序,它使用大量的空间caching其结果。 caching不是宝贵的; 当启动时检测到不一致时,我宁愿让内核快速释放空间并继续安装音量。 这是“tmpfs”卷的function之一,但卷的大小太大,无法使用RAM。 速度(安装音量后)不是主要标准,所以较慢和较大的存储是首选。 caching当前是默认的“ext4”文件系统types。 在安装时解决不一致的延迟并不繁琐,但是没有必要(空间可以简单地释放),所以我宁愿避免它。 我不知道为什么要这样做,我想知道哪些文件系统types具有这些属性,以便我知道这个选项是多么的可行。 Linux可以使用哪种文件系统types?
networkingpipe理员能够检查默认网关是否可以将包路由到互联网? 我有两个接口,都提供了一个路由到互联网。 当我从其中任何一个拔下电缆时,默认网关正在更新,并且我的互联网连接正常工作。 但是,如果当前首选网关发生故障而没有中断物理链路,则系统不会故障切换到第二个网关。 我试图设置一个更高的指标手动失败的GW,它的工作,但这是我想避免的手动步骤。 networkingpipe理员可以解决这个问题吗? 我的设置:Ubuntu 16.04,NM 1.2.2 UPD 在NM的irc频道上的社区成员回答说,NM不检查网关是否实际工作,不进行GW切换。 VRRP / ucarp / heartbeat / keepalived也不检查它。 他们只检查networking可用性,并将上游GW切换到虚拟接口后面。 这在我的情况没有帮助。 Iproute的nexthop还挺有效,但是延迟很大。 内核caching路由,甚至在ip route flush cache后,系统故障转移到第二个GW花费大约10分钟。 ip route replace default scope global \ nexthop via 11.22.33.1 dev eth0 weight 1 \ nexthop via 55.66.77.1 dev eth1 weight 1 我目前的解决scheme:一个shell脚本,检查当前的默认gw是否提供互联网访问; 如果不是,则会增加当前GW的度量值,并将系统故障转移到具有较低度量值的第二个度量值。 我仍然希望find一个更优雅的解决scheme。
我有一个生产系统,有多个nginx应用程序托pipe。 那些是nginx应用程序服务器。 现在,为每个这些nginx应用程序服务器在/etc/logrotate.d/文件夹中configuration一个logrotateconfiguration文件。 下面给出了logrotateconfiguration文件的一个例子。 /var/www/example/current/log/example.log { daily missingok rotate 1 delaycompress compress notifempty copytruncate } 我检查了以下Logrotate不工作,并检查我的configuration,并没有发现应用程序服务器或nginx的任何重复项。 下面是我的nginx logrotate文件的定义。 /var/log/nginx/*.log { daily missingok rotate 3 compress delaycompress notifempty create 0640 www-data adm sharedscripts postrotate if [ -s /var/run/nginx.pid ]; then kill -USR1 `cat /var/run/nginx.pid` fi endscript } 我的日志仍然被写入*.log.1而不是*.log任何人都可以帮忙吗? 我想知道这里有什么问题。 以下是debugging模式下的logrotate命令输出。 logrotate –force -d /etc/logrotate.d/nginx reading config […]
我在ZFS机器中遇到了一个错误。 我的服务器掉电后,可能会发生这种情况,但我无法确定。 我的带有RAIDZ-1的ZFS Pool Gewuerzglas不再愿意导入。 尝试导入时总是遇到错误: cannot import 'Gewuerzglas': I/O error Destroy and re-create the pool from a backup source. 我已经尝试了几件事情。 非似乎工作。 任何build议如何拯救这个池? 由于所有的驱动器仍然在线,在我看来,数据可能仍然存在,但一些检查总结不好? 我到目前为止所尝试过的 root@openmediavault:~# zpool import pool: Gewuerzglas id: 15011586312885837941 state: ONLINE action: The pool can be imported using its name or numeric identifier. config: Gewuerzglas ONLINE raidz1-0 ONLINE sda ONLINE sde ONLINE […]
我们最近维护的Web应用程序遇到了一个非常奇怪的问题:两台物理主机上的四台虚拟机中有三台通过HTTPS连接到我们的支付提供商的服务器。 debugging这个问题让我对OSI堆栈进行了一次有趣的介绍: 在应用程序级别,HTTPS请求看起来像是超时了。 使用openssl s_client ,我发现SSL握手失败 使用tcpdump转储stream量并使用Wireshark检查stream量,我注意到对于失败的握手,初始SYN / ACK之后来自服务器的所有数据包都有无效的TCP校验和。 比较数据包的内容和成功的握手,我发现至less有一位被翻转了。 然后服务器尝试重新传输数据包(再次使用无效校验和)并在60秒后closures连接。 我们的支付提供商和我们的托pipe公司都没有很好的诊断这个问题。 幸运的是,几个小时后问题就消失了。 然而,这个“解决scheme”让我非常不高兴。 我想知道: 这种行为有什么可能的原因? 如果将来再次出现这个问题怎么能够被诊断呢? 虚拟机在KVM上运行Debian 7。
所以我有一个来自OVH的专用服务器。 我得到了一个/ 64范围的IPv6地址和1个公共IPv4地址。 我购买了第二个IPv4地址作为后备。 主机正在运行Xen虚拟机pipe理程序,我已经设置了桥接器 bridge name bridge id STP enabled interfaces br0 8000.0cc47ac4292c no eno3 vif4.0 vif4.0-emu virbr0 8000.525400a2390a yes virbr0-nic 我能够获得与IPv4和IPv6地址都连接的虚拟机(它只会使用IPv6),但是作为一个testing,我将虚拟机的MAC地址从我的备用和繁荣中所列的虚拟机的MAC地址中更改,没有更多的IPv6连接,但是一次我把MAC地址设置回来,它正在下雨。 主机ipv6路由表 2607:5300:61:45b::/64 dev br0 proto kernel metric 256 pref medium 2607:5300:61:400::/56 dev eno3 proto kernel metric 202 mtu 1500 pref medium fe80::/64 dev eno3 proto kernel metric 256 pref medium fe80::/64 dev […]