Articles of 数据中心

如何在多服务器环境中检测和诊断本地networking问题?

我是一名软件工程师,他在2周的多服务器托pipe环境中尝试检测(并尽可能解决)奇怪的本地networking问题。 我们从一家欧洲的托pipe公司购买了3个专用的32GB ram 8核心i7 CPU。 每个盒子有两个接口,一个用于外部通信,一个用于本地通信。 然后我们聘请系统工程师来设置我们的初始环境。 世界多么精彩。 一切都很好,直到部署..在下面的服务器上部署应用程序的问题开始: 服务器1(DB):32 GB,8核心,2个接口,仅运行2个服务:ubuntu上的mysql 5.5使用memcached的12.04 LTS 1.4.13-0ubuntu2 服务器2(www):32 GB,8核心,2接口,运行php5-fpm(v5.5),nginx 1.4.4&crontab在Ubuntu 12.04 LTS 服务器3(Solr):32 GB,8核心,2个接口,仅运行一个服务:在Ubuntu 12.04上使用Solr 4.5的Tomcat7使用memcached的LTS 1.4.13-0ubuntu2 部署后,我们发现我们的应用程序的批量索引过程非常缓慢。 在批量索引时,应用程序从数据库(从srv1)读取数据(在阶段没有最终用户stream量),处理它并生成更多的扩展数据,在memcached(srv1)上将新数据caching为多个块并在solr上build立索引。 我花了5-6天的时间在应用程序方面find任何可能的瓶颈或应用程序相关的问题,但没有发现。 当在服务器上运行我们的索引cron时,应用程序挂起,等待,有时抛出与memcached(NOT FOUND)有关的连接错误,但有时不成功,传递成功读取阶段并抛出与mysql连接有关的另一个连接exception。 DB正在运行,mysql.log中没有错误行。 Memcached启动并运行,没有错误日志事件非常详细(-vvv)日志logging打开。 我一次又一次地检查应用程序,循环中没有查询(查询已被优化),没有不必要的memcached连接 – 循环操作(我们在批量读取和写入时使用multi_get – multi_set方法) 然后我试图切换我的应用程序configuration使用我们的外部IP地址(120.144.XX),而不是使用本地(10.10.XX)和繁荣! 应用程序开始飞行。 问题和例外消失了,像风一样完美无缺。 我们的系统工程师们越来越多地在硬件和接线方面进行了深入探讨,并与数据中心进行了多次交谈,testing,再次testing,但最后一点是:“您的硬件和接线没问题,请检查您的networkingconfiguration和应用程序。 Sysengineer说,“在本地networking上configuration-ipv6是不必要的,所以我们可以在会议中完全closures”。 我不知道为什么。 对话之后,我不再提出任何问题。 几天后,我们公司又雇佣了另一个不喜欢ipv6的sysengineer,我感到非常惊讶。 我的第一个问题是,为什么两个sysengineers恨ipv6? ipv6的问题是什么? 我们的应用程序的主要问题是现在它与memcached和mysql使用外部IP地址交谈,我们想要使用本地networking。 它完美的外部IP的,但不是本地的。 我不知道问题在哪里,我不是一个系统或networking工程师,我不知道他们在系统中做了什么,但我相信有一个错误的迁移问题。 这两个sysengineers被否认没有错,但我想挖这更多。 我可以从哪里开始? 什么是find问题的适当工具? 这些输出是否正常: [email protected] ~ […]

IP识别是不同的

几个月前,我从美国( http://www.dacentec.com/ )数据中心购买了一台专用服务器。 我的ips看起来像这样: 162.248.243.blo blo blo 当我检查我的IP在这个网站: http : //whatismyipaddress.com/ 它显示了我: ISP:Dacentec 服务:没有检测到 国家:美国 为什么服务:没有检测到,他们用这个IP块做什么? 当我打开像谷歌,雅虎等网站,他们显示我印度或中国为国家。 这些ips有什么问题,为什么我没有稳定的位置?

数据中心的高峰值功率需求; 降低成本?

简洁版本 UPS似乎只有两种模式: 提供来自input馈送的所有电源 从内部电池供电(当input馈电消失时) UPS还可以用来平衡电池和input馈电之间的负载吗? 即从input馈电中获得8A,并从内部电池提供剩余的电量。 长版 我们目前在一个数据中心租用一个20U机架来托pipe8个节点的高性能计算集群。 这具有大约12A / 230V的峰值功率要求。 20U的机架目前只装满了6U,但1/4机架不允许我们使用12A(根据我们的数据中心)。 集群有两个电源,每个都有16A的断路器。 电力使用被监测,并且DC允许我们在两个供给中组合使用12A(平均超过30分钟)。 如果使用更多的权力,我们每月支付70欧元/ 1A的过stream罚款。 群集不常使用。 大约80%的时间,实际功耗大约是最大2A。 因此支付12A的持续力量是有点荒谬的。 我们每24小时只需要2小时左右。 有什么解决scheme来限制我们的峰值功率消耗(因此我们的机架租赁成本)? 有没有任何UPS具有这种function,或者只是“ON或OFF”?

桥接两个数据中心

我需要找出将当前date中心与新的灾难恢复数据中心进行桥接的最佳方式。 我有以下networkingconfiguration(显示在图片中)。 View post on imgur.com 所以在内部的3850上,我有2个VLAN用于主机,2个vlans与Edge FW和ASA连接。 在ASA上,我有2个主机和1个VLAN连接到3850的vlan。 计划是在DR DC上有精确的networking布局,但问题是如何弥合一切? 在我看来,我需要在每个VLAN主机是brigde接口? 使用当前的设备是可以做到这一点的(我还有1个Cisco Nexus 5548,带有基本IP许可证,目前用于SAN和Vmware主机)。 从networking技术,使我能做到这一点,我在看L2TPv3,OTV,也许IRB。 从开源openvpn看起来是一个可能的解决scheme。 2个DC不会有点对点链路,只有互联网连接将被启用,所以我想我需要打开防火墙端口到某个地方,我会终止桥接。 有什么build议么? 谢谢

HDFS在apache上的performance

我有几个与HDFS相关的问题,可能有不同的根源。 我尽可能多地发布信息,希望至less可以对其中的一些发表看法。 基本上这些情况是: 找不到HDFS类 与某些datanode连接似乎是缓慢/意外closures。 执行程序丢失(并且由于内存不足错误而无法重新启动) 我在找什么: – HDFS错误configuration/调整build议 – 全局设置缺陷(例如,VM和NUMA不匹配的影响) – 对于最后一类问题,我想知道为什么当执行程序死亡时,JVM的内存没有被释放,因此不允许启动一个新的执行程序。 我的设置如下: 1个具有32个内核和50GB RAM的虚拟机pipe理程序,在此虚拟机上运行5个虚拟机。 每个vms有5个核心和7GB。 每个节点有1个工作站设置,4个核心可用6 GB(其余资源旨在供hdfs / os使用 我使用4GB的数据集在Spark 1.4.0 / hdfs 2.5.2安装程序上运行Wordcount工作负载。 我从官方网站(没有本地编译)得到的二进制文件。 请让我知道,如果我可以提供其他相关信息。 (1)&2)在work / app-id / exec-id / stderr文件中logging在worker上) 1)Hadoop类相关的问题 15:34:32: DEBUG HadoopRDD: SplitLocationInfo and other new Hadoop classes are unavailable. Using the older Hadoop location info code. java.lang.ClassNotFoundException: […]

数据中心使用什么技术来保证低RTT?

我正在读关于数据中心DCTCP的文章 ,并且正在谈论约250μs的低重传计时器(RTT),但没有说明如何完成。 我读过的其他地方,DCTCP正在使用显式拥塞通知,这减less了拥塞控制窗口。 这是否导致更短的RTT? 那么,比方说TCP Tahoe或Reno,哪种方法确实保证或达到了低RTT?

具有RMM4(IPMI BMC)的英特尔服务器是否需要两个IP地址/电缆?

我正在pipe理一个已经重新启动并且还没有打开的共存服务器。 它位于数据中心,难以访问,因此我将英特尔的RMM4 (与服务器主板兼容)视为解决scheme。 如果有办法拆分单根电缆,是否必须从ISP交换机运行两根电缆? 我假设IPMI BMC需要拥有自己的IP地址? 请注意,服务器是连接到共享防火墙并具有虚拟化networking(防火墙+虚拟服务器)的计算服务器,并且因此具有连接到其的一根以太网电缆。 此外,知识产权pipe理委员会BMC的安全意义是什么,最好如何保证? 据我所知,英特尔允许使用IP地址限制访问,有什么我应该知道或做的?

在处理复杂的依赖关系时监视和提醒数据问题的方法

在这个假设的例子中,我们有一个跨电子商务公司的多个工程团队的数据stream。 这些团队在stream程的不同点提供服务,生成数据和使用数据。 例如; “团队订单”维护订单数据库和接口 “团队stream量”生成networkingstream量数据 “团队仓库”维护数据仓库 “团队stream量”取决于“团队订单”的服务来检索订单数据并将其与networkingstream量相关联 “团队仓库”依赖于“团队stream量”的数据来构buildDW表格 想象一下,“团队订单”遇到一个数据库问题(负载,等待时间,无论如何) – 他们的监控系统提醒开始调查数据库问题的工程师。 与此同时,“团队交通”也被警告,因为他们看到了不好的反应。 他们开始调查,很快意识到问题出在“团队订单”的服务上,并提出“团队订单” 所有这些下游,“团队仓库”正在接收不良的数据。 他们的DW监测警告他们这种差异,所以他们开始寻找根本原因。 问题是,现在我们至less有三名工程师正在调查同一个问题,他们甚至可能不知道其他团队也在做同样的事情。 重要的一点是,三支队伍都在使用不同的监控和报警系统。 团队订单正在监控数据库服务器问题,而团队仓库正在查找logging数量的差异。 还有其他的方法; 仅在pipe道顶部发出警报(阻止下游升级)或在pipe道底部向上游系统发出警报。 是否有任何最佳实践,白皮书或工程解决scheme可供我们研究,以了解跨多个英/支持团队的不同方式来提醒和升级数据问题?

如何将IP客户端的IPCat与IPTables一起使用?

我想用这个列表阻止世界上所有数据中心的所有IPS: https : //github.com/client9/ipcat 但我不知道如何使用该列表,我想要一个bash脚本来检查每天是否有更新(或使用GitHub webhook进行更改:D),并为所有ips添加IPTable规则,以便删除连接这些说ips 🙂 我只需要知道我将如何使用ipcat列表来阻止与IPTables ips 提前致谢 :)

可以将Azure数据中心视为对Uptime Institute的Tier 3分类要求的投诉吗?

正常运行时间协会authentication数据中心的devise,设施和运营符合Tier Classification System(I-IV)和运营可持续性标准。 可以将Azure数据中心视为对Uptime Institute的Tier 3分类要求的投诉吗?