中间件_阿里云售后面试_促销

小七 2019年10月25日 21:23 141 0

NY1（Equinix）死后电源问题

初始电源问题今夜美国东部时间晚上8:43左右，我们收到来自不同监控系统的通知，纽约地区有大量服务器停机。我们立即开始排除故障，并确认网络连接不可用。我们立即开始访问设备，发现大部分设备在一分钟后就在线了。然而，在查看日志之后，我们发现每个被访问设备的正常运行时间现在是以分钟为单位，而不是以天为单位，这表明它曾经是重新启动。我们然后立即联系Equinix数据中心获取更多信息。我们怀疑是停电了，需要确认是与我们的设备有关还是更大的问题。在电话里，我们收到确认，在便利。立即我们所有的员工此时都处于高度警惕状态，因为我们必须检查重新启动的每一块硬件，我们也会派人去数据中心。Lev，我们的数据中心运营总监，目前正在阿姆斯特丹开设我们的最新设施，所以安东尼和莫西却在小时。首字母一小时后，我们收到了Equinix通过电子邮件发出的官方确认，事实上在设施.事故总结：UPS 7故障事件DE说明：Equinix IBX现场工程师报告说，UPS 7故障导致客户设备中断。UPS 7重新联机。工程师们目前正在调查问题。下一个当情况发生重大变化时将进行更新发生。信息直接来自Equinix有限公司；但是，我们的工程师在现场，我们也有机会与数据中心的其他客户讨论电源问题，并收集了更多信息信息。非正式的我们怀疑的是，UPS7负责将来自公共电网的脏电净化成稳定的电能，然后再分配到整个DC。事实上，UPS7发生了硬件故障，本应触发自动切换到冗余UPS（现场确实有）但切换失败。很可能有不止一个UPS可以处理限制功率，因为只有大约一半的数据中心遇到了失败。什么时候冗余失败，另一个UPS没有接管，这本质上意味着设备的电源被切断。UPS7随后硬重启并重新联机，然后恢复了对设备的供电；但是，在之间。同时我们在现场，我们确实看到电力工程师在大约3-4小时后到达工厂，调查UPS7最初故障的原因以及冗余电源切换的原因系统没有按预期运行到电源已恢复-在NY1中恢复云并关闭虚拟机监控程序是最坏的情况，因为电源的立即中断不允许磁盘驱动器清除其拥有的任何缓存，从而增加了文件系统损坏的可能性。我们开始对每一个hypervisor进行故障排除，以确保它成功启动，而且我们确实找到了几个需要手动操作的系统干预。我们在此过程中不需要恢复或重建任何突袭。相反，一些系统启动失败，原因是找不到RAID配置，但我们怀疑这与它们断电的方式有关。我们关闭了这些系统的电源并拔下了电源线，以确保一切都能正确重置，然后重新安装了物理SSD驱动器并重新为系统供电开。给由于网络也受到影响，我们必须确保所有机架顶部的交换机都能成功地聚合回网络。在这里，我们观察到三个需要手动干预的交换机，以使它们回到两个核心上。其中一个交换机也有10个千兆位千兆位集成电路故障，我们更换了一个备用。完成之后，网络层又完全恢复了手术。一次我们完成了让所有物理hypervisor恢复在线，然后我们继续为驻留在这些系统上的所有虚拟机供电。我们希望以一种系统的方式来处理这一问题，以确保我们能够100%地专注于这一过程的每一步。当虚拟机重新联机后，我们开始通知任何打开任何票证的客户，大部分工作现在已经完成，如果他们看到了，请通知我们问题。拜托联系我们所有的虚拟机监控程序恢复在线，网络问题得到解决，所有虚拟机都已启动，我们指示客户有任何问题，请开罚单，以便我们能排除故障。我们确实看到有一小部分虚拟机有脏文件系统，这需要一个fsck才能使它们联机和工作，我们要求客户与我们联系，以便如果任何客户不熟悉fsck，我们可以帮助完成这一过程。

本文地址： /ziyuan/6441.html