云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

全站加速_北京哪家网站建设好_测评

小七 141 0

阿里云香港服务器_怎么购买_人工智能网

在Statuspage,我们相信团队开始考虑事件沟通计划永远都不为时尚早。当你的第一件大事发生的时候已经太晚了。计划外停机可能导致客户流失和无法管理的入站支持量。信息技术智能咨询公司(informationtechnology Intelligence Consulting)最新发布的年度停机时间调查显示,仅一小时的计划外停机时间就可能让企业付出超过10万美元的代价,而且往往要高得多研究。一些停机是不可避免的,即使是大型组织也会时不时地遇到停机。好消息是,通过及时部署可靠的上下文和信息,可以减轻停机带来的危害。您可能希望永远不需要事故通信计划,但是,正如任何优秀的站点可靠性工程师(SRE)会告诉您的,hope不是战略规划团队的首次事故沟通策略不必过于复杂或耗费资源。事实上,使用这四种方法可以很快地完成台阶:阻挡两小时(如果你需要更少的时间,不要惊讶)和你的核心团队一起集思广益,记录下本指南中列出的一些简单的事情。让工作涉及到事故的任何人参与,包括你的运营和客户支持领导者。使用事件通信计划模板策略。设置每季度召开一次会议,审查你的战略并制定改变。回顾每次你有一个事件。之前偶然知道什么构成偶然有时很难知道是什么这是谷歌SREs使用的一套准则,电子商务数据分析,如果以下任何一项属实,则该事件被视为事件:是吗是否需要另一个团队参与解决问题?客户是否可以看到停机?经过一个小时的集中分析,这个问题还没有解决吗?请随意采用这些确切的指导原则,调整它们,大数据的4,或编写您自己的指南。"如果以下任何一个是真的"是一个好的格式。(另一个有助于映射事件严重性的资源是来自VMware的严重性定义指南。)关于安全的注意事项:根据我们的经验,最好在您不确定的情况下进行过度沟通。对一个从未发生过的预期事件关闭环路的不便远远超过了在事故发生后几个小时内跟进事件的不利影响。"我会在任何人注意到之前尽快解决这个问题"是一个滑坡。你可能会在第一次尝试的时候赌博赢了,但是玩够了游戏,最终你会赢的输了。团队角色定义事件响应者的关键角色和期望。明确的标签和期望可以防止事故的严重性。虽然大型团队和复杂的SRE组织有一个角色和职责的网络,大数据系统,但我们认为两个角色是一个良好的开端点。事件指挥官事件指挥官负责事件响应,确保每个人都在努力解决问题并完成任务。他们还负责为事件建立任何沟通和文件渠道。这可能是聊天室,记录事件的共享页面,淘客pid,甚至是办公室的物理空间。这个人还开着事故后的车回顾、交流或通信器负责将技术信息转换为客户通信,并通过正确的渠道将这些信息传达出去。如果新客户受到影响,则通知新的客户群,并通知他们是否受到影响。在事件发生后,他们会确保验尸报告被送出出去。我们的建议:从一开始就明确谁在事件中扮演什么角色。即使这些人有足够的带宽来帮助处理事件的其他方面,他们也应该首先对这些主要目标做出响应,并将其他任务委派给必要的准备一个精干的团队,在事故中节省的任何时间都意义重大。找到正确的方法给wordsmith一个公告可能会占用宝贵的时间事件。决定在样板语言之前,把它保存在模板中的某个地方。当你需要的时候,用它来插入事件中的相关细节它。在这里是我们在这里为自己的状态页使用的一个事件模板:"站点当前的负载量高于正常值,可能导致页面速度缓慢或无响应。我们正在调查原因,并将尽快提供更新。"这种语言非常简单和通用,可以在我们所知的很多情况下按原样进行部署。我们也可以修改语言,增加更多相关细节,如果我们有。例如:"由于我们的一个大客户发生事故,该网站目前的负载量高于正常值。这导致大约50%的页面没有响应。我们正在调查原因,并将尽快提供最新消息。"你还应该在事故发生时确定你的通讯渠道。虽然我们很明显推荐Statuspage,但是你可以使用很多工具:比如Twitter、email和公司博客。只要确定你清楚你要在哪里发帖消息。期间意外事件发生后,我们推荐这三条"黄金法则",在事件.早期一旦有迹象表明这起事件正在影响客户,就必须立即进行沟通。尽早发布消息。不一定要完美。此消息用于向用户保证您已意识到该问题并正在积极调查。这也会减缓支持票证和入站消息的洪流事件。经常你正在处理一个意外事件,很容易让定期更新溜走。但是这些更新之间的长时间间隔可能会给您的客户带来不确定性和焦虑。他们可以开始期待最坏的结果。即使你只是更新说你还在调查这件事,那总比没有沟通要好。如果你能预测下一次通信的时间(并坚持下去),你就可以获得额外的积分事件.精度你在事件中的留言,尽可能精确,不要猜测或不作任何承诺答案。相反of:"我们认为我们知道发生了什么,大数据平台,但我们需要更多的时间。"尝试:"我们仍在努力验证根本原因。"而不是:"问题似乎与数据库有关。"尝试:"我们正在继续调查问题。"乍一看,第二个示例可能会似乎违反直觉。为什么不说这个问题可能与数据库有关?因为你还不确定。避免使用诸如"我们认为"这样的字眼。不要说你"想"你找到了根本原因。要么你真的找到了原因,要么你还没有找到,一旦你确认了原因,那么就尽可能详细地说明到。为了示例:"我们发现了与上次部署相关的数据库损坏。我们目前正在回滚部署和监控结果。"在意外事件发生后,您团队的一些最大机会出现在事件尘埃落定的时刻。理想情况下,您的团队将运行一个事故后回顾会议,以解决技术方面的问题。这也是建立客户信任的好时机,让他们知道你正在认真对待事件,并采取措施确保不会发生又一次。安事件事后分析是指在事件发生后,对发生的事情、发生的方式进行全面的更新,确保团队不会重复采取措施。这是我们的验尸报告规则。移情推理对于不便之处,感谢客户的耐心等待,并确保您正在修好了。是吗个人方面我们经常看到这样的情况:团队为了表现出专业或官方的形象而去个性化。这会导致死后的冷淡、疏远的语调,而这种语调并没有建立起来信任。使用主动语态和"我们"代词来讲述你的故事。避免使用那些听起来过于学术化或企业化的词汇,而那些简单的词汇会去吧。相反of:"新负载平衡器配置上的修正应用程序已完成。"尝试:"我们已完成新负载平衡器的配置。"详细信息激发信心当你使用大量词汇时,人们会有很好的判断力,但是什么都没说。细节是让你的验尸报告听起来不那么火爆的方法空气。这里这是Facebook工程师在2010年后发布的一个事后分析的例子事件。考虑一下这段话:"今天我们对一个被解释为无效的配置值的持久副本进行了更改。这意味着每个客户机都看到了无效值并试图修复它。因为修复需要对数据库集群进行查询,所以该集群很快就被数十万个查询所淹没。想要这种详细程度的人会很感激的。那些不知道的人至少会意识到你在为所发生的事情解释。很多团队担心他们的消息传递太过技术化,而最终发送的是淡化的通信。选择具体细节相反。结束死后验尸是你对一件事有最后决定权的机会。让读者有一种信任感和信心,清楚地说明你在做什么来防止这种情况发生再来一次。给你这是Twilio事后分析的一个例子:"在解决事件的过程中,我们替换了触发事件的原始redis集群。发现并纠正了redis master的错误配置。作为进一步的预防措施,Redis在Redis主机上的重启被禁用,未来的Redis主机恢复将通过奴隶。那个同时丢失机上余额数据和更新余额的能力也暴露了我们自动充值系统的一个关键缺陷。它失败得很危险,e