云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

亚马逊云_ppt模板百度云_0元

小七 141 0

云计算开发_哪个_建站宝盒自助建站

编者按:我们在CRE生活课程中花了很多时间讨论如何识别和减轻系统中的风险。在这篇文章中,我们将讨论如何有效地沟通和排列这些风险。

当谷歌云客户参与客户可靠性工程(CRE)时,我们首先要做的事情之一就是应用程序可靠性评估(ARR)。首先,我们试图了解您的应用程序的目标:它为用户提供了什么以及相关的服务级别目标(slo)(如果您没有任何slo,我们将帮助您创建slo!)。第二,我们评估您的应用程序和操作,以确定威胁您达到SLO能力的风险。对于每一个识别出的风险,我们根据我们在谷歌的经验提供一个如何消除或减轻风险的建议。

每个应用程序识别出的风险数量因应用程序和团队的成熟度以及可靠性或性能的目标水平而有很大的不同。但无论我们确定了5种风险还是50种风险,有两个基本事实仍然是正确的:一些风险比其他风险更糟糕,而你有有限的工程时间来解决它们。您需要一个流程来传达风险的相对重要性,并就应首先解决哪些风险提供指导。这看起来很简单,但要小心!众所周知,人脑在比较和评估风险时是不可靠的。

这篇文章解释了我们是如何开发出一种分析ARR风险的方法的,使我们能够向客户提供一个清晰的、排名靠前的建议列表,解释为什么一种风险排在另一种风险之上,并描述风险可能对应用程序的SLO目标产生的影响。在这篇文章的最后,你将了解如何将其应用到你自己的应用程序中,即使不经过CRE的参与。

举一个例子:风险矩阵

每个类别的代表性风险的示例表:行标题表示可能性,列标题表示影响。