云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

企业邮箱_华三服务器_速度快

小七 141 0

利用人工智能提升Azure服务质量:AIOps

"在大数据时代,从Azure规模运行的云服务中收集到的见解很快超过了人类的注意力范围。根据收集到的大量数据,确定正确的步骤以保持尽可能高的服务质量是至关重要的。在将其应用于Azure时,我们设想将AI注入我们的云平台和DevOps流程中,成为aiop,使Azure平台变得更自适应、更具弹性和更高效。AIOps还将支持我们的工程师更有效和及时地采取正确的行动,继续提高服务质量,取悦我们的客户和合作伙伴。这篇文章继续我们的可靠性推进系列文章,重点介绍正在进行的旨在不断提高Azure平台可靠性的计划。下面这篇文章是由我们的项目经理张健(音)撰写的,她与我们分享了AIOps的愿景,并强调了人工智能注入的领域,这些领域已经成为我们端到端云服务管理的一部分这篇文章包括首席数据科学家经理Yingnong Dang和合作伙伴集团软件工程经理Murali Chintalapati的贡献。 正如Mark在发布这一先进的可靠性博客系列时所提到的,在Azure规模上构建和运营全球云基础设施是一项复杂的任务,它包含数百个不断发展的服务组件,跨越160多个数据中心,跨越60多个地区。为了迎接这一挑战,我们成立了一个AIOps团队,在Azure工程团队之间进行广泛合作,并与微软研究院(Microsoft Research)合作开发AI解决方案,使云服务管理比以往任何时候都更高效、更可靠。我们将分享我们对将人工智能注入我们的云平台和DevOps流程的重要性的看法。Gartner称之为AIOps(发音为"AIOps"),这已经成为我们内部使用的通用术语,尽管范围更广。今天的帖子只是一个开始,因为我们打算提供定期更新,分享我们采用人工智能技术来支持我们如何大规模构建和运营Azure的故事。为什么是AIOps?云服务有两个独特的特点:云平台和系统的规模和复杂性不断增加客户、合作伙伴及其工作量不断变化的需求为了在这种不断变化的状态下构建和运行可靠的云服务,并尽可能高效地做到这一点,我们的云工程师(包括数千名Azure开发人员、运营工程师、客户支持工程师和项目经理)严重依赖数据来做出决策和采取行动。此外,许多决策和操作需要作为云服务或DevOps流程的一个组成部分自动执行。简化从数据到决策再到行动的路径包括识别数据中的模式、推理、根据历史数据做出预测,然后根据所有这些基础数据得出的见解提出建议,甚至采取行动。 图1。将人工智能注入云平台和DevOps。AIOps愿景AIOps已经开始转型云业务,通过大规模提高服务质量和客户体验,同时通过智能工具提高工程师的生产力,推动持续的成本优化,最终提高平台本身的可靠性、性能和效率。当我们在推进aiop和相关技术方面进行投资时,我们看到这最终在以下几个方面提供了价值:更高的服务质量和效率:云服务将具有自我监控、自适应和自我修复的内置功能,所有这些都需要最少的人工干预。由这种智能提供支持的平台级自动化将提高服务质量(包括可靠性、可用性和性能)和服务效率,以提供尽可能最佳的客户体验。更高的DevOps生产力:借助AI和ML的自动化能力,工程师可以从调查重复问题、手动操作和支持服务的繁重工作中解脱出来,转而专注于解决新问题、构建新功能以及更直接影响客户和合作伙伴体验的工作。在实践中,AIOps赋予开发人员和工程师以洞察力,从而避免查看原始数据,从而提高工程师的生产率。更高的客户满意度:AIOps解决方案在使客户能够在我们的云服务之上尽可能容易地使用、维护和排除其工作负载方面发挥着关键作用。我们努力使用aiop更好地了解客户需求,在某些情况下,识别潜在的痛点,并根据需要主动伸出援手。当Microsoft或客户需要采取措施预防问题或应用解决方案时,对客户工作负载行为的数据驱动洞察可能会出现标记。最终,目标是通过快速识别、缓解和解决问题来提高满意度。我的同事Marcus Fontoura、Murali Chintalapati和Yingnong Dang在第34届AAAI人工智能大会期间,在AAAI-20云智能研讨会上,分享了微软在这一领域的愿景、投资和示例成就。这一愿景是由微软AIOps委员会创建的,该委员会横跨云服务产品组,包括Azure、microsoft365、Bing和LinkedIn,以及微软研究院(Microsoft Research,MSR)。在主题演讲中,我们分享了aiop在构建和操作云系统方面可以起到变革作用的几个关键领域,如下图所示。 图2。AI for Cloud:AIOps和AI服务平台。AIOps公司超越我们的愿景,我们想首先简要总结一下构建AIOps解决方案的一般方法。这个领域的解决方案总是从系统、客户和流程的数据测量开始,因为任何AIOps解决方案的关键都是提取关于系统行为、客户行为以及DevOps工件和流程的见解。这些见解可以包括识别现在正在发生的问题(检测)、为什么会发生(诊断)、将来会发生什么(预测)以及如何改进(优化、调整和缓解)。此类见解应始终与业务指标(客户满意度、系统质量和DevOps生产力)相关联,并根据业务影响确定的优先级来推动行动。这些行动也将反馈到系统和流程中。这种反馈可以是完全自动化的(注入到系统中),也可以由人在循环中(注入到DevOps过程中)。这种总体方法指导我们在三个支柱中构建AIOps解决方案。图3。AIOps方法:数据、见解和行动。系统人工智能今天,我们将介绍几个已经在使用并在幕后支持Azure的AIOps解决方案。目标是自动化系统管理,以减少人为干预。因此,这有助于降低运营成本,提高系统效率,并提高客户满意度。这些解决方案已经为Azure平台的可用性改进做出了重大贡献,特别是对于azureiaas虚拟机(vm)。AIOps解决方案在多个方面做出了贡献,包括通过硬件故障预测和主动行动(如实时迁移、项目延迟和预配置VM)来保护客户的工作负载,以缩短虚拟机创建时间。当然,工程改进和持续的系统创新对平台可靠性的持续提高也起着重要作用。硬件故障预测是为了保护云客户免受硬件故障造成的中断。我们在2018年分享了通过预测性ML和实时迁移提高Azure虚拟机弹性的故事。微软研究院和Azure为azurecompute构建了一个磁盘故障预测解决方案,触发了客户vm从预测到失败的节点实时迁移到健康节点。我们还将预测扩展到其他类型的硬件问题,包括内存和网络路由器故障。这使我们能够执行预测性维护以获得更好的可用性。Azure中的预配置服务通过创建预配置的虚拟机,为虚拟机部署带来可靠性和延迟优势。预配置的虚拟机是在客户请求虚拟机之前预先创建并部分配置的虚拟机。正如我们在IJCAI 2020出版物中所描述的,正如我们在上面提到的AAAI-20主题演讲中所描述的,预配置服务利用预测引擎来预测虚拟机配置和每个配置要预创建的虚拟机数量。此预测引擎应用基于历史和当前部署行为训练的动态模型,并预测未来的部署。预配置服务使用此预测为每个VM配置创建和管理VM池。预配置服务根据最新预测的要求销毁或添加虚拟机,从而调整虚拟机池的大小。一旦识别出与客户请求匹配的虚拟机,该虚拟机将从预先创建的池分配给客户的订阅。DevOps的AI人工智能可以提高工程生产力,帮助快速提供高质量的服务。下面是一些针对DevOps解决方案的AI示例。事件管理是云服务管理的一个重要方面,识别和缓解罕见但不可避免的平台中断。典型的事件管理程序包括多个阶段,包括检测、参与和缓解阶段。每个阶段花费的时间被用作关键绩效指标(KPI),用于衡量和推动问题的快速解决。关键绩效指标包括检测时间(TTD)、投入时间(TTE)和缓解时间(TTM)。 图4。事件管理程序。正如在AAAI-20会议上分享的AIOps云服务事件管理创新,