DevOps(Development和Operations的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。它是一种重视“软件开发人员(Dev)”和“IT运维技术人员(Ops)”之间沟通合作的文化、运动或惯例。透过自动化“软件交付”和“架构变更”的流程,来使得构建、测试、发布软件能够更加地快捷、频繁和可靠。从定义来看,DevOps是为了让开发、运维和QA可以高效协作的流程。
DevOps 团队的任务是维护一个工具链,以便自动交付新代码,按需扩展,以及保证尽可能多的正常运行时间。对于大型互联网公司,代码更新次数之多,云上虚拟机数量之多,处理数据之多,对于DevOps团队来说,是一个非常艰巨、繁重的任务,而应对这些挑战需要新的解决方案:AIOps 来了。
基于机器学习的智能运维(AIOps,AI for IT Operations)已经成为运维领域的重要趋势,是运维的发展必然,是自动化运维的下一个发展阶段。时至今日,您对AIOps了解多少呢?话不多说,让我们来个快问快答,关于AIOps的重要信息都在这里!
1.AIOps是什么?
AIOps 一词是由 Gartner 创造的,其解释为:AIOps 结合了大数据,机器学习和可视化技术,通过更强的洞察力来优化 IT 运维。IT 的领导者应该开始部署 AIOps,以优化当前的性能分析,并在未来两到五年内将使用范围扩展到 IT 服务管理和自动化。
2、AIOps的价值是什么?
传统运维面对海量的运维数据,要快速止损和进行决策,人工的分析判断往往需要花费数小时或更长时间。而AIOps通过机器学习来进行运维数据的挖掘,能帮助人、甚至代替人进行更有效和快速的决策。在企业实践中,可以提升业务系统的服务等级协议(SLA)和用户体验,减小故障处理时间,最终实现真正意义的无人值守运维。
3、AIOps 的最终状态是什么?
要保证数据能够顺畅地从多个数据源流入一个大的数据平台中。该平台能够对来自其他来源和类型的数据予以收集、分析和后期处理,可以通过机器学习来管理和修改分析算法。它能够自动触发工作流,其输出结果会作为二次数据源被再次反馈到系统之中,使系统实现自适应,并且通过响应各种数据卷、数据类型和数据源的变化,进行自动调整和按需通知相应的管理员。
4、AIOps的发展阶段是什么?
Bespin Global首席运营官及高级副总裁陈啸将AIOps的发展过程总结为三个阶段:第一个阶段是根因分析。通过算法模型,对运维数据进行学习,实现问题点的辅助排查和发现,更快速的定位故障的根本来源。
第二个阶段是处方系统。在这个阶段,算法模型不仅可以做出辅助诊断,同时可以基于训练,主动发现问题原因,提出可行的解决方案。这样会极大地降低运维工程师的工作量,提高运维效率。
最终阶段才是真正的AIOps,它能实现真正的系统自愈能力。
5、AIOps应用领域
发现问题:基于机器学习的异常检测。
定位分析:基于机器学习的故障树挖掘,定位故障发生的根源以及其原因。
预测未来:基于机器学习模型的指标预测。
IT辅助决策支持:深入运营场景,实现业务运营的IT辅助决策应用。
6、AIOps对基础设施的要求
运维大数据:需要有集成多类数据源、一站式低门槛的数据开发、统一的多样化数据存储和查询等功能。
数据挖掘:全流程、可视化数据建模,支持多种机器学习框架、交互式建模IDE、可视化样本标记等功能。
自动化系统:需要集成企业CMDB、作业执行、编排引擎、自定义场景等功能。
值得注意的是:这些功能模块之间应该有效交互,而不仅仅是独立的模块。需要有一套平台架构去支撑个性化的场景,尤其是打破数据烟囱、功能烟囱,这样才能实现有效的智能运维生命周期落地。
7、AIOps落地的难点有哪些?
(1)人们在实践AIOps的时候,往往想直接应用标准的机器学习算法,通过黑盒的方法直接解决运维问题,这种做法通常是行不通的。因为监控指标、异常的种类非常多,设置静态阈值往往不能满足运维需求。
(2)在面对大量监控任务时,如何快速选择算法是一个难点。并且,一个算法经过一次次软件变更后会发生巨变,算法参数也就失效了,导致大量误报。
8、AIOps落地前提条件有哪些?
海量资源、大广度的业务运作、长期的运维经验,三者缺一不可。AI的前提的数据,没有大量数据的训练,就不会得到相对精确的模型,而算法的调试、优化也离不开海量数据。要懂运维场景,还要知道智能运维可以解决的实际问题,以及解决方法。
由此可见,在当今中国的互联网格局下,最有能力实现AIOps的,无非是类似于BAT、TMD这样的一线大厂,或是专业的第三方MSP服务厂商。只有这两种企业,才有海量的资源使用、大广度的业务运作积累,和长期的运维经验。
BAT自己建设的AIOps,其产品特点在于能够满足互联网应用场景和相对单一的云环境的需求,却无法解决复杂的传统IT环境、异构信息化系统和企业定制化的私有云环境的统一管理和智能运维的需求。
Bespin Global作为全球领先的云管理服务提供商,通过软件定义服务,利用多云及混合云部署,为企业提供快速转型方案。在全球拥有超过650位人工智能、软件开发和公有云等方面的专家,为全球400多家企业客户提供基于人工智能的运维服务,积累了大量的行业经验。Bespin Global希望通过持续的MSP最佳实践的积累,以及基于云的人工智能AI技术的不断创新,来完成最终目标——实现AIOps。
谈到AIOps的未来发展趋势,众说纷纭,可以总结为:行业多样化、产业生态化、数据多样化、场景多样化、场景精细化、算法服务化、技术平台化、落地加速化、成熟度评估标准化。
AIOps发展虽然刚刚起步,但已经成为大势所趋!