4G走向5G,电信设备从传统设备演进到虚拟化、云化时代,软硬件架构都发生了翻天覆地的变化。电信业引入了很多IT的软件架构、思维、方法等;开源、APP和基础设施解耦等给电信应用带来了很多好处、便利,同时也带来了新的问题,其中对电信运维方式产生了较大的影响。 2G/3G/4G时代,业务一旦出现问题,运维人员一般不需要分析是硬件故障还是软件故障,对设备本身先进行软硬件一体的主备倒换,先恢复业务,再进行故障定位。 在当前云时代,基础设施集中化,中心DC物理设备规模庞大(>1000),网络功能打散分布在不同的物理节点上,一旦出现故障,原有的软硬件一体化主备倒换方式不再有效,需要更有效性自动化识别能力,识别故障根源是硬件原因、云平台原因,还是上层VNF的原因,快速区别出故障的根本原因,才能及时对故障进行有效隔离和恢复。 实现自动化和智能化的网络运维,是5G关键技术,而智能监控、故障分析是自动化运维的关键技术。 智能监控 智能监控的目标是,软件自动化发现系统运行异常,自动触发下一步对异常的分析,从而定位出系统异常根源,快速修复故障。 实现智能监控有直接方式和间接方式。 直接方式是指对环境、硬件(计算、存储、网络)、Cloud OS等关键设施进行指标监控,一旦出现异常数据,进行直接的故障告警、定位。 间接方式对5G业务关键KPI进行监控和多维度的对比分析,通过分析发现KPI异常判断故障是否发生,从而触发故障进一步关联分析定位。 多维度的对比分析可以从几个方面进行:
-历史数据对比方式。历史总是相似相近,历史数据对比分析按天、周、月、年、节假日历史数据综合进行,通过AI算法预先给出下一阶段(小时、天)KPI预测数据,再根据实时采集得到的数据,对比判断系统是否异常;
-同类对比方式。同类型的5G NF的同类KPI变化应该趋于一致,一旦出现较大(超过域值)波动,可以判断系统异常;单一的NF内部,不同微服务的处理KPI同样也应该趋同,如果不一致同样也可以判断系统异常。 故障分析 故障根源分析可以从告警和日志两个方面入手。在监控系统发现系统异常后,触发纵向分层告警、分层日志关联分析;横向关联NF内微服务间、NF-NF间进行关联分析,定位故障根源。 纵向关联 纵向关联体现在垂直架构上,网络架构包括物理层、虚拟层、业务层三个层次,当底层出现故障时,将影响上层业务(见图1)。
自动化运维关键技术:智能监控和故障分析
纵向关联解决的关键问题是:一旦发生底层硬件、虚拟层故障,上层业务KPI等指标会出现异常,垂直关联把上层业务的异常和底层故障关联起来,识别出根故障根源是在哪个层次:PIM层、VIM层还是VNF业务本身。 横向关联 横向关联能够解决的关键问题在于,把一个网元的故障和另一个业务相关网元的故障关联起来,把一个微服的故障和真正出问题的微服务关联,在应用层这同一层次识别出真正出问题的微服务或组件。 -在同一个VNF内,一个完整的业务流程需要不同的微服务协同完成,这些协同的微服务相互影响和干扰,一旦其中一个出现问题,故障的表现扩散到其他微服务,通过微服务间的横向关联,识别出故障根源微服务,快速定位真正出故障的微服务或组件。 -在VNF-VNF间业务流程在不同节点间流转时,如果某个节点发生故障,也将影响到与其相关的其他节点。比如:AMF、SMF、PCF、UDM等相互之间的关联影响,是业务流程的不同节点,通过VNF间的横向关联,在故障时,能快速识别出故障根源VNF,再协同VNF内微服务的横向关联功能,结合纵向关联,对故障进行最终定位。 常用技术 故障根源分析的常用技术有数据采集、数据分类(清洗)、数据监控、数据关联、定层定位等。
-数据采集:采集的数据包括业务告警、业务KPI、业务配置操作日志、网络设备操作日志、存储设备操作日志、虚拟设备操作日志、虚拟层平台操作日志、虚拟层系统运行日志等;
-数据分类:数据在清洗分类时主要有几个标签,如时间、位置、我影响谁(分类标签)、谁影响我(分类标签);分类标签包括网络、主机、存储、配置;
-数据监控:一般对上层KPI进行监控,KPI数据是统计数据,可以引入AI算法,对异常KPI进行判断,一旦出现异常数据,判断系统出现故障,触发故障根源分析系统;
-数据关联:主要根据预置的模板进行,模板以标签的形式进行关联,其中位置、时间、我影响谁、谁影响我,是数据关联主要依据;
-定层定位:通过数据关联,从上往下(业务、虚层、物理层)确定最终的关联节点,水平关联通过“分类标签”最终找到故障起因的网元、微服务或组件。 智能化运维的核心在于利用AI进行故障预测和自愈。通过收集系统日志、性能指标、网络流量等数据,AI能够学习系统的正常运行模式,从而在异常行为发生之前预测潜在的故障点。这种预测能力使得运维团队能够在问题发生前采取措施,而不是被动地等待故障发生后再进行修复。故障预测
故障预测的实现依赖于复杂的数据分析和机器学习算法。例如,使用时间序列分析来识别性能下降的趋势,或者应用聚类算法来检测异常行为模式。一旦AI模型被训练出来,它就可以实时监控生产环境,及时发现偏离正常行为的微小信号。
除了故障预测,智能化运维的另一个关键组成部分是自愈系统。自愈系统能够在检测到潜在故障时自动执行修复操作,无需人工干预。这可能包括重启服务、重新分配资源、甚至在某些情况下自动部署更新或补丁。自愈系统的有效性取决于其设计的准确性和反应速度,以及对不同故障场景的适应能力。
智能化运维的实施为企业带来了显著的好处。首先,它大幅减少了系统的停机时间,因为许多故障可以在影响用户之前就被预测并修复。其次,它提高了运维效率,减少了对专业运维人员的依赖,从而降低了人力成本。最后,智能化运维增强了业务的可扩展性和灵活性,使企业能够更快地适应市场变化和业务需求的增长。
然而,实施智能化运维也面临着挑战。数据的质量和量是AI模型准确性的关键,因此需要投入资源确保数据采集的全面性和准确性。此外,AI模型需要持续的维护和更新,以适应不断变化的技术环境和业务需求。
总之,智能化运维代表了运维领域的未来趋势,它将人工智能的强大能力应用于故障预测和自愈,极大地提升了运维的效率和效果。随着技术的不断进步,我们可以预见,智能化运维将成为企业IT基础设施不可或缺的一部分,为企业的稳定发展和创新提供坚实的技术支持。
智能监控、故障分析技术,解决了传统设备走向云化带来的设备故障定位复杂性,降低5G云原生及服务化软件架构带来的系统维护复杂性,使得运营商可以聚焦5G业务本身,创造更大价值! |