通信世界网消息(CWW)随着“互联网+”、5G、4K、VR等新业务和新技术的蓬勃发展,新兴网络服务对基础光网络提出了更高的要求,光网络规模不断扩大,网络结构更加复杂,网络复杂度呈指数级增长,导致运维成本成倍增长。人工智能技术(AI)的蓬勃发展为解决上述问题带来了新的机遇,利用AI强大的数据分析和信息提取能力,通过对海量网络数据采集、分析、预测、决策,为诊断网络质量、优化业务性能、减轻运营负担、改善用户体验等带来无限可能。
光网络AI应用场景分析
光网络引入AI的驱动力
引入AI可以有效解决网络运维中预测预防类、复杂类、重复性等工作带来的成本和效率上的问题,主要体现在以下3个方面。
一是预评估。实现对光网络故障/风险进行提前预测和提示,提升故障/风险闭环处理效率;对全网容量增长进行预测,指导网络扩容建设预算评估;精准预测网络流量变化并及时对网络资源进行扩容和缩容,提升网络稳定性和用户体验,节省运营商成本。
二是智管控。构建智能处理建议能力,嵌入维护流程或系统中,提升故障处理效率;具备哑资源空闲纤芯质量监控能力,实现全量纤芯质量可视,突破哑资源数字化管理。
三是优网络。对海量告警信息进行统计分析与建模学习,快速、准确过滤关联告警,定位根因告警,提升告警事件处理的效率;智能调测优化网络,波长发放自动调测,光性能实时监控、实时调优,免人工调测;频谱/路由等网络资源自动优化,提升网络资源利用率。
AI分析类场景分析
将主备业务或关联业务部署到同一条光缆上并不鲜见,如果单条光缆中断后主备业务或关联业务同时失效,不仅会导致业务中断,还会使部分网络成为“孤岛”。随着网络不断变更和演进,人工巡线、人工录入维护方式不能够精准识别同缆,效率和识别准确度较低,引入AI技术可以智能识别主备业务、关联业务是否存在同缆风险,保障网络高可靠运行。
网络规划与业务发展不同步,可能造成网络负载不均、资源利用效率低下、资源需求高低不均,根因是网络拓扑已经无法匹配业务流量流向变化。对此,可以基于业务精准预测反向优化网络拓扑,通过适量加纤、加缆、加点,实现网络承载能力倍增,适应业务变化和发展需要。
秒级、毫秒级甚至微秒级业务闪断发生频次高,但持续时间短、无告警上报,且人工定位和回溯困难,故障很难复现,基本依据用户投诉解决问题,严重影响客户感知和运营商口碑。同时,网络“卡、慢、断”导致用户体验差与应用、带宽、连接多个维度紧密相关,根因定位定界涉及大量网络数据,人工分析效率很低,大多数用户业务体验问题难以根治。迫切需要引入AI技术,提升光网络瞬态变化感知精度,实现性能瞬变监测和闪断智能定位定界,实现用户体验差根因的高效定位定界。
AI预测类场景分析
随着专线业务的快速发展,业务发放效率成为运营商的核心竞争力,而传统资源规划很难适应专线的随机性和突发性,当前运营商对网络投资的收紧加大了资源精准预留、业务快速发放的难度。引入AI智能资源预测,结合历史业务增长趋势,实现资源高效利用、业务发放“零”等待。
光网络的性能劣化、隐患变故障是渐进式发展的,基于阈值的人工判断方式难以识别,故障一旦发生,经常面临大量业务中断、修复周期过长等挑战。随着光网络承载的业务流量增长,维护压力与日俱增,迫切需要引入AI智能识别网络健康、提前预测风险。
随着数字经济的发展,光网络上波长增加明显提速,同时为了增加网络可靠性引入智能路由调整,使得网络中频繁加掉波,从而对现有波长性能产生影响,而当前人工方式存在工作量大、效率低、精度差等问题。引入AI智能余量预测,可以自动对波长余量进行动态仿真,精准模拟加掉波对现有波长的性能余量变化和劣化根因分析,为精准调测提供保障。
AI优化类场景分析
省际骨干传送网与省内骨干传送网融合、省内骨干传送网与城域网一体化将导致网络规模不断扩展,使路由选择过多,从而加大业务选路变数。因此,光模拟网络面临手工调测效率低、出错概率高、效果不可控等问题。而引入AI智能优化调测步骤,再结合自动性能检测,可以实时监控关联路径的性能,保障网络处于稳定、较优状态。
为适应动态的业务变化、保障网络性能指标时刻处于最优并发掘网络利用潜能,需要对波长、链路和路由实施动态优化。以往各类传输优化工具或软件主要借助固化的方法和简单的规则,甚至依赖工程师的经验完成优化,并未识别到本质特征、考虑维度简单、相关性分析不足、局部而非全局,因此优化的结果往往不是普遍有效。如今随着网络规模和业务规模的不断扩大,传统优化方式难堪重任,需要引入人工智能以完成整个传输网生命周期内的精细化、动态化、智能化的优化。
光网络AI关键实现技术
光网络AI应用解决方案架构
AI应用解决方案架构可以为光网络提供哑资源管理、智能规划、智能运营、智能维护和智能优化等AI应用,实现光网络全生命周期自动化、智能化运维,支撑政企专线、数据中心、家宽、算力网络等各类业务高品质发展。具体实现载体包括底层网元设备和上层管控系统,整体架构如图1所示。
图1 光网络AI应用解决方案架构
管控系统可以对光网络进行数字孪生,基于网络级意图管理集成网络级AI引擎,进行智能分析预测、仿真和决策控制,实现自动化闭环处理。
网元设备能够基于光Sensor体系对光参数据进行全面、精准、实时感知和采集,使用网元级内生AI对高性能数据分析、处理和压缩,实现网元级分析预测、智能决策,上报全量光参,精准计算噪声、代价和余量等,与管控系统网络级AI进行功能互补。
融合感知技术
面对高复杂度的多参量光网络系统,为了能够全面、精准、实时感知光网络状态,网元系统和管控系统需要从维度、精度、频度等多个角度进行光Sensor数据的分层采集和汇聚,并通过AI算法对原始光Sensor数据进行数据挖掘,支撑光网络的各类业务场景。
对于管控系统需要具备数据汇聚和数据挖掘处理能力。数据汇聚是指管控系统需要将采集的数据进行分类汇聚,可分为资源数据底座和性能数据底座。资源数据底座汇聚的数据主要是静态的存量数据,比如业务存量、网络拓扑存量数据等。汇聚的资源和性能原始数据表达的信息量始终是有限的,因此管控系统需要基于AI算法技术对光Sensor数据进行数据挖掘以获得额外的信息量,用于支撑感知、诊断、预测、控制等多类业务场景。
光Sensor技术是以光技术手段感知、检测多种物理量,并将模拟物理量数字化的一种技术。面对高复杂度的多参量光网络系统,为了能够全面、精准、实时感知光网络状态,网元系统和管控系统需要从维度、精度、频度等多个角度进行光Sensor数据的分层采集和汇聚,并通过AI算法对原始光Sensor数据进行数据挖掘,支撑光网络的各类业务场景。网元系统利用光Sensor技术对各个层面的数据进行逐层采集:光业务层、光器件层、光信道层、光链路层。光业务层数据主要是客户关注的业务属性指标,比如带宽、时延、误码、保护倒换时长等指标;光器件层数据主要是采集光器件的物理指标,包括功率、温度、电压、频偏等;光信道层数据关注点在于信道的属性特征,类似信道编号、光信噪比、单波功率等;光链路层数据集中在链路侧的特征,包含光纤损耗、光纤类型、光纤事件等。
网络时延是一项重要的网络性能指标,对业务流量吞吐、业务感知有直接影响,精准捕捉影响网络性能和业务体验的时延变化,感知时延并定界定位时延变化根因,对自动优化时延、保障业务体验至关重要。感知时延能力不仅要支持已开通业务电路的时延可检可测,还要能在任意潜在源宿开通电路之前准确预估时延,并在业务电路时延出现变化时,能及时捕捉到时延变化根因,比如业务电路保护倒换导致的线路时延变化,并能准确检测到业务时延变化值。通过AI算法提前获取业务影响时长是评估业务体验、提升网络质量、改进运维手段的重要指标。
面临光Sensor产生的海量数据,数据流转技术建立了网元设备内和网元设备与管控系统间的高速传输通道,实施网元设备分布式本地决策和管控系统集中式智能控制两层处理,协同完成决策,如图2所示。
图2 高性能数据流转架构示意
网元设备按照数据采集量的大小和时间精度分为高速采集和低速采集。硬件上,在网元设备为关键Sensor开辟快速外送数据到硬件通道,使用高速缓存区存储多端口高精度数据(如毫秒级);软件上,构建统一大采集数据框架,抽象建模光Sensor数据采集项,灵活控制多单板、多端口的数据并发采集,并使用内存共享技术高效读写。
云地协同全栈AI技术
光网络AI技术研究面对模型泛化能力差、模型部署要求算力高、本地样本少/标注难、大数据管理困难等问题,需要探索一种新的AI技术架构应对这些问题,加速AI应用的规模部署。AI模型应具有在线学习能力,能够不断学习网络新特征、新变化,AI模型训练应集中部署在算力中心或者支持分布式训练部署。针对光网络多边缘设备+中心控制的组网特点,云地协同AI技术架构是解决上述挑战的最佳解决方案。
云地协同是指云端和地端协作完成数据样本上云、模型状态管理、模型重训练、模型/知识下发、 择优更新等一系列闭环任务,同时把云端汇集的全局网络知识经验、全量数据训练得到的高精度模型,持续注入地端,让光网络AI能够进行智能迭代升级,变得越来越聪明,如图3所示。
图3 云地协同全栈AI示意
AI服务包含数据治理服务、模型训练服务、专家经验辅助服务,涉及运营商大量运营数据、用户数据、网络数据,对数据安全要求很高,云端适合部署在IT云。实时海量数据并发上报、处理加剧整网压力,在地端(包含管控系统、网元设备)部署分布式AI,就近处理本地实时海量数据。
智能分析预测技术
网络出现问题后生成告警,进而触发故障定位和修复是当前网络运维的普遍方式。海量告警上报导致故障根因定位困难、静默故障无告警上报导致无法定位故障根因,是根因告警分析的两大难题。
由于网络数据量大、维度多和故障模式多样化,且关联影响发散,需要精准的筛查和多维度关联分析能力,通过智能分析技术,构建关联模型并进行相关训练,实现根因告警识别和静默故障定位。智能资源预测和故障风险预测可提前发现资源瓶颈和故障风险,提升业务TTM(最近十二个月市盈率)和业务可靠性。
光网络智能分析预测能力需在网元和管控层面分别构筑对应的智能分析能力。通过分层实现智能AI分析预测能力,基于高精度数据的短周期预测,需在网元进行高速数据采集处理和分析预测闭环,提升分析效率;基于数据粒度较大的长周期预测,可通过管控系统长周期数据采集和分析预测闭环。智能预测一般采用时间序列模型+训练学习方式实现。光网络常见时间序列模型包括差分回归移动平均模型(ARIMA)和PROPHET模型,前者根据网络实际资源进行预测,例如根据网络当前新增链路来预测未来某一段时间内的链路增量;后者可以在一定数据缺失的情况下,仍能保持较好的预测效果,如光传输性能余量预测适用于该方法。
智能仿真决策技术
光网络仿真能够为网络规划、设计、配置以及网络自优化(如网络路径优化、网络资源性能优化等)提供可靠依据,通过对配置和优化结果下发前进行事前仿真决策,确保配置和优化结果的自动、准确、可信任执行,保障业务安全。网络仿真能够有效地验证实际方案或比较多个不同的仿真设计以及组织方案,以便于对不同的设计方案建立模型,实施模拟,对网络性能预测数据采取定量获取,为设计、配置方案的比较和验证提供可靠的依据。
网络仿真决策技术是一种利用数学建模和统计分析的方法模拟网络决策行为,通过建立网络信息的统计模型,模拟网络操作执行,获取网络设计及优化所需要的网络性能数据的技术。网络仿真分为3个阶段:准备阶段、模型设计、仿真与结果分析。
在仿真的基础准备阶段,构建全光参量数字孪生底座,通过Sensor体系实现上报全量光参、在线学习,精准计算噪声、代价、余量等,支撑对网元实时状态的全量认知;在仿真的模型设计阶段,除了对网元、单板、端口、滤波器等基础建模外,通过离线和在线大数据学习,对光传输质量进行在线建模;在仿真与结果分析阶段,通过AI迁移学习算法、回归算法等实现余量动态监控以及自优化执行结果分析,做到自动调整优化方案以及实时自调优。
光网络AI应用案例
目前,AI技术在光传送网络中已经开始各种应用探索。
应用一:同缆风险智能识别
为排除主备业务物理同缆风险,基于光纤的瑞利散射、受激拉曼散射、偏振状态等光学效应产生机制,通过对光纤信息、站点地理信息、光性能信息、环境信息等数据进行分析,提取光纤指纹特征,采用多模态机器学习智能算法识别同缆概率,实现了同缆风险自动识别。
应用二:光网络健康预测和可视
为实现对光网络健康预测与可视,基于秒级数据采集,对数据进行清洗、标定和特征提取,采用AI算法对光纤进行多维度健康预测和劣化预警,分析光纤和波道健康度,并根据光性能变化趋势,提前预测劣化类故障风险,以及自动定位和定界光纤故障、自动分析割接质量。
应用三:网络故障根因分析
首先对历史告警以及告警相关联数据进行特征提取、清洗与聚合等处理,根据处理后的数据,通过机器学习等智能化算法的训练推理,获得告警间的关联及衍生关系、关联告警与根因故障的映射关系,进而生成RCA(Root Cause Analysis根因分析)规则、积累形成规则库。在告警监控中,通过展开告警关系树,可以明确地获悉告警间的关联、衍生关系,并通过RCA规则库获得关联告警所映射的故障根因。
光网络架构体系处于数智化转型升级的关键阶段,AI在光网络中的应用有广阔空间可以挖掘。近期需要深化融合感知和智能分析、预测类技术研究,提升哑资源感知能力,推进光网络全参量感知、光缆和资源规划预测、故障智能定界定位及风险预测技术的成熟。远期需要突破光网络智能仿真决策技术,增强AI模型泛化能力,将AI优化类场景应用扩展至光网络业务配置优化、资源优化、性能优化等场景。
欢迎光临 信息谷 - ICITU (https://icitu.com/) | Powered by Discuz! X3.4 |