降低移动基站传输故障历时
一、 小组概况:
表1: 小 组 活 动 和 组 员 情 况 一 览 表
小组 名称 |
天翼传输QC小组 |
类型 |
现场型 |
|||
成立 日期 |
2009年5月4日 |
课题活动 时间 |
2009年5月-2009年12月 |
|||
人均接受TQM教育30小时 |
||||||
组 员 情 况 |
||||||
姓 名 |
性别 |
职称(职务) |
文化程度 |
小组分工 |
||
吴 峰 |
女 |
高级工程师(中心副主任) |
研究生 |
组织、效果检查(组长) |
||
陈文超 |
男 |
工程师 |
本科 |
策划、分析、实施 |
||
周 虹 |
女 |
高级工程师 |
本科 |
实施、课题指导 |
||
肖 刚 |
男 |
工程师 |
本科 |
实施、分析、质量分析 |
||
魏 琼 |
女 |
工程师 |
本科 |
实施、资料统计 |
||
芦 军 |
男 |
工程师 |
本科 |
实施、质量统计 |
||
杨 端 |
女 |
工程师 |
本科 |
实施、质量统计 |
||
杨 波 |
女 |
工程师 |
本科 |
实施、质量统计 |
||
二、选题理由
传输网是移动业务的承载网,传输网络质量是影响移动业务运行质量的第二大主要原因,仅次于无线设备,武汉电信分公司2008接收C网后,据统计每月基站传输故障历时高达27000多分钟,折算到单个移动基站故障历时为30多分钟,如果能降低每个移动基站传输故障历时,就能缩短移动基站总的故障历时,有效改善移动网络运行质量,提高用户的感知度 。
因此,本次课题定为:降低单移动基站传输故障历时(故障历时:从故障发生至故障修复的时间长度)。
三、现状调查
1、 小组成员对2009年1月-4月移动基站传输故障工单按月进行了统计。
表2:2009年1月-4月移动基站故障单统计表
月份 |
传输故障次数 |
移动基站数量(个) |
传输故障历时(分钟) |
单个基站传输故障历时(分钟) |
一月 |
127 |
875 |
29051 |
33.20 |
二月 |
117 |
896 |
21138 |
23.59 |
三月 |
144 |
903 |
33609 |
37.22 |
四月 |
139 |
914 |
32912 |
36.01 |
总计 |
527 |
3588 |
116710 |
32.53 |
2、 为了进一步分析移动基站传输故障历时,小组成员对2009年1月—4月共计527张传输故障单原因进行了分类统计。(见表3)
表3:2009年1月-4月移动基站传输故障主次因素表
序号 |
故障原因 |
故障次数 |
故障处理时长 (分钟) |
占比 % |
处理累计时长 (分钟) |
累计占比 % |
1 |
传输2M故障 |
341 |
81580 |
69.9 |
81580 |
69.9 |
2 |
保护环网不完善 |
101 |
23575 |
20.2 |
105156 |
90.1 |
3 |
传输设备板卡故障 |
33 |
7353 |
6.3 |
112508 |
96.4 |
4 |
其它 |
52 |
4202 |
3.6 |
116710 |
100 |
3、 分析移动基站传输故障历时主次因素排列图
由上图可知,“传输2M故障”是影响移动基站传输故障历时的主要因素。
四、目标值确定及可行性分析
(一)目标值
经小组成员讨论决定将本次活动的目标值定为“单个移动基站传输故障历时<20分钟”。
(二)目标值可行性分析
从主次因素排列图表可以看出,造成移动基站传输故障历时的主要因素有:传输2M故障、保护环网不完善、设备板卡故障和其他原因四项。其中,“传输2M故障”占比69.9%,在其他条件不变的情况下,只要压降“传输2M故障”即可降低移动基站传输故障历时。
1、2009年2月单个移动基站传输故障历时为23.59分钟,接近目标值。
2、小组经过讨论认为,只要解决“传输2M故障”的60%,单个移动基站传输故障历时就可以实现目标值{32.53-(32.53*69.9%*60%)=18.88分钟<20分钟},小组成员认为是有能力解决的。
3、武汉电信移动基站全部承载于ASON网络,不论在网络安全还是性能监测方面,普遍优于传统的SDH网络。7名小组成员都参加过ASON网络B级以上的专业培训,因此从管理能力和技术水平上讲,小组是有能力实现目标的。
五、原因分析
小组针对单个移动基站传输故障历时的主要症结 ――“传输2M故障”,采取“头脑风暴”的方式,分析其中的原因,具体情况见下图。
六、要因确认
1、小组针对末端原因,采用现场调查、实验、测试及远端监控、资料查询等方法,逐条进行确认,确定要因如下(见下表):
表4:要因确认计划表
序号 |
末端原因 |
确认内容 |
确认方法 |
验证标准 |
负责人 |
完成日期 |
1 |
2M高频头接触不良 |
排查数字配线架 |
用仪表监测误码率 |
<10-6 |
芦 军 |
2009年5月 |
2 |
设备接地不好 |
现场排查 |
用数字型地阻仪测接地电阻 |
<10欧姆 |
杨 波 |
2009年5月 |
3 |
设备内部时钟不同步 |
网管检查各类时钟 |
检查各类设备时钟源 |
锁定同一时钟源 |
肖 刚 |
2009年5月 |
4 |
维护经验不足 |
维护人员传输专业知识 |
组织维护人员岗位达标考试 |
达标率>80% |
杨 端 |
2009年5月 |
5 |
资料不准 |
移动电路资源管理系统录入情况 |
核查资源管理系统电路准确率 |
准确率>98% |
魏 琼 |
2009年5月 |
6 |
缺乏统一调度 |
基站故障处理流程 |
统一调度基站故障处理 |
闭环管理 |
周 虹 |
2009年5月 |
7 |
配套仪表不全 |
仪表分配 |
仪表分类统计 |
2M分析仪、光功率计 |
陈文超 |
2009年5月 |
2、小组成员对2009年1-4月份341次移动基站2M传输故障处理时长进行了分类统计,并且进行要因确认,
验证一:2M高频头接触不良
2009年5月9日,我们分析了1-4月341故障工单,发现高频头虚焊、芯皮短路、松动等接触类故障共计45张故障单,性能值低于2M端口稳定域值10-6,故障时长20313分钟,占比24.9%,所以它是要因
验证二:设备接地不好
从5月5日-29日,对全网914个基站按10%比例进行基站接地情况抽查,地阻值全部<10欧姆。所以不是要因。
验证三: 设备时钟不同步
时钟不同步是传送电话语音信号触发时间不一致,接受信号时就会造成相位差,随着通话时间的累计,相位差随之增大,指针调整频发,会引起误码及电路中断。7750设备锁定系统晶振时钟,而传输ASON设备锁定BITS时钟,二者相连却锁定不同步的时钟源。2009年5月20日,我们对341张2M故障单进行了分类统计,发现有106张故障单是时钟不同步引起的,共计故障时长25371分钟,占2M故障时长的31.1%,所以是要因。
图5:故障派单系统
验证四:维护经验不足
在日常故障处理中,我们发现,部分普通基站传输故障,耗时较长,我们怀疑,维护人员没有掌握基础的维护技能。因此,5月17日,对移动基站71名维护人员进行了岗位达标考试,内容包括:传输基本理论、仪表使用、网管操作等方面,达标率71.8%,低于验证标准,所以是要因。
验证五:资料不准
在技术业务室和客响中心每月的专项考核中,资源管理系统电路准确率为98.8%>验证标准98%。
不是要因。
验证六:缺乏统一调度
1-4月共计有34件(如武铁材料超时故障,由于和区营维中心协调不畅,耗时近8小时,真正有效处理时间只有160分钟)超时工单,平均每次故障时长500分钟左右,但是每次真正有效故障处理时长只有180分钟左右,大部分时间被协调、调度耗费,因为没有闭环管理,造成故障超时,总的故障时长16968,占比20.8%,是2M故障的第三大因素,所以是要因。
图8:超时故障单
验证七:配套仪表不全
统计现场维护岗配套仪表数量,分公司7个维护小组都配有2M测试仪和光功率计,满足日常维护需求,符合验证标准。不是要因。
表9:基站维护小组配置仪表统计表
维护小组 |
光功率计 |
2M测试仪 |
领取时间 |
签名 |
江岸 |
1 |
3 |
2008年11月 |
高兵 |
江汉 |
1 |
3 |
2008年11月 |
王建涛 |
硚口 |
1 |
2 |
2008年11月 |
胡志华 |
汉阳 |
1 |
2 |
2008年11月 |
伍彪 |
洪山 |
2 |
3 |
2008年11月 |
郑小勇 |
青山 |
1 |
2 |
2008年11月 |
彭俊文 |
武昌 |
2 |
3 |
2008年11月 |
张健岭 |
七、制定对策
从上面分析找到了4个要因,我们制定了相对应的对策。见对策表:
序号 |
要因 |
对策 |
目标 |
措施 |
责任人 |
地点 |
完成时间 |
1 |
设备内部时钟不同步 |
检查各类设备时钟模式、锁定源 |
统一设备时钟配置标准 |
搭建实验平台,测试在各种时钟配置情况下电路性能指标,统一设备时钟源。 |
肖 刚 |
宝丰路十二楼实验室 |
2009年 6月 |
2 |
2M高频头接触不良 |
对存在隐患的配线架进行整治,规范配线架同轴头的使用 |
月均接触类故障由11.25次下降9次 |
对现有故障较高的配线架进行统计分析,制定整治计划表;制定配线架施工规范标准 |
杨 端 |
移动基站机房 |
2009年 5月 |
按计划整治数字配线架,定期检查 |
芦 军 |
宝丰路十二楼 |
2009年 7-12月 |
||||
3 |
缺乏统一调度 |
制定基站故障处理流程 |
故障处理全程闭环管理 |
制定流程图,组织维护人员学习基站故障处理流程 |
周 虹 |
网维技术业务室 |
2009年 7月 |
4 |
维护经验不足 |
收集技术资料,编制维护手册 |
基站维护人员维护手册覆盖率100% |
制定设备维护手册模版 |
陈文超 |
宝丰路十二楼 |
2009年 5月 |
收集维护手册技术资料 |
魏 琼 |
宝丰路十二楼 |
2009年 6-7月 |
||||
组织维护骨干编制设备维护手册 |
吴 峰 |
网维技术业务室 |
2009年8-10月 |
表10:对 策 表
八、对策实施
对策实施一:搭建实验平台,统一设备时钟源
为了找出设备间最佳的时钟源,5月22日—26日,在组长吴峰主任的领导下,小组成员搭建了实验平台,分别对7750路由器的155M板卡和622M板卡做了测试。7750设备分别采用3种时钟模式,系统晶振也就是自由振荡,是设备自己时钟;线路时钟是在光纤线路上获取的时钟;BITS时钟是从同步时钟设备获取。
表11:7750时钟实验模式及测试结果
模型 |
7750时钟模式 |
传输网管监测 |
基站观察 |
|||||
系统 |
板卡类型 |
2M |
AU调整 |
传输监测2M误码 |
PING测试 |
一周观察结果 |
||
155M |
622M |
|||||||
1 |
系统晶振 |
— |
系统 |
系统 |
较多 |
有 |
有丢包 |
有瞬断 |
2 |
线路 |
— |
系统 |
系统 |
无 |
无 |
无丢包 |
无瞬断 |
3 |
BITs |
— |
系统 |
系统 |
无 |
无 |
无丢包 |
无瞬断 |
4 |
系统晶振 |
系统 |
— |
系统 |
较多 |
第一时隙有误码 |
有丢包 |
有瞬断 |
5 |
线路 |
系统 |
— |
系统 |
无 |
无 |
无丢包 |
无瞬断 |
6 |
BITs |
系统 |
— |
系统 |
无 |
无 |
无丢包 |
无瞬断 |
实验证明:
武汉电信7750设备若采用线路或者BITS时钟源,测试结果显示传输通路性能指标良好,不会有指针调整和误码。
根据该结论,小组成员决定将BITS时钟和线路时钟分别作为7750设备的主、备时钟源。5月18日开始小组成员肖刚用1周时间更改了8套上海贝尔7750设备的时钟配置。随后小组成员挂仪表跟踪监测基站运行情况,发现传输性能指标正常无误码。见表8:
表12:更改7750路由器时钟设置前后传输性能指标对比表:
|
更改前 |
更改后 |
|
误码情况 |
622M板卡 |
所有2M时隙均有误码 |
误码消失,变为0 |
155M板卡 |
第一个2M时隙有误码,其他时隙无误码。 |
误码消失,变为0 |
|
指针调整情况 |
AU指针调整 |
每个155M每小时调整3000多次。 |
AU指针调整为0 |
TU指针调整 |
每个2M每天调整10000多次 |
TU指针调整为0 |
对策一实施后,小组成员统计5-6月故障单发现单个移动基站传输故障处理时长从原来32.53分钟降为25.48分钟,并没有发现此类原因引发的移动基站传输故障。见图5:
图10:时钟调整前后单个移动基站传输故障历时
本小组在国内首次解决了长期以来上海贝尔7750路由器和传输网对接后出现的电路瞬断、误码、指针调整等问题。为此,中国电信集团公司正式发文(中国电信移建[2009]30号)将该方案作为一项强制的技术规范在中国电信全集团内推广,提高了中国电信移动基站传输承载网的质量。
图11:中国电信集团公司规范时钟同步设置的通知
对策实施二:对存在隐患的配线架进行整治,规范配线架同轴头的使用。
1、 截至2009年4月移动基站数字配线架共计914架。根据2009年1—4月341张移动基站2M传输故障单的分析,通过层层排查,发现存在隐患的数字配线架有89架,小组成员根据区域制定2009年7月-12月数字配线架整治计划。(见表13):
表13:移动基站数字配线架整治计划表
月份 |
7月 |
8月 |
9月 |
10月 |
11月 |
12月 |
计划整改区域 |
江岸区 |
江汉区 |
武昌区 |
洪山区 |
硚口区 |
青山区 |
计划整改数量(架) |
17 |
21 |
12 |
18 |
11 |
10 |
2、为了保证网络的运行质量,降低由于数字配线架接触不良导致的接触类故障。2009年5-6月小组规范了配线架的施工,并下发给工程部门,要求施工严格按照规范执行。(见表10):
表14:配线架施工规范
工序 |
要求 |
剥 线 |
剥线刀将同轴电缆外层保护胶皮剥去1.5cm,芯线外的乳白色透明绝缘层剥去0.6cm,屏蔽线或芯线不能受损。 |
连接芯线 |
插入深度为2-3毫米,芯线不得弯曲、不得触碰电缆头外壁。 |
压 线 |
用卡线钳使套筒形变为六边形,屏蔽层和头套筒压为一体。 |
焊 接 |
不要将焊锡流露在芯线插针外表面,焊点适中,无尖头,无虚焊。 |
测 量 |
衰耗小于0.5DB。 |
上架安装 |
无变形拉伸,接头外露长度为65毫米,确保U型插塞和电缆头接触良好。 |
工程部门从2009年7月份启动全网基站数字配线架整治工作,截至12月已完成78个数字配线架的整治工作。(见图12):
图12:移动基站数字配线架整治情况分布
小组成员对2009年7月-12月的2M故障工单进行统计分析,数字配线架整治效果非常显著,平均每月故障次数由原来11.25次下降至7.75次。(见图13):
图13:数字配线架故障次数
对策实施三:制定基站故障处理流程,严格执行闭环管理
小组成员分析发现移动基站处理流程不畅,延误了移动基站故障处理时长,将这一现象逐级上报至相关部门,在各级领导关注下,运维部牵头制定了移动基站故障处理流程。
图14:移动基站故障处理流程图
2009年7月初,移动基站故障处理流程下发到各维护部门,并要求故障处理时严格按照流程执行。经过半年的运行实施,小组成员分析2009年7月-12月发现移动基站故障历时进一步缩短。
对策实施四:收集技术资料,编制维护手册
针对维护中存在的常见问题,中心组织维护骨干编写内容全面、实用性强的基站传输设备现场维护手册。
图15:CDMA网络无线基站传输设备现场维护操作手册
2009年8月网维中心对移动基站共计71名维护人员分批次进行培训,集中讲解、现场演示让每一个维护人员维护技能考核达标。
九、效果检查
1、活动前后效果对比
通过本次活动,2009年5-12月单个移动基站传输故障历时已由32.53分钟下降为18.14分钟。见表15,图16。
表15:2009年5-12月移动故障平均处理时长统计表
月份 |
传输故障次数 |
移动基站数量(个) |
传输故障历时(分钟) |
单个基站传输故障历时(分钟) |
五月 |
131 |
931 |
25425 |
27.31 |
六月 |
113 |
950 |
22467 |
23.65 |
七月 |
144 |
976 |
20037 |
20.53 |
八月 |
139 |
1242 |
23399 |
18.84 |
九月 |
126 |
1532 |
25722 |
16.79 |
十月 |
117 |
1534 |
18162 |
12.96 |
十一月 |
93 |
1254 |
16252 |
11.84 |
十二月 |
101 |
1264 |
16659 |
13.18 |
总计 |
964 |
9683 |
175649 |
18.14 |
图16:QC活动效果
2.效益分析
(1)直接收益
l 2009年1-4月单个移动基站传输故障历时为32.53分钟;
l 2009年5—12月单个移动基站传输故障历时为18.14分钟;
l 截止2009年5-12月武汉电信移动基站平均每月收益约为6450万元;
每月直接收益为:6450*(32.53-18.14)/30*24*60=2.15万元
2009年5-12月直接收益为:2.15*8=17.18万元
l 一线维护人员(技术七岗)2009年人力成本以80000元计,折算到每小时为40元;
l 2009年5-12月共计8个月平均基站数为:1210个。
2009年5-12月节约人力成本约为:(32.53-18.14)*1210*0.004*8/60=9.29万元
l 移动基站维护车辆共计17辆,每月每辆维护成本1500元,2009年5-12月节约维护车辆成本约为9万元
2009年5-12月总收益为17.18+9.29+9=35.47万元
(2)无形收益
1、通过本次活动,降低了移动基站传输故障历时,提高了移动网络运行服务质量,有效提升用户感知度,为移动用户大发展奠定了良好的基础。截止2009年12月26日10时,武汉移动网络拥有用户数为124.5万,较2009年4月活动前上升了67.46%。
2、通过本次活动,进一步提高了成员的主动维护服务意识,大大增强了团队精神,提高了集体攻关的能力。小组成员学到很多发现、分析、解决问题的方法,并认识到PDCA循环可运用到生活的方方面面,提高我们的生活质量。
十、巩固措施
1、本次活动开发形成的规范、流程分别已列入中国电信集团公司、武汉电信分公司网络维护中心标准化文档管理,明细如下:
2、通过对2010年1月-3月移动基站传输故障单分析,移动基站传输故障处理平均时长都低于目标值,这说明以上措施是行之有效的。
表16:2010年1月-3月移动基站传输故障统计表
2010年月份 |
移动基站数量(个) |
传输故障历时(分钟) |
单个基站传输故障历时(分钟) |
一月 |
1274 |
19504 |
15.31 |
二月 |
1275 |
20961 |
16.44 |
三月 |
1282 |
20486 |
15.98 |
十一、下一步打算:
在现状调查中,我们发现影响移动基站传输故障的因素中第二因素“保护环网不完善”占比20.2%、为此,下一循环要解决的是“保护环网不完善”问题。我们会再接再励,搞好明年的QC活动。
武汉电信分公司网络维护中心
天翼传输QC小组
2010-4-3