企业大数据应用平台ETL系统运维实施技术方案
为保障企业大数据应用平台的日常生产运维工作,保持运维工作的延续性,需由“经分后台XX、ETL等应用日常维护服务”提供相关的监控、维护工作。
在确保企业经营分析系统运维工作顺利开展,包括经分现网系统每日正在运行的上千项流程的日常运维、DACP流程调度、数据分发、进出口数据质量、ETL配置维护以及及时性监控、月生产维护、重点应用及时完成情况监控。
例行服务必须按规定时间进行,服务响应时间必须在合同规定的时间内执行,故障应急必须迅速做出反应。准确无误地完成所承诺的服务。要求避免服务过程中的失误,避免服务过中影响局方的业务稳定。术业有专攻,提供专业的服务团队为局方提供专业服务,保证服务质量。
符合局方相关维护规定,做好信息安全保密工作。
故障级别定义 | 故障级别 | 故障定义 | 服务描述 |
一级故障 | 一经接口、重点应用相关接口故障或延迟;重点应用、重点模型调度故障或延迟 | 重点接口或程序延迟或故障。 | |
二级故障 | 基础模型DWD、中间层模型DWA的相关接口或程序故障或调度延迟 | 基础、公共层模型或程序故障或延迟 | |
三级故障 | 条线主题公共层DWA模型故障或调度延迟 | 主题公共层模型故障或延迟 | |
四级故障 | 非重点应用层程序故障或调度延迟。 | 非重点应用故障或延迟 |
服务响应时间 | 故障级别 | 电话响应时间 | VPN拨入时间 | 人员到场时间 | 故障恢复时间 |
一级 | 3次内 | 15分钟 | 2小时内 | 2小时内 | |
二级 | 3次内 | 15分钟 | 2小时内 | 2小时内 | |
三级 | 3次内 | 30分钟 | 4小时内 | 4小时内 | |
四级 | 3次内 | 60分钟 | 4小时内 | 6小时内 |
重点值守:
在局方的要求下,主要是在重要通信保障或国定节假日期间,根据保障等级要求,提供
现场或远程VPN值守服务,根据服务质量进行考核。
突发情况响应
面对突发情况或突发事件,应提供应急响应,要求按照故障等级和响应时限到达现场处理。如有同类故障的处理预案,立即进行业务恢复。否则升级至远程技术支撑中心,同时通报各相关厂商请求提供技术支持服务。同时,现场支持服务工程师将到达现场,实施或配合进行业务恢复和故障处理。
服务满意度保障
空中选号系统服务确保及时、有效的解决服务中出现的问题,不造成各类故障预警,使空中选号系统达到服务满意度指标考核要求。
具体工作:1、对空选系统进行维护;2、确认系统情况合理升级系统版本;3、相关应用配置按需调整;4、对相关应用特征进行及时更新。根据要求,对流量策略进行调整,并对设备系统进行安全漏洞扫描,及时更新系统补丁,避免系统隐患。
生产安全
维护人员需遵守局方的人员进出、机房管理与安全生产规定。
信息安全
维护人员需遵守局方信息安全相关保密规定。系统安全服务包括系统安全保障、信息安全支持服务。系统安全保障是根据相关方要求,定期检查空选系统安全设置,防止一些未经允许的访问影响系统的安全。信息安全支持服务是根据集团信息安全规范和工信部信息安全按要求,确定支持服务作业计划,定时进行系统和应用安全性检查,定期进行系统密码回收和检查,定时对系统的补丁、漏洞等进行检查,对发现或受理的问题进行预防性的维护作业,消除故障隐患。根据不同时期的不同要求,经过协商确认后,系统安全服务作业计划具体内容项目可以定期或不定期的调整。
优化建议
积极主动对系统运营提出性能或功能上的优化建议,与局方人员一起,进行实施,评估能否取得明显效果。
临时任务:
有承担局方临时交办任务的义务,并根据具体情况,承诺相应的服务质量。
7X24小时电话支持服务
提供7X24小时电话支持,受理报障,咨询和远程技术支持服务。拨打报障电话3次内有人应答
常规巡检
常规巡检月为单位,范围包括:
常规巡检作业项目 | 作业周期 | |
例行检查 | 监控结果检查、记录 | 4次/月 |
系统例行检查、记录 | 4次/月 | |
软件检查 | 业务量检查 | 4次/月 |
业务性能耗时检查 | 4次/月 | |
日志检查 | 检查日志中的错误 | 4次/月 |
系统软件和应用软件版本、补丁检查 | 不定期 | |
分析和优化 | 为配合新增要求的分析和优化任务。 | 按需 |
为保障系统的健康、高效运行,消除问题隐患,提供系统巡检服务。
夜间3次定时巡检汇报:2点,5点,8点
白天2次重点监控汇报和多次巡检调度系统:重点汇报11点,17点
XX运维服务主要包括了日常监控运维、月初运维任务等。具体维护内容如下:
XX日常监控运维工作包括流程调度监控及维护、固定分发新增、临时任务处理及跟踪等。
XX重点流程监控及维护:
总数:1000 (个)监控时段:00:00-23:00 (每日)
总数:60(个)监控时段:00:00-23:00 (1号-7号)
总数:10 (个)监控时段:00:00-23:00 (每日)
临时任务包括各项临时性、突发性、及专项任务等,诸如系统割接上线配合,因数据错误、程序问题等需要流程临时调度、批量重跑后续,查找流程下线需要的详细信息以及流程下线,支撑经分侧查证流程调度情况,重点应用重点支撑保障、固定分发问题查证等。
由于经分生产所需或日常工单需求所需,XX维护人员对现有接口进行修改配置或新增配置。
1、维护突发事件处理
由于日常生产中遇到各类突发事件,例如数据库宕机、表空间满、调度系统异常、4A平台异常等等。
XX月初运维任务包括属地化基站维表维护、账单科目维表维护、主策划维表、部分DWD月流程手工维护、月末DWD重点日流程手工维护、以及属地化月表后置流程调度。
每月月底最后一天完成属地化基站文件导入数据确认后,维护人员电话督促各属地基站维护人员必须在1号完成基站维护,如遇不可控因素影响进度必须及时上报。
13个属地完成基站维护后,维护人员完成相应的验证工作,验证完成后邮件通知后续维护人员。
2)账单科目维表维护
每月初对账单科目维表DIM_ACC_ITEM_CODE按要求进行更新个性化处理。
每月待客户通知shfin.r_vr011表维护完成,XX确认shfin.r_vr011表从mpp已成功分发至一体机SHFIN.RPT_VR011。(注:select * from all_objects where object_name like'%RPT_VR011%'确认分发一体机成功)手工调度以下程序。
步骤等级 | 平台 | 程序 | 备注 |
1 | 一体机 | DimAccItemCode | 重做后续 |
2 | 一体机 | DimEvtIvrNode | 确认程序运行成功 |
一体机 | DimEvtCsrSkill | ||
一体机 | DimAccWmsNavtreemap |
3)主策划维表
每月初对主策划维表按要求进行更新个性化处理;同时打上相应的完成标识。
每月甲方通知数据表维护完成。
4)部分DWD月流程及月末DWD重点日流程
对于部分需要手工干预的DWD月流程及部分月底的DWD日流程进行前置判断验证,并及时进行手工调度并跟踪过程、及完成情况。
每月当出账那边出完账验完数据之后,甲方通知一体机和24库数据都已到位,可以执行以下操作。
步骤等级 | 平台 | 程序 |
1 | 一体机 | DwdMergeBillM |
1 | 一体机 | DwdMergeBillProdM |
1 | 一体机 | DwdMergeBillItemM |
1 | 一体机 | DwdMergeBillDtl4M |
2 | 一体机 | DwdAccFinItemDtlM |
3 | 一体机 | DwdAccPrepaySplitedM |
3 | 一体机 | DwdSvcGrpMemProdM |
3 | 一体机 | DwdSvcGrpSrvAttrM |
3 | 一体机 | DwdSvcUsrOXXtateM |
3 | 一体机 | DwdPrtyGrpInfoM |
3 | 一体机 | DwdAccWriteoffRecM |
3 | 一体机 | DwdAccAdjustBusiRecDmM |
3 | 一体机 | DwdAccPocketM |
3 | 一体机 | DwdAccSumBillM |
3 | 一体机 | DwdAccPocketM |
3 | 一体机 | DwdAccSumBillM |
3 | 一体机 | DwdAccGrpAdjustM |
3 | 一体机 | DwdAccGrpOweInfoM |
3 | 一体机 | DwdAccOweM |
4 | mpp | DwdMergeBillDtl4M_MPP |
在以上程序运行成功后
步骤等级 | 平台 | 程序 |
1 | 一体机 | DwdMergeRcBillDtlD |
1 | 一体机 | DwdMergePromBillD |
1 | 一体机 | DwdMergeSrvcDtl1D |
1 | 一体机 | DwdMergeDailyBillD |
1 | 一体机 | DwdMergeUsageBilltD |
1 | 一体机 | DwdMergeBillDtl3D |
2 | 一体机 | DwdAccItemDtlD |
2 | 一体机 | DwdAccFinItemDtlD |
3 | 一体机 | DwdAccPrepaySplitedD |
5)属地化月表后置流程调度
每月月初在用户属地化表已经生成验证通过的情况下,对于依赖该表的后置流程进行手工干预发起调度,并跟踪过程及完成情况。
属地化数据验好后,待甲方邮件通知结果表已分发到MPP库:
确认分发表分发完成;
分发完成后将DACP调度(MPP任务)强制通过,监控后续程序调度情况。
自动化维护及监控措施
1) 模板化辅助维护手段
类别 | 模板化辅助手段 | 用途 |
系统 | yt,mpp总体运行情况 | 监控DACP调度系统是否正常运行、今日总程序完成数 |
系统 | yt,mpp的DWD程序运行情况 | 监控基础层程序完成数 |
依赖 | 程序血缘分析 | 查看程序调度所用到的表,生成的目标表。 |
依赖 | 后置依赖查询 | 批量查找任意流程的所有后置流程,调度流程影响分析 |
依赖 | 前置依赖查询 | 批量查找任意流程的所有前置流程,调度流程依赖的条件 |
依赖 | 事件触发程序执行条件查询 | 如果事件触发流程没有触发就根据流程flowid查看程序依赖的接口以及判断的分控表 |
依赖 | XX流程名查询 | 以程序名或表名查找流程名称 |
依赖 | 查询表固定分发 | 当用到的表不是XX程序跑出的时候,以表名去分发控制表查看表是否属于分发,源库是哪里及分发情况 |
异常 | 运行超长时间流程查询 | 速查一周内平均运行时间超长的流程清单发开发优化程序 |
异常 | 等待流程查询 | 速查长时间等待运行的流程清单 |
异常 | 查看接口装载完成情况 | 以接口号去ETL分控表查询出接口装载状态根据情况接口、程序跟踪处理 |
异常 | 创建程序实时监控列出YT和MPP | 直接查询表即可统一处理不同平台的所有失败程序 |
2个平台所有失败程序、失败原因更新到日志表里 | ||
异常 | 列出YT和MPP哪些接口没好 | 查出今日dacp显示没有通过的接口以及影响的程序 |
异常 | 热点通报(重点保障)完成情况列表 | 查重点保障程序及依赖的所有前置该完成还没完成的程序清单 |
异常 | 热点通报及依赖没完成 | 快速定位重点保障程序及前置未完成的最终依赖原因 |
的大致原因 | ||
异常 | 一经前置日程序哪些没跑 | 单独监控这个组的所有程序完成情况(重点保障) |
异常 | 查程序未运行原因 | 定位程序延迟未触发的最终依赖原因 |
异常 | 监控日流程没跑的 | 监控所有日程序今日还没运行成功的清单 |
异常 | 超过1天未完成列表 | 查延迟1天还未运行的程序并分类处理 |
异常 | 超过2天未完成列表 | 查延迟2天还未运行的程序并分类处理 |
异常 | 查重点接口延迟列表 | 单独监控重点保障程序依赖的所有接口该完成还未完成的接口 |
异常 | 监控月流程没跑的 | 监控所有月程序该完成还没运行成功的清单 |
异常 | 监控程序依赖失效的 | 查因依赖配置问题导致未触发的程序 |
异常 | 60库,判断接口装不装YT机, | 查因依赖接口配置问题导致未触发的程序 |
瞒足3张配置表都要有记录 | ||
异常 | 查程序延迟大致原因 | 辅助分析程序比昨天完成时间晚的原因 |
(今日数据,分析前置完成时间是否有延迟) | ||
异常 | 查询程序中存在死循环的程序 | 查因依赖配置问题导致未触发的程序 |
(即互相依赖) |
2) 自动化监控措施
序号 | 告警分类 | DACP监控项 | 告警形式 | 告警级别 | 监控频率 |
1 | dacp系统监控 | 检查程序发送至agent状态超过10分钟,疑似代理僵死监控 | 电话/短信 | 非常重要 | 每1小时 |
2 | dacp15分钟内无任何程序跑出告警 | 电话/短信 | 非常重要 | 每1小时 | |
3 | YT机表空间监控 | 电话/短信 | 非常重要 | 每1小时 | |
4 | 代理进程数、长时间不写日志监控 | 电话 | 非常重要 | 实时 | |
5 | rabbit@YP-DACP-01进程监控 | 电话 | 非常重要 | 实时 | |
6 | server进程长时间不写日志监控 | 电话 | 非常重要 | 实时 | |
7 | dacp流程监控 | 基础话单明细检查 | 电话/短信 | 重要 | 每1小时 |
8 | 漫入话单明细检查 | 电话/短信 | 重要 | 每1小时 | |
9 | 小话单明细检查 | 电话/短信 | 重要 | 每1小时 | |
10 | 2点批次dwdayrun完成数告警 | 电话/短信 | 重要 | 每1小时 | |
11 | 3点批次dwdayrun完成数告警 | 电话/短信 | 重要 | 每1小时 | |
12 | 4点批次dwdayrun完成数告警 | 电话/短信 | 重要 | 每1小时 | |
13 | 6点批次dwdayrun完成数告警 | 电话/短信 | 重要 | 每1小时 | |
14 | dwdayrun程序失败告警 | 电话/短信 | 重要 | 每1小时 | |
15 | 7点批次XX重要程序完成数告警 | 电话/短信 | 重要 | 每1小时 | |
16 | 正在运行的程序运行时长超过1小时告警 | 短信 | 重要 | 每1小时 | |
17 | 失败程序告警 | 短信 | 重要 | 每1小时 | |
18 | 经分热点未完成数告警 | 短信 | 重要 | 每1小时 | |
19 | 超过参考时间接口未完成告警(经分热点及所有前置依赖的接口监控) | 电话/短信 | 非常重要 | 每1小时 | |
20 | dacp流程总体运行情况监控 | 日程序总数,程序执行成功数与参考完成数短信提示 | 短信 | 重要 | 每1小时 |
21 | 流程失败个数 | 短信 | 重要 | 每1小时 | |
22 | 正在执行程序个数 | 短信 | 重要 | 每1小时 | |
23 | 等待前置程序个数 | 短信 | 重要 | 每1小时 | |
24 | 等代理程序个数 | 短信 | 重要 | 每1小时 | |
25 | 今日未触发程序个数 | 短信 | 重要 | 每1小时 | |
26 | XX监控 | XX代理进程监控 | 短信 | 重要 | 每20分钟 |
巡检内容:
涉及话单接口主要有GPRS、语音、短信、物联网以及各类漫入话单;
维护工作包括:
基本情况:当系统进程出现异常情况,或者接口运行过程中超时未完成等异常情况时,系统就会发送告警信息.当告警级别较高时,如进程异常就会有人工拨打告警电话给值班工程师.
基本情况:
平台涉及应用服务器:18台
平台涉及各类监控、预处理、库内处理、接口特殊处理shell和python脚本:50个
包括:
基本情况:少数接口的切库直接在前台操作即可,接口配置管理中选择接口进行修改,但涉及接口较多的库需要利用sql语句批量修改,操作如下:
序号 | 表描述 | 备注 |
1 | se_s_comp_ins_para | 数据源 |
2 | se_s_flow_def | 用于前台展示 |
3 | st_b_task | 用于前台展示 |
查看接口配置:如图:
案例描述:新客服库例行维护,维护时间段0-2点,3点恢复
解决思路:需要把调度时间在0-3点时间段的接口完后延
若少量接口的时间调度,直接在前台修改即可。
注:修改完成后,要将该接口执行一次下上线操作;
若涉及接口较多,需要在后台修改,提高效率
案例: 今日话单告警为10010接口,2019021821批次LOADYT一直为执行状态,并且没有生成临时表;
处理方法:前台界面,重跑一体机入库节点,恢复正常
案例:2:00—5:00 之间没有 原始小文件,导致一体机和mpp 库装载失败。
处理方法:
在失败批次的校验文件里中插入对应的空文件记录
(校验文件)
特殊情况下,一体机临时表装载完成后,没有返回成功状态,导致LOADYT组件状态一直处于执行中。
案例 | |||
接口 | 04113 | 周期 | 20190110 |
描述 | 装载一体机时间过长,导致网管告警 |
判断LOADYT环节是否僵死,登入到该接口(LOADYT环节)执行主机确认主机上的sqlldr进程是否存在(ps -ef | grep接口号);
问题描述:执行机tasktracker僵死,无法向Jobtracker请求任务。
处理方式:根据告警查询或观察前台页面执行机完成任务数。
通过“【网管】Tasktrakc超过60分钟未获取任务,请查证”这条告警信息,在all_ monitor.sh中查出对应sql并执行。
问题描述:Tasktracker接口初始化失败。
失败原因:Tasktracker连接配置库的线程数到达最大值。
处理方式:把失败的接口手工调度一次;
月接口的维护时间一般从每月1日到10日;
月接口总数逾1200
主要包括:
根据开发部门需求每月中旬以后做2-3次相关模拟出账数据的抽取,以确保正式抽取时,数据的准确性,工作内容:
接口描述 | 接口总数 |
常规出账 | 29 |
物联网出账 | 17 |
序号 | 描述 |
1 | 登入服务器,执行以下命令 |
2 | nohup /etlfile/shells/month_init.sh mc_new &(模拟出账) |
3 | nohup /etlfile/shells/month_init.sh mc_wlw &(物联网模拟出账) |
1.分发平台维护内容
分发接口总数约为3000左右:
1)分发平台的配置、监控、维护、和问题处理
2)分发平台本身的维护
3)出具月度分发平台的巡检报告
每月7号提供上月分发平运行报告,内容包括:
4)分发进程的启停
停:ps -ef | grep dsDispatch.sh | awk '{print $2}' | xargs kill |
启:nohup /bin/bash /home/etla/disp/dsDispatch.sh> /dev/null & |
停:ps -ef | grep dsExpCtl.sh | awk '{print $2}' | xargs kill |
启:nohup /bin/bash /home/etla/disp/dsExpCtl.sh> /dev/null & |
停:ps -ef | grep dsImpCtl.sh | awk '{print $2}' | xargs kill |
启:nohup/bin/bash /home/etla/disp/dsImpCtl.sh> /dev/null & |
初始化进程目前只部署在248、250上,假定248 服务器出现硬件故障,需将248的初始化进程切换到250上,切换步骤如下:
nohup /bin/bash /home/etla/disp/dsDispatch.sh> /dev/null &
目前有A/B/C台服务器, 假定A 服务器出现硬件故障, 需要将 A上的分发任务切换到 B/C , 切换步骤如下:
Create table DISP_EXP_CFG_20181015 like DISP_EXP_CFG;
Insert into DISP_EXP_CFG_20181015 select * from DISP_EXP_CFG;
入库配置表备份方式同上
update DISP_EXP_CFG set agent_name='AGENT_C' where agent_name='AGENT_A';
Update disp_export_ctl set deal_stat=0,agent_name='AGENT_C' where agent_name='AGENT_A' and deal_stat<>99 and deal_stat<>'-100';
Update disp_import_ctl set deal_stat=0,agent_name='AGENT_C0' where agent_name='AGENT_A' and deal_stat<>99 and deal_stat<>'-100';
说明:
库名:指分发中的入库名称
5点:指0:00~5:00期间
参考值:最近一个月完成接口累计完成数的平均值
完成量:当天接口的接口累计完成数
偏移比:完成量相对于参考值的增长率
说明:
入库等待量:超过10分钟,没有开始入库的接口量(数值较大,一般是出现了问题,如进程僵死)
说明:
每小时YT出库完成量
监控范围:0-9点
说明:
每小时MPP出库完成量
监控范围:0-9点
说明:
每小时MPP出库完成量
监控范围:0-9点
2.重点值守保障
在局方的要求下,主要是在重要通信保障或国定节假日期间,根据保障等级要求,提供现场或远程VPN值守服务,根据服务质量进行考核。
3.突发情况响应
面对突发情况或突发事件,应提供应急响应,要求按照故障等级和响应时限到达现场处理。如有同类故障的处理预案,立即进行业务恢复。否则升级至远程技术支撑中心,同时通报各相关厂商请求提供技术支持服务。同时,现场支持服务工程师将到达现场,实施或配合进行业务恢复和故障处理。
4.服务满意度保障
空中选号系统服务确保及时、有效的解决服务中出现的问题,不造成各类故障预警,使空中选号系统达到服务满意度指标考核要求。
具体工作:1、对空选系统进行维护;2、确认系统情况合理升级系统版本;3、相关应用配置按需调整;4、对相关应用特征进行及时更新。根据要求,对流量策略进行调整,并对设备系统进行安全漏洞扫描,及时更新系统补丁,避免系统隐患。
5.生产安全保障
维护人员需遵守局方的人员进出、机房管理与安全生产规定。
6.信息安全保障
维护人员需遵守局方信息安全相关保密规定。系统安全服务包括系统安全保障、信息安全支持服务。系统安全保障是根据相关方要求,定期检查空选系统安全设置,防止一些未经允许的访问影响系统的安全。信息安全支持服务是根据集团信息安全规范和工信部信息安全按要求,确定支持服务作业计划,定时进行系统和应用安全性检查,定期进行系统密码回收和检查,定时对系统的补丁、漏洞等进行检查,对发现或受理的问题进行预防性的维护作业,消除故障隐患。根据不同时期的不同要求,经过协商确认后,系统安全服务作业计划具体内容项目可以定期或不定期的调整。
7.优化建议
积极主动对系统运营提出性能或功能上的优化建议,与局方人员一起,进行实施,评估能否取得明显效果。
8.临时任务
有承担局方临时交办任务的义务,并根据具体情况,承诺相应的服务质量。
按时总结DACP、 ETL、分发维护技能及经验,定期组织安排培训,共享维护经验,提升维护质量及效率。
每月安排两次培训,按入职先后顺序进行轮换(内容包括工作经验分享、技能提升、日常工作中各类问题处理等等)。
日常培训 |
1、每月安排两次培训,按入职先后顺序进行轮换 |
2、每次培训尽量安排人数有n-1时进行,若按正常轮班一个月凑不出两天有n-1人数的, |
3、每次培训前,由培训主讲者发邮件出来说明培训主题、培训时间、地点, |
4、培训结束后,由被培训人给培训主讲人进行匿名打分,打分原则是,满分10分,培训效果感觉一般、还行的,默认都给5分,效果感觉不错,看得出主讲人做过系统化整理准备的, |
5、在下次培训时,由上次培训主讲者提前准备不同题目(不得提前公开),在培训会上,对上次参加的被培训人员进行逐一提问,答出来且基本正确的,则在XX日报的培训页的” |
新人入职后前2月强化培训使其能够快速融如入到日常维护工作中(掌握工作内容、操作制度、问题查证、常见问题处理方式等等)。
XX&ETL新员工培训计划表 | |
培训背景及目标 | 工作内容主要是对DACP、ETL调度平台完成程序调度的全程监控和日常维护操作 |
第一周 | |
培训目标 | 熟练使用LINUX,VI基本操作命令,熟练SQL、shell; |
培训内容 | 1:发送培训文档以及常用sh脚本 |
第二周 | |
培训目标 | 了解DACP;了解ETL; |
培训内容 | 1:阅读DACP平台用户手册,讲解DACP系统大概组成框架; 4:阅读ETL核心文档,讲解ETL系统大概组成框架; 5:讲解ETL常用功能模块的作用及操作演示; 6:阅读ETL维护工作内容相关文档; |
第三周 | |
培训目标 | 熟悉日常维护项工作内容; |
培训内容 | 1:介绍XX日报每个sheet页工作内容; |
第四周 | |
培训目标 | 掌握常用配置表的常用字段的描述、字段备注(提高后期查证报障问题的效率) |
培训内容 | 结合数据字典讲解常用配置表用途、常用字段信息描述 |
第五周 | |
培训目标 | 了解维护所有的监控项及告警方式、处理方式; 了解接口异常根据不同情况进行处理; |
培训内容 | 1:结合sh脚本讲解DACP告警类型以及查证、处理、部署方法; 3:结合sh脚本讲解ETL告警类型以及查证、处理、部署方法; |
第六周 | |
培训目标 | XX日常维护工作内容已初步了解并掌握DACP基本操作,开始处理每日失败程序; ETL日常维护工作内容已初步了解并掌握ETL基本操作,开始处理每日失败接口 |
培训内容 | 由老员工带着开始处理每日失败程序,监控重点程序完成情况 |
第七周 | |
培训目标 | 处理DACP日常维护工作;处理ETL日常维护工作; |
培训内容 | 由老员工带着开始处理日常维护工作 |
第八周 | |
培训目标 | 配置固定分发,查证邮件报障,了解XX调度系统,ETL调度系统 |
培训内容 | 讲解配置固定分发步骤,问题查证,讲解DACP调度系统基本操作与维护,讲解ETL调度系统基本操作与维护 |
做好团队建设工作,避免由于投入力量不足或能力不够而引发维护及时性和质量问题;
我司提供9人的团队服务于本项目,服务组织机构如下:
1、与用户讨论并确定最终项目范围和实施方法;
2、负责制订具体的项目计划,包括培训计划;
3、把握项目各方面的进程;
4、指导业务流程重组和项目变更;
5、检查及调控项目实施范围;
6、向公司汇报项目状况,提出建议及改进措施;
7、负责项目阶段质量。
1、负责本项目相关软件的日常维护、升级以及软件应用的二次开发工作。
2、负责面向决策层、管理层、应用层、系统维护层人员提供培训。
3、负责系统维护以及相关技术支持工作。
4、提供系统集成方面的技术支持。
为保证现场服务实施的质量能够稳定并不断有所提升,保障客户需求能够得到有效满足,保障现场服务实施团队为客户提供统一、标准化的服务支持,并为客户设立专门的客户服务专员,对进行全程跟踪,提升服务实施专业性,制定服务流程:
本项目实施应采用先进的质量管理模式和科学的质量管理体系和流程,并根据项目自身特点选用合适的质量控制规程。
目前,我司主要采用ISO9001质量标准和软件成熟度模型(CMM)两种控制规程。针对本项目,公司将采用ISO9001质量体系标准,在项目实施的过程中严格执行质量标准。
本项目中,由项目经理制订质量控制计划,项目质量控制组进行审核。审核方面包括:质量控制措施是否足够、各个成员的质量责任是否明确合理,测试方法是否适用。
为了加强项目质量管理和界定产品质量标准,本公司将制订适应于项目的检查验收规定和质量评定标准,确保工程质量。
本项目中,应实行两级检查、两级验收制度。一级检查、二级检查和一级验收由本公司实施小组组织完成;二级验收由用户组织实施。各级检查验收严格按项目实施中制订的相应的检查验收规定和质量评定标准执行。对实施和验收过程中出现的重大技术问题,将上报用户协调处理,对一般质量问题的处理应予以书面记录。
我司将质量视为整个项目计划的一部分。项目计划书中的质量计划部分明确了关键过程和最终结果的评估程序和衡量标准。质量计划和客户要求的质量相一致,以确保项目达到客户在功能、绩效和质量等各方面要求。我们的质量保障包括以下几个方面:
(1) 项目质量管理评估:在项目进行过程中,定期评估项目进程、客户期望、质量问题和风险等;
(2) 资料管理和变革控制:界定所有与质量控制有关的资料和软件数据的管理要求,包括各项计划、过程、表单和标准等等;
(3) 确定流程(如开发流程、监控流程,评估流程和人员安排流程)的执行过程;
(4) 项目质量绩效标准:包括目的、衡量方法和汇报方式。
在项目实施过程中还将采取如下措施保障项目实施质量:
(1)在项目实施前后对网络性能进行评估。
(2)在系统部署完成后要在实际环境中进行网络连通性测试、安全策略验证和应用系统测试。
(3)配合应用系统做好压力测试,根据压力测试结果调整系统配置。
(4)项目实施后要进行一定时间的试运行,在试运行期间要重点监控网络环境的运行情况、安全策略的验证和业务应用系统运行情况,若出现的问题要及时查找原因并加以修正。
(5)在试点实施过程中验证方案的可行性和正确性。
技术培训包括现场培训和专业培训,均有我司负责。采购方有权对我方提出的培训方案和培训计划进行选择和调整。
现场培训由我司在项目实施现场进行。
我司承诺安排项目采购人认可的具有相关专业资格或者实际工作经验的人员进行培训;现场培训贯穿于整个项目实施过程。
1、我司若中标,将制定详细的人员培训方案,培训方案包括培训目的、培训时间安排、人数、教材编写、培训师资情况、培训组织方式等。
2、培训内容和培训对象
(1)系统维护管理培训
培训内容主要包括系统的操作、配置、维护等,系统常见故障现象的诊断和处理,常见的问题及解决方案等。我司为所有被培训人员提供培训环境、文字资料和讲义等相关用品。所有的资料用简体中文书写。
培训时间:系统试运行期间,具体时间由采购人指定。
培训对象为系统运行管理与维护人员。
(2)操作使用操作手册
培训内容包括系统组成、结构、功能、使用办法等。我司承诺为所有被培训人员提供培训环境、文字资料和讲义等相关用品。所有的资料用简体中文书写。
培训时间:系统试运行期间,具体时间由采购人指定。
培训对象为采购人指定的相关人员。
3、所有的培训教员必须用中文授课,除非有其他的协议规定。
4、相关要求
(1)我司承诺选派具有一定资质和实践经验,且受过专门训练的高级专业技术人员负责各分项的技术培训工作。
(2)我司的培训内容包括基本理论、系统的操作、运行管理、现场操作辅导等,培训方式应应包括技术授课、操作示范、参观学习和其他必须的业务指导和技术咨询,确保培训人员对系统基本理论、技术特性、操作规范、运行规程、管理维护等方面获得全面了解和掌握。
(3)我司承诺在培训开始前20天内将培训计划和教材提交采购人审核,除上述培训外,我司还须负责在现场组织对系统的操作,调试和运行技术示范和业务指导。
我司将制定完整的项目沟通计划,项目的沟通途径主要包含以下种类:项目周报、项目例会、项目月报、项目评审报告、变更控制报告,主要的沟通频率参加下表:
沟通方式 | 频率 | 接收人 | 媒介 | 格式 | 交付时间 | 发送人 | 沟通模板 |
项目周报 | 每周 | 用户领导 | 邮件 | Word 文件 | 每周一 13:00前 | 项目经理 | 见项目周报模板 |
公司领导 | |||||||
项目组全体成员 | |||||||
项目周例会 | 每周 | 部门领导 | 会议、电话 | Word 文件 | 每周 | 项目经理 | 见项目周报模板 |
用户领导 | |||||||
项目组全体成员 | |||||||
项目月例会 | 每月 | 部门领导 | 会议 | Word 文件 | 月底前 | 项目经理 | 见项目月报模板 |
用户领导 | |||||||
项目组全体成员 | |||||||
项目月度 监测报告 | 每月 | 用户领导 | 邮件 | Word 文件 | 每月第一周前 | 项目经理 项目成员 | 见项目月报模板 |
公司领导 | |||||||
项目组全体成员 | |||||||
项目每日例会 | 没有 限制 | 用户领导 | 会议 | 口头 书面 | 没有限制 | 无 | 见项目例会内容 |
项目组成员 |
基本信息 | |||||
项目名称 | 报告日期 | ||||
项目所处阶段 | 报告批次 | ||||
项目负责人 | 审核人 | ||||
任务与进度 | |||||
人力资源 | |||||
软硬件资源 | |||||
上周工作总结 | |||||
本 周 主 要 工 作 内 容 | 负责人 | 参与人 | |||
项目风险分析 | |||||
1、 | |||||
需要协调事件 | |||||
1、 |
月度总结报告—第X月度 ( 年 月) | |||||
1、本月完成的主要任务 | |||||
序号 | 任务描述 | 相关责任人 | 实际完成日期 | 工作产品 | 备注 |
1 | |||||
2 | |||||
3 | |||||
2、本月小结 | |||||
3、待解决问题 | |||||
项目组应定期召开项目团队内部例会、项目例会、里程碑会议。项目例会是高效沟通的重要渠道,每次会议前应及时发布会议通知,明确会议的目的、时间、地点、参加人员、会议议程和议题,并下发会议资料,以便大家提前准备,有效地节约会议时间。会议中由专人做好会议纪要,会议结束前进行总结,重申会议决议。
项目组例会 | |||||||||
一、基本信息 | |||||||||
项目名称 | |||||||||
会议地点 | |||||||||
开始时间 | |||||||||
结束时间 | |||||||||
记录人 | |||||||||
二、项目现状介绍 | |||||||||
三、本周工作与本周计划完成情况 | |||||||||
人员 | 本周工作 | 完成情况 | |||||||
四、上周问题(上周周会提出的问题、或计划上周解决的问题,及解决情况) | |||||||||
序号 | 问题 | 状态 | 责任人 | ||||||
五、下周工作计划 | |||||||||
人员 | 计划任务 | 说明 | |||||||
六、本周待解决问题 | |||||||||
序号 | 问题 | 方案 | 责任人 | ||||||
评审报告 | ||||||||
1、基本信息 | ||||||||
项目名称 | 项目编号 | |||||||
评审地点 | 评审日期 | |||||||
审评人 | ||||||||
评审对象及其版本 | ||||||||
2、评审检查项(可根据项目组的实际需要增加) | ||||||||
序号 | 检查项 | 结果 | ||||||
1 | ||||||||
2 | ||||||||
3 | ||||||||
3、评审记录 | ||||||||
缺陷描述 | 计划解决日期 | 验证人 | 验证日期 | 检查项序号 | ||||
项目需求变更单-编号X | |
一、变更申请(客户填写) | |
项目名称 | |
提交人 | |
提交日期 | |
变更类型 | |
变更原因 | |
变更描述 | |
二、变更初步评估(罗列并分析可选择的方案)(PM填写) | |
解决方案描述 | |
进度影响 | |
成本影响 | |
金额影响 | |
后续变动工作产品 | |
识别相关风险 | |
项目经理 | 签字 日期: |
三、部门经理审批 | |
审批意见(写明是否同意变更以及理由) | |
部门经理 | 签名 日期: |
当服务主管收到服务台人员或助理提交的《运维工作单》,并判断该问题属于重大事故时,则启动应急处理流程。重大事故包括以下几种情况:
根据重大事故的紧急程度和状态不同,服务主管可采取以下方式启动应急流程:
《启动应急流程申请单》获批准后(包括口头批准),由主管部门负责组建应急小组。应急小组由多方人员组成,例如信息中心代表、运维部代表、服务主管、客户代表、供应商代表以及其他第三方人员等。
应急小组对发生的重大事故进行讨论分析并制定应急处理方案。
运维小组会根据实际人员需求情况从公司本部调配足够人员加入到应急小组。
运维小组会根据实际需求情况从公司本部调配足够的资金以保障事件处理经费需求。
根据应急小组制定的应急处理方案具体实施应急处理活动,并将实施过程和结果记录在《应急处理过程记录》中。涉及到客户现场服务的应取得客户的签字确认。
应急处理实施过程中涉及需要协调配合的工作由服务主管填写《资源申请单》,说明需要获得的资源、需要协调配合的工作等,经应急小组审批通过后由相关人员代表配合实施。
应急处理实施过程中涉及需要采购的,由服务主管填写《资源申请单》,说明需要采购的产品名称、型号/规格/功能、厂商/供应商、费用等。《资源申请单》经应急小组审批通过后由运维工程师实施采购,并将采购过程和结果记录在《资源申请单》中,应急小组对采购结果进行确认。
应急处理实施过程中涉及需要变更的,由服务主管填写《变更请求表》,说明变更内容、变更原因、变更方案等,经应急小组批准后直接由运维工程师根据《变更请求表》中的变更方案实施变更,并将变更过程和结果记录在《变更日志》中。
所有应急处理活动均应记录在《应急处理过程记录》中。
具体涉及到网络紧急故障处置,我们以恢复使用为第一目标。
在确认设备故障情况下,将第一时间采用备机备件恢复网络功能;
在链路故障情况下,启动备用链路进行通讯恢复,并积极配合链路运营商恢复链路;
在大面积病毒爆发情况下,利用趋势病毒爆发阻止功能,首先阻止网络病毒传播途径,阻止病毒源,并积极联系厂商获取最新病毒码对全网进行病毒处置。
应急处理过程完成后,服务主管向应急小组提交应急处理过程相关表单,包括《启动应急流程申请单》、《应急处理过程记录》、《资源申请单》、《变更请求表》、《变更日志》等。应急小组对应急处理结果进行评估和确认,并在《应急流程评估单》中填写评估意见。
如果应急小组评估意见为达到要求(即问题得到解决并恢复服务),则应急流程结束。
如果应急小组评估意见为未达到要求,则由应急小组讨论分析原因,根据分析结果可采取以下措施:
应急流程结束时,由服务主管在《运维工作单》中记录应急处理结果及关联表单编号。配置管理员对应急处理结果进行检查,登记新的配置项或更改后的配置项。
每月或每季度对应急流程情况进行统计,形成《应急流程管理报告》,并提交给服务主管。《应急流程管理报告》内容包括:启动应急流程次数(不同类别的次数)、原因分析、影响分析、完成情况、所需时间、各项资源利用情况、费用情况、意见和建议等。
《应急流程管理报告》经项目经理确认后提交客户主管。
运维项目组制定了详尽的应急处理预案,整个流程严谨而有序。但在服务维护过程中,意外情况将难以完全避免。我们将对项目实施的突发风险进行详细分析,并且针对各类突发事件,设计了相应的预防与解决措施,同时提供了完整的应急处理流程。
(1)值班人员平时应做好重点事件的监控工作,对于重点事件应认真分析、准确判定故障发生的数据域,负责跟踪该事件直至其结束。对于不在运维中心的故障,应在第一时间内通知负责人去现场处理,密切关注事件流程及进展情况,并做好登记工作上报领导。
(2)正常情况下,要求值班人员在10分钟内进行事件确认。如果属于一般事件则按照事件流程进行分派处理,否则应迅速启动《重点保障预案》,并严格按照《重点保障预案》所规定的步骤快速实施应急处置,及时汇报上级领导,掌握实时处理情况。
(3)在处理过程中,如需其他部门去现场增援处理,应及时向上级领导部门汇报,协调沟通,尽快联系技术工程师或厂家技术支持赶赴现场援助处理。