SOC不只是监控和分析日志,MSS不是一日变成的

security-operation-center

托管安全服务Managed Security Services,安全运营中心Security Operation Center,云计算安全Cloud Computing Security,服务管理Service Management,战略外包Strategic Outsourcing等等是近年比较热门的话题,在这期间,笔者有幸服务于数家国内外知名的网络安全厂商和技术服务商,现根据以往工作经验和对业界的认识,简单地整理出实施部署可操作性安全外包服务的工作大纲,分享给大家。由于知识面和工作经验的局限,以及对业界认识的不足,希望能得到大家的批评指正。

A.商业机会
业务越来越依赖信息系统,安全对业务也越来越重要;但是安全保障工作尤其是基础架构安全非组织的核心竞争力,却需要特别的专业技能人才方可胜任,造成自行管理成本高、效果差的局面;所以战略外包成为不少组织节省开支和提升安全保障效果的最佳选择。

业界的现状是产品开发商遭遇同质化及低价竞争、系统集成商谋求转型、代理商寻求深挖客户、运营商也在谋划增值服务,所以需要创新业务模式来实现业务的不断增长。

B.战略规划与设计
提出简单的基于服务商、代理分销合作商、最终用户的业务模式如下:
中央服务商建立基于“云计算”中央管理系统、二级管理系统和最终用户的设备或系统的三层架构体系,以及提供基于它们之上的针对分销商的安全技术支持服务;
中央服务商可分开建立专门的二级管理服务商,服务直销客户;
大型代理、分销、合作商可建立受中央管理系统支持的二级管理系统,中小型合作商或下级合作商可租用中央管理系统或二级管理系统的功能,服务所属最终客户;
系统服务的初始安装设置费、服务年费由中央服务商和二级代理分销及其它合作商按一定比例分成;

进行服务产品的评估和设计,相信各家会有不少的差别,主要是服务的内容范畴,评估和制定时要考虑如下几个因素:
1.可操作性,如针对终端安全,要做每台工作站安全服务?还是剥离开它们只做中央管理服务器?要做远程漏洞扫描还是主机本地审计?当然建议做可操作性较强的;
2.可达性,从互联网的中央控制系统是否容易达到它们?要做网关安全如UTM、防火墙、入侵检测与防御的管理服务,还是包含内部网络设备的加固?当然要求服务对象是可安全地远程访问到的系统;
3.难易程度,对有较多较深网络安全资质的厂商,要冒险去做和客户业务关系紧密的网站应用安全吧?细思量一下,或许不大适合;
4.标准化程度,是服务商厂家自家生产的设备,还是其它知名厂商的通用系统,抑或客户自开发的系统?自家的设备好在有技术和客户资源积累,知名厂商的往往会受代理、分销、合作商的厚爱。

C.资源
基础架构
1.租用运营商的数据中心放置中央控制系统,较稳定可靠和经济,规模、容量和可用性需求据范围不同而不同,不过类似中、小型网站的规模;
2.建立主安全运营中心SOC,除了较通常的办公环境加强物理安全外,数据、语音系统的建立,可参考中、小型呼叫中心服务台的配置;
3.数据中心和SOC的异地灾备,规模可比主站稍小,一般异地数据中心灾备配置需比较高,甚至可在线路繁忙时起到负载均衡之用;异地运营中心的规模可较小一些,可考虑在分支机构划出或合作伙伴处租用较小的办公区域,以节省投资;
4.服务器、网络设备、监控大屏幕等系统。

业务系统体系
它根据具体服务架构和服务产品而测试和开发,各家的差异可能会较大,一般而言,应该包含:
1.中央管理系统(托管于ISP数据中心的后台系统)
它提供安全系统体系架构,它是进行集中管理的一级控制中心,它连接和控制下属二级控制中心,二级控制中心连接安全技术系统(设备),系统之间相互认证与加密通讯;
2.SOC控制系统(呼叫中心使用的管理终端)
操作人员使用控制系统通过中央管理系统远程连接二级控制中心和安全设备,分级分权限管理,理想状况是将管理和控制系统统一,操作人员通过无客户端的https协议访问控制中心进行日常操作;
3.中央监控系统
建立基于TCP/IP的中央监控系统,用于实时监控各主、备中心,二级中心和终端系统的连能性,安全状态,健康状态等,可进行关键日志分析,它也可以被集成进中央管理系统。

技术支持体系
它也是根据范围,可大可小,和其它呼叫中心和研发中心类似,如下列出基本的几项:
1.工单系统,它可自行定制开发,这样的好处是同中央管理系统及客户的系统密切关联,可是成本最高;可选用成熟的软件产品,它们功能强大,而且通用性强;甚至可租用基于互联网的工单系统,好处是又能省下一笔前期投资;
2.语音,数字PBX系统和VoIP建议都用,也是可大可小,可以自行搭建,也可找相关的服务商了解和选择不同的服务菜单;
3.邮件,邮件系统应该同工单系统联系起来,事件的邮件可产生工单,工单的处理过程会发送邮件,大多数市面上的工单系统都支持此功能;
4.短信,用于报警通知等,可找短信服务商谈,或建立简单的短信网关;
5.即时通讯,同邮件系统类似,最好也能和工单系统集成起来,方便内部协同工作及加强与客户的沟通,比如在远端排差故障时可派上用场;
6.客户关系管理CRM,最好作为一部分集成进工单系统;
7.知识管理KM等,部分可同工单系统集成或关联,以便培训各方及加强沟通;
8.研发系统,研发管理和BUG修复,新功能需求等沟通。

人员
业务的转型最重要从人员抓起,简单列出各职能部门和人员的相关职责:
0.战略规划,新的业务由组织高层发动部署和实施;
1.市场,教育、培训潜在客户意识,增强市场接受度,开发与维护方案模块;
2.销售,方式方法较多,同合作伙伴寻求合作分利,及直接开发现有客户;
3.运营中心支持,分初L1、中L2、高L3几个不同级别,按业务规模和SLA情况设置轮流班,远端服务客户及维护相关系统;
4.现场支持,可自建一部分队伍,另外同合作伙伴的技术力量相结合,提醒注意加强现场支持和运营中心沟通效率;
5.产品,软硬件发货,返修等,规模小的话可考虑整合现场支持;
6.研发,建议主要用于业务系统体系的设计、开发、测试和维护,加强同运营中心高级人员沟通其需求及维护工作;
7.商务,特别的是增加了授权费和服务年费等催缴工作;

D.文档与流程
建立和维护技术操作文档,主要列表如下:
0.服务白皮书、彩页、成功案例、方案模块等等
1.系统初始安装流程及手册
2.日常运维技术操作手册
3.为用户的特别配置而特别建立的操作指南
4.保密协定、合同模板等

服务管理流程
要将技术(各类系统)和人员结合起来实现服务目标,最重要建立和运作适当的标准化作业流程:
0.服务级别管理,定义SLA,响应时间,恢复时间,支持时间,7×24,或5×9等,

1.设定支持团队职责
定义组织架构,人员角色和职责描述

2.运营中心(服务台)服务管理流程
2.0.安排值班计划制度,依服务级别协议灵活安排值班计划,如有7×24客户,保证周末和晚上至少有人在SOC监控中心,接听电话和响应工单;
2.1.建立用户、系统资产及权限管理流程,管理客户、合作伙伴及服务商的用户对各系统的访问权限;
2.2.建立事件响应及问题管理流程,应该是工单量最多的部分,工单来源包括电话、邮件、即时通讯和最建议各方使用的工单系统,需要包括:事件分级,SLA,事件升级等;
2.3.建立变更管理流程,触发输入包括:变更需求,系统更新比如打补丁、解决突发安全事件等,流程控制点:变更评估、回滚措施、同配置管理和事件管理关联等;
2.4.建立配置管理流程,各级控制中心定期集中进行各系统配置的自动备份,当有重大变更前后手工备份系统配置;
2.5.建立远程监控流程(安全事件、健康状态),监控报告和流程,输出结果给事件响应流程(触发工单);
2.6.建立灾难恢复计划,用于系统失效后恢复配置和正常的运作,还应该包括中央管理及控制系统灾难恢复计划;
2.7.建立和执行客户关怀计划,和解决疑难问题,安全报告,服务质量报告,特别事件报告,调查回访等等用以提高客户满意度的机制。

3.现场支持流程
3.1建立和运作初始项目安装、客户培训、验收流程
3.2建立其它后续现场支持工作流程

4.建立系统返修管理,备、换、返货政策和流程

5.建立维护授权管理,试用,服务及授权激活,服务延期续订或中断中止等流程

6.实施学习和培训管理体系
建立技能培训认证工程师项目,用于人力资源的规划、激励、成长开发,认证体系可以和SOC人员级别相适应,如分初L1-中L2-高L3三个级别。

最后,专业分工细化带来各领域内的资深专家,协同合作需要水平整合专家。我不是什么“专家”,简单分享出近几年安全运营中心服务管理工作中积累的一些实践经验,也愿意为有需要的同仁提供帮助。