|
闲谈网络运维管理的那些事儿(之二)IT基础设施管理要实现四个层面的透明化管理,这包括:网络、流量、服务器和应用透明化管理。 IT基础设施管理要实现四个层面的透明化管理,这包括:网络、流量、服务器和应用透明化管理。 怎么样实现透明化的管理? 首先,我们要了解运维管理的特点是什么?我们不能预期网络在何时何地可能出现问题。实际上,通过透明化管理就可以及时发现问题。 其次,我们要清楚事前管理是怎么体现的?这是一张完整某电力行业的拓扑图,我们是通过颜色主动告知用户要关注什么地方。如拓扑图上超高压的部分需要关注,这里为什么值得关注呢?因为这里走的数据量是非常小的,但是CPU的负载大概超过50%,在没有流量的情况下负载很重,所以,我们要检测路由器,因为有IP地址扫描就消耗掉了。 通常情况下,我们无法预期何时何地出故障,那我们可以通过自动生成的物理拓扑图及颜色来反映网络的情况,所谓窥一叶而知秋,不同颜色不同的关注度。任何应用对网络元素都有影响,而这种影响对我们的网络是很强的,不会因为某个地方有病毒或者结构不合理就造成瘫痪,通过颜色来告之应该关注的地方,这是非常重要的。 从拓扑图上,我们除看到设备上的问题,还看到网络线路上的问题。有什么问题呢?网络设计的路由是负载均衡的,但是这里表现出来的是不均衡的,这是结构上的问题。经过证实,果然是路由设计不合理,有一条静态路由没有擦掉,这就是网络透明化后能够看出来的端倪。 信息关联自动告警 从拓扑图很直观地看到信息关联,如互联网出口有一个负载均衡器,这里有两个出口,这两个联路上实现了负载均衡,如果都是红色的,证明流量很高,这是从哪里来的?我们是可以通过拓扑图看到,就可以直接进到那里去看,可以看到影响流量的交换机和端口,甚至我们还可以了解到这个终端在做什么事情等。 我们讲实现透明化的管理可以做到防范于未然,让管理起来难度小很多。所以说我们用颜色告诉你,通过一些手段去看,到底是正常的访问还是非正常的,是因为什么原因引起的。 网络管理人员不可能天天在守在拓扑图前观看,这需要我们有报警手段,出了问题以后主动告警,无论通过短信或者语音告诉网管人员都可以。甚至我们发现了问题以后也不需要到机房去,可以借助运维管理系统的远程管理,只要可以和网络联通便可以看到网上的情况,可以实现无人支持减轻管理负担。还有启发思路的管理表现,这也是非常重要的。很多网络问题不能说用一个管理系统马上告诉你什么原因引起的,而是多方面的问题纠葛在一起的。 实际应用中的问题 在具体实施过程中,我还遇到这样的案例。例如某国税局的网络情况是这样的,我们发现当时这个网的所有链路都是红色的。查看核心交换机的流量分布,每个端口有一个4M的流量,这里有效的数据包并不多,而广播包的数据有1000多个,这就显示广播包超标了,这是从哪个端口上来的?当时发现有大量广播包,这是怎么组成的?都是1048的端口对1427的端口。通过运维管理系统我们可以发现它来自哪个地址?查到都是同一个地址,很快找到了这台终端。原来,这是一个用了好几年税务征集系统,后来发现不正常,换了台新的康柏服务器,于是把机器拆下来换上它了,原来的那台机器作为备用,但就是这个机器出了问题。 如果我们不能及时发现更多机器感染上了病毒这就非常麻烦,所以,信息关联是很重要。我们有很多的管理系统和工具,比如说我看到哪个IP地址在扫描呢?怎么找呢?如果不能实现信息关联管理起来是非常累的。通过运维管理系统自动生成的拓扑图实现信息关联,在反映设备的信息状况,我们只需点击一下就关掉了,蓝色的端口表示和信息关联着,我们可以非常清楚地看到每个端口下的信息。这样对我们来说,通过信息关联我们就可以把网络透明掌握在我们的手上,这是非常重要的。 跨厂商的统一平台管理对我们来说也是非常关键的。 网络是不断发展的,服务器和网络设备不可能是同一厂商的,我们要对全网进行综合监控必须要有跨厂商的综合管理,这是为了总体上看而不是局部。跨厂商的统一平台管理并不是空话,为什么很多的国外软件不能完全满足用户需求,这就需要有大量的经验和知识,每个厂商都有自己的需要,需要深入到厂商的产品中去,进行了解才能形成综合管理平台。很多网管说,很简单,花两个月就可以对网络进行管理,不是这么回事,必须要对它进行整体的分析。跨厂商的平台好处就在于换个角度看问题。关键在什么?我们说很多网络上的问题从网络应用角度出发总是滞后的,总是先有病毒然后又杀毒软件的,总是先有黑客攻击才有防范的。病毒是通过广播传播的,很多的垃圾会在交换机上,交换机的内存占用比例会很高,这就会引起警觉啊,黑客供给是通过跨网端的扫描来进行的,我们及时注意通过监控来掌握态势,这就是事前管理,而不是出了问题再管理,这是非常重要的。 责编:流沙 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 |
最新专题 |
|