交换机故障的一般分类和排障步骤

交换机的优越性能和价格的大幅度下降,促使了交换机的迅速普及。网络管理员在工作中经常会遇到各种各样的交换机故障,如何迅速、准确地查出故障并排除故障呢?本文就常见的故障类型和排障步骤做一个简单的介绍。由于交换机在公司网络中应用范围非常广泛,从低端到中端,从中端到高端,几乎涉及每个级别的产品,所以交换机发生故障的机率比路由器,硬件防火墙等要高很多,这也是为什么我们首先讨论交换机故障的分类与排除故障步骤的原因。

一,交换机故障分类:

交换机故障一般可以分为硬件故障和软件故障两大类。硬件故障主要指交换机电源、背板、模块、端口等部件的故障,可以分为以下几类。

(1)电源故障:

由于外部供电不稳定,或者电源线路老化或者雷击等原因导致电源损坏或者风扇停止,从而不能正常工作。由于电源缘故而导致机内其他部件损坏的事情也经常发生。

如果面板上的POWER指示灯是绿色的,就表示是正常的;如果该指示灯灭了,则说明交换机没有正常供电。这类问题很容易发现,也很容易解决,同时也是最容易预防的。

针对这类故障,首先应该做好外部电源的供应工作,一般通过引入独立的电力线来提供独立的电源,并添加稳压器来避免瞬间高压或低压现象。如果条件允许,可以添加UPS(不间断电源)来保证交换机的正常供电,有的UPS提供稳压功能,而有的没有,选择时要注意。在机房内设置专业的避雷措施,来避免雷电对交换机的伤害。现在有很多做避雷工程的专业公司,实施网络布线时可以考虑。

(2)端口故障:

这是最常见的硬件故障,无论是光纤端口还是双绞线的RJ-45端口,在插拔接头时一定要小心。如果不小心把光纤插头弄脏,可能导致光纤端口污染而不能正常通信。我们经常看到很多人喜欢带电插拔接头,理论上讲是可以的,但是这样也无意中增加了端口的故障发生率。在搬运时不小心,也可能导致端口物理损坏。如果购买的水晶头尺寸偏大,插入交换机时,也容易破坏端口。此外,如果接在端口上的双绞线有一段暴露在室外,万一这根电缆被雷电击中,就会导致所连交换机端口被击坏,或者造成更加不可预料的损伤。

一般情况下,端口故障是某一个或者几个端口损坏。所以,在排除了端口所连计算机的故障后,可以通过更换所连端口,来判断其是否损坏。遇到此类故障,可以在电源关闭后,用酒精棉球清洗端口。如果端口确实被损坏,那就只能更换端口了。

(3)模块故障:

交换机是由很多模块组成,比如:堆叠模块、管理模块(也叫控制模块)、扩展模块等。这些模块发生故障的机率很小,不过一旦出现问题,就会遭受巨大的经济损失。如果插拔模块时不小心,或者搬运交换机时受到碰撞,或者电源不稳定等情况,都可能导致此类故障的发生。

当然上面提到的这3个模块都有外部接口,比较容易辨认,有的还可以通过模块上的指示灯来辨别故障。比如:堆叠模块上有一个扁平的梯形端口,或者有的交换机上是一个类似于USB的接口。管理模块上有一个CONSOLE口,用于和网管计算机建立连接,方便管理。如果扩展模块是光纤连接的话,会有一对光纤接口。

在排除此类故障时,首先确保交换机及模块的电源正常供应,然后检查各个模块是否插在正确的位置上,最后检查连接模块的线缆是否正常。在连接管理模块时,还要考虑它是否采用规定的连接速率,是否有奇偶校验,是否有数据流控制等因素。连接扩展模块时,需要检查是否匹配通信模式,比如:使用全双工模式还是半双工模式。当然如果确认模块有故障,解决的方法只有一个,那就是应当立即联系供应商给以更换。

(4)背板故障:

交换机的各个模块都是接插在背板上的。如果环境潮湿,电路板受潮短路,或者元器件因高温、雷击等因素而受损都会造成电路板不能正常工作。比如:散热性能不好或环境温度太高导致机内温度升高,指使元器件烧坏。

在外部电源正常供电的情况下,如果交换机的各个内部模块都不能正常工作,那就可能是背板坏了,遇到这种情况即使是电器维修工程师,恐怕也无计可施,惟一的办法就是更换背板了。

5)线缆故障:

其实这类故障从理论上讲,不属于交换机本身的故障,但在实际使用中,电缆故障经常导致交换机系统或端口不能正常工作,所以这里也把这类故障归入交换机硬件故障。比如接头接插不紧,线缆制作时顺序排列错误或者不规范,线缆连接时应该用交叉线却使用了直连线,光缆中的两根光纤交错连接,错误的线路连接导致网络环路等。

从上面的几种硬件故障来看,机房环境不佳极易导致各种硬件故障,所以我们在建设机房时,必须先做好防雷接地及供电电源、室内温度、室内湿度、防电磁干扰、防静电等环境的建设,为网络设备的正常工作提供良好的环境。

二,交换机的软件故障:

交换机的软件故障是指系统及其配置上的故障,它可以分为以下几类。

(1)系统错误:

交换机系统是硬件和软件的结合体。在交换机内部有一个可刷新的只读存储器,它保存的是这台交换机所必需的软件系统。这类错误也和我们常见的Windows、Linux一样,由于当时设计的原因,存在一些漏洞,在条件合适时,会导致交换机满载、丢包、错包等情况的发生。所以交换机系统提供了诸如Web、TFTP等方式来下载并更新系统。当然在升级系统时,也有可能发生错误。

对于此类问题,我们需要养成经常浏览设备厂商网站的习惯,如果有新的系统推出或者新的补丁,请及时更新。

(2)配置不当:

初学者对交换机不熟悉,或者由于各种交换机配置不一样,管理员往往在配置交换机时会出现配置错误。比如VLAN 划分不正确导致网络不通,端口被错误地关闭,交换机和网卡的模式配置不匹配等原因。这类故障有时很难发现,需要一定的经验积累。如果不能确保用户的配置有问题,请先恢复出厂默认配置,然后再一步一步地配置。最好在配置之前,先阅读说明书,这也是网管所要养成的习惯之一。每台交换机都有详细的安装手册、用户手册,深入到每类模块都有详细的讲解。由于很多交换机的手册是用英文编写的,所以英文不好的用户可以向供应商的工程师咨询后再做具体配置。

(3)密码丢失:

这可能是每个管理员都曾经经历过的。一旦忘记密码,都可以通过一定的操作步骤来恢复或者重置系统密码。有的则比较简单,在交换机上按下一个按钮就可以了。而有的则需要通过一定的操作步骤才能解决。

[1] [2] 下一页  

文章录入:csh    责任编辑:csh 

此类情况一般在人为遗忘或者交换机发生故障后导致数据丢失,才会发生。

(4)外部因素:

由于病毒或者黑客攻击等情况的存在,有可能某台主机向所连接的端口发送大量不符合封装规则的数据包,造成交换机处理器过分繁忙,致使数据包来不及转发,进而导致缓冲区溢出产生丢包现象。还有一种情况就是广播风暴,它不仅会占用大量的网络带宽,而且还将占用大量的CPU处理时间。网络如果长时间被大量广播数据包所占用,正常的点对通信就无法正常进行,网络速度就会变慢或者瘫痪。

一块网卡或者一个端口发生故障,都有可能引发广播风暴。由于交换机只能分割冲突域,而不能分割广播域(在没有划分VLAN 的情况下),所以当广播包的数量占到通信总量的30%时,网络的传输效率就会明显下降。

总的来说软件故障应该比硬件故障较难查找,解决问题时,可能不需要花费过多的金钱,而需要较多的时间。最好在平时的工作中养成记录日志的习惯。每当发生故障时,及时做好故障现象记录、故障分析过程、故障解决方案、故障归类总结等工作,以积累自己的经验。比如有时在进行配置时,由于种种原因,当时没有对网络产生影响或者没有发现问题,但也许几天以后问题就会逐渐显现出来。如果有日志记录,就可以联想到是否前几天的配置有错误。由于很多时候都会忽略这一点,以为是在其他方面出现问题,当走了许多弯路之后,才找到问题所在。所以说记录日志及维护信息是非常必要的。

三,交换机故障的一般排障步骤:

交换机的故障多种多样,不同的故障有不同的表现形式。故障分析时要通过各种现象灵活运用排除方法(如排除发、对比法、替换法),找出故障所在,并及时排除。

(1)排除法:

当我们面对故障现象并分析问题时,无意中就已经学会使用排除法来确定发生故障的方向了。这种方法是指依据所观察到的故障现象,尽可能全面地列举出所有可能发生的故障,然后逐个分析、排除。在排除时要遵循有简到繁的原则,提高效率。使用这种方法可以应付各种各样的故障,但维护人员需要有较强的逻辑思维,对交换机知识有全面深入的了解。

(2)对比法:

所谓对比法,就是利用现有的、相同型号的且能够正常运行的交换机作为参考对象,和故障交换机之间进行对比,从而找出故障点。这种方法简单有效,尤其是系统配置上的故障,只要简单地对比一下就能找出配置的不同点,但是有时要找一台型号相同、配置相同的交换机也不是一件容易的事。

(3)替换法:

这是我们最常用的方法,也是在维修电脑中使用频率较高的方法。替换法是指使用正常的交换机部件来替换可能有故障的部件,从而找出故障点的方法。它主要用于硬件故障的诊断,但需要注意的是,替换的部件必须是相同品牌、相同型号的同类交换机才行。

当然为了使排障工作有章可循,我们可以在故障分析时,按照以下的原则来分析。

1,由远到近

由于交换机的一般鼓掌(如:端口故障)都是通过所连接计算机而发现的,所以经常从客户端开始检查。我们可以沿着客户端计算机—>端口模块—>水平线缆—>跳线—>交换机这样一条路线,逐个检查,先排除远端故障的可能。

2,由外而内

如果交换机存在故障,我们可以先从外部的各种指示灯上辨别,然后根据故障指示,再来检查内部的相应部件是否存在问题。比如POWER LED为绿灯表示电源供应正常,熄灭表示没有电源供应;LINK LEDs为黄色表示现在该连接工作在10Mb/s,绿色表示为100 Mb/s,熄灭表示没有连接,闪烁表示端口被管理员手动关闭;RDP LED表示冗余电源;MGMT LED表示管理员模块。无论能否从外面的出故障所在,都必须登录交换机以确定具体的故障所在,并进行相应的排障措施。

3,由软到硬

发生故障,谁都不想动不动就那螺丝刀去先拆了交换机再说,所以在检查时,总是先从系统配置或系统软件上着手进行排查。如果软件上不能解决问题,那就是硬件有问题了。比如某端口不好用,那我们可以先检查用户所连接的端口是否不在相应的VLAN中,或者该端口是否被其他的管理员关闭,或者配置上的其他原因。如果排除了系统和配置上的各种可能,那就可以怀疑到真正的问题所在——硬件故障上。

4,先易后难

在遇到故障分析较复杂时,必须先从简单操作或配置来着手排除。这样可以加快故障排除的速度,提高效率。

四,总结:

由于交换机故障现象多种多样,没有固定的排除步骤,而有的故障往往具有明确的方向性,一眼就能识别得出。所以只能根据具体情况具体分析了,当然不管是什么样的故障对于一个新上任的网络管理员来说都是困难的事,所以如果你希望能够成为交换机故障的排除高手,就一定要在日常工作中积累经验,每弄好一个问题都用心的去回顾问题根源以及解决方法。这样才能不断的提高自己,更好的完成网络管理的重任。

上一页  [1] [2] 

文章录入:csh    责任编辑:csh

(0)

相关推荐

  • 交换机故障的一般分类和排障步骤

    交换机的优越性能和价格的大幅度下降,促使了交换机的迅速普及.网络管理员在工作中经常会遇到各种各样的交换机故障,如何迅速.准确地查出故障并排除故障呢?本文就常见的故障类型和排障步骤做一个简单的介绍.由于交换机在公司网络中应用范围非常广泛,从低端到中端,从中端到高端,几乎涉及每个级别的产品,所以交换机发生故障的机率比路由器,硬件防火墙等要高很多,这也是为什么我们首先讨论交换机故障的分类与排除故障步骤的原因. 一,交换机故障分类: 交换机故障一般可以分为硬件故障和软件故障两大类.硬件故障主要指交换机电

  • 交换机升级排障实例

    各公司的网络管理员在选购网络设备的时候都是精挑细选,在同等级别的不同厂商之间反复研究,多次比较后选出最佳性价比的产品来.不过有一点可能很多网络管理员都忽略了,那就是网络产品的未来,一个产品不可能一直使用肯定会有出问题的时候,出问题后厂家的服务就显得尤为重要了.同样网络技术是在不断发展前进的,网络产品也要有一定的可升级可扩展性.最近笔者就遇到升级核心设备的问题,现记录如下: 一,升级环境: 事情的原因是这样的,公司下属部门申请到一定的经费用于网络升级,因此该部门前几天新买了一台思科的Catalys

  • linux php-cgi.exe占用cpu 100%的一次排障之旅

    先说下我们网站的架构,由于目前网站访问量不是很大,但是由于最近公司网站要推广,所以将网站由单机切换成前端用nginx做负载均衡,带动两台web服务器,所有网页和静态文件都通过NFS共享调用,NFS服务装在其中的一个web服务器上,后端用mysql主从的方式,是很典型的架构. 切换成这个架构才2天,就收到nagios的报警,报警信息显示有一台web服务器负载很高,于是通过SecureCRT登录到服务器上,用top命令看了一下,发现有几个php-cgi进程占用了大量的CPU,如下: 13889 ww

  • win2003服务器.NET+IIS环境常见问题排障总结

    你是否经常会遇到以下的拦路虎,当你兴致勃勃地把调试好的程序发布到WEB服务器时,以下错误就出现了: 1.无法找到文件(404)白底黑字 2.没有权限访问该文件(403)白底黑字 3.直接弹出来一个要输入帐号密码的框框,然后你对着屏幕说:什么密码. 4.黄底黑字+红字的错误提示页(.Net) 5... 这些东东几乎占据了.Net+IIS搭建环境的绝大部分错误. 有时我们无意中覆盖一个"不起眼"的文件,上述错误就会蹦出来.碰巧该应用又是非常重要的应用,这足够让你接下来的一个小时冒冷汗. 不

  • 服务器常见问题汇总(常见故障及相应的解决方法)

    服务器支撑着整个企业的信息数据,对公司的信息储存.业务开展.正常运作等等环节都具有着至关重要的意义.然而,服务器在日常运行过程中,由于其复杂的硬件结构.繁琐的运行原理,经常会出现一些大大小小的问题困扰着各位.下面精心整理一些服务器的常见问题汇总,帮助各位排忧解难. 1.系统蓝屏.频繁死机.重启.反映速度迟钝 服务器的与我们平常电脑不论是硬件结构还是运行系统,都是极其类似的.因此,就如同我们的电脑一样,一样可能会感染病毒,同样会因为系统漏洞.软件冲突.硬件故障导致死机.蓝屏.重启等故障,同样会因为

  • 排除路由故障的常见方法

    一 静态路由故障 1. 静态路由和有类别查找 当路由选择表进程检查一条使用中间地址(路由选择表中作为下一跳引用的IP地址)的可解析的静态路由时,这个检查总是在有类别方式下完成的,无论是否使用ip classless命令如果在路由选择表中有类别方式下的中间地址不能解析,则删除该静态路由. 使用show ip route查看路由选择表. 使用debug 可以显示某个网络宕掉了. 如果使用无类别方式并有一条默认路由存在,那么具有高管理距离的备份表态路由将永远不会在主静态路由失效时装入到路由选择表中.这

  • 一次centos Docker网桥模式无法访问宿主机Redis服务的故障排除经历

    背景: 之前做了一个项目,需要在容器内访问宿主机提供的Redis 服务(这是一个比较常见的应用场景哈), 常规方案: ① 主机网络(docker run --network=host): 完全应用主机网络堆栈,在容器内localhost就是指向宿主机 ② 网桥网络(docker run --network=bridge): 这也是docker容器默认的网络通信模式,容器内localhost 指向的是容器自身,不能使用 localhost 访问宿主机上localhost:6379承载的Redis服

  • python数据处理 根据颜色对图片进行分类的方法

    前面一篇文章有说过,利用scrapy来爬取图片,是为了对图片数据进行分类而收集数据. 本篇文章就是利用上次爬取的图片数据,根据图片的颜色特征来做一个简单的分类处理. 实现步骤如下: 1:图片路径添加 2:对比度处理 3:滤波处理 4:数据提取以及特征向量化 5:图片分类处理 6:根据处理结果将图片分类保存 代码量中等,还可以更少,只是我为了练习类的使用,而将每个步骤都封装成了一个独立的类,当然里面也有类继承的问题,遇到的问题前面一篇文章有讲解.内容可能有点繁琐,尤其是文件和路径的使用(可以自己修

  • 电脑"蓝屏"原因之速查手册

    死机是令操作者颇为烦恼的事情.死机时的表现多为"蓝屏",无法启动系统,画面"定格"无反应,鼠标.键盘无法输入,软件运行非正常中断等.尽管造成死机的原因很多,但是万变不离其宗,其原因永远也脱离不了硬件与软件两方面.  一.由硬件原因引起的死机  [散热不良]    显示器.电源和CPU在工作中发热量非常大,因此保持良好的通风状况非常重要,如果显示器过热将会导致色彩.图象失真甚至缩短显示器寿命.工作时间太长 也会导致电源或显示器散热不畅而造成电脑死机.CPU的散热是关系

  • 运维的85条规则

    1.容量第一,优化第二--这条规则在故障发生时生效.在宕机的时候别研究什么优化,先恢复设备. 2.保留所有可以捕获的记录--以 PostgresQL 为例,包括有 WAL 文件,Slony 复制,快照技术,基于硬盘的 DB 版本(快照附带的) 3.不要因为优化引入更多问题.通常我们解决问题时做出来的东西都会转变成之后运维工作的负担.请确认为运维工作开发的那些工具已经完全交付使用.这些东西经常无法正常运行结果要返回开发组重来.更重要的,这种变更请求通常会打破团队原本安排好的工作计划. 4.保持简单

随机推荐