排除路由器崩溃故障

介绍

通常所说的“系统崩溃”是指系统检测到无法恢复的错误并重新启动的情况。

引起崩溃的错误通常是由处理器硬件检测的,处理器硬件在 ROM 监视器中自动派生出特殊的错误处理代码。ROM 监视器可以识别错误,打印消息,保存故障信息并重新启动系统。

开始之前

规则


有关文件规则的更多信息,请参阅 Cisco Technical Tips Conventions.

前提条件


本文没有任何特定的前提条件。

所使用组件


本文不限于任何特定的软硬件版本。

获得有关崩溃的信息


在路由器崩溃的情况下,最重要的工作是在对路由器进行人工重载或重新加电启动之前尽可能多地收集有关崩溃的信息。人工重载或重新加电启动之后,除 crashinfo 文件中成功保存的信息外,有关崩溃的所有其他信息都将丢失。下面的输出内容显示了有关崩溃的一些信息。

若您可以通过Cisco设备获得show version、show stacks、show contextshow tech support命令输出,则可通过这些输出来显示潜在的问题和修补方法。若要使用这些信息,登录并启用 ,但您必须是注册 用户。

命令


说明


show version

最早在Cisco IOS(r)软件版本10.0中出现的命令。Show version EXEC命令显示系统硬件配置、软件版本、配置文件与软件镜像的名称和来源、路由器运行时间和有关系统重启过程的信息。

重要提示:若路由器在崩溃后重载(例如加电重启或使用reload命令),该信息将会丢失。因此,设法在重载前收集有关信息!!!

show stacks

最早在Cisco IOS软件版本10.0中出现的命令。show stacks EXEC命令用来监视程序和中断程序的堆栈使用情况。在路由器崩溃的情况下,show stacks命令输出是信息的最重要来源之一。

重要提示: 若路由器在崩溃后重载(例如加电重启或使用reload命令),该信息将会丢失。因此,设法在重载前收集有关信息!

show context

最早在Cisco IOS软件版本10.3中出现的命令。show context EXEC命令用来在发生意外事件时显示非易失性RAM(NVRAM)中保存的信息。上下文信息是处理器和基础结构所特定的,而软件版本和运行时间信息则不是。不同路由器类型的上下文信息因此各不相同。show context命令的显示内容包括以下方面:

  • 系统重启原因

  • 堆栈记录

  • 软件版本

  • 信号编号、代码和路由运行时间信息

  • 崩溃时的所有注册内容

show tech-support

最早出现在Cisco IOS软件版本11.2中。在报告问题时,此命令非常有助于收集有关路由器的基本信息。此命令包括:

  • show version

  • show running-config

  • show stacks

  • show interface

  • show controller

  • show process cpu

  • show process memory

  • show buffers

console log

若在崩溃时与路由器控制面板相连,您会在崩溃期间看到类似以下信息的显示内容:

*** System received a Software forced crash ***   signal= 0x17, code= 0x24, context= 0x619978a0   PC = 0x602e59dc, Cause = 0x4020, Status Reg = 0x34008002   DCL Masked Interrupt Register = 0x000000f7   DCL Interrupt Value Register = 0x00000010   MEMD Int 6 Status Register = 0x00000000   

保存这些信息以及此前的日志。路由器恢复运行时一定要获得show stacks命令输出。

syslog

若路由器设置为向syslog服务器发送日志,则可在syslog服务器上显示崩溃前所发生的事件。但是,在路由器崩溃的情况下,可能不会将最有用的信息发送到syslog服务器上。因此,通常情况下,syslog输出对于排除崩溃故障不是很有用。

crashinfo

crashinfo文件包含有关当前崩溃的许多有用信息,这些信息保存在bootflash或flash存储器中。当数据或堆栈损坏引起路由器崩溃时,除了常用的show stacks命令输出外,还需要更多的重载信息来排除这类崩溃故障。

在Cisco 12000千兆位路由器处理器(GRP)、Cisco 7000和7500路由交换处理器 (RSP)以及Cisco 7200系列路由器上,缺省情况下crashinfo被写入到bootflash:crashinfo中。对于Cisco 7500通用接口处理器2(VIP2),缺省情况下此文件被保存到bootflash:vip2_slot_no_crashinfo中,其中,slot_no为VIP2插槽号码。对于Cisco 7000路由处理器(RP),缺省情况下此文件被保存到flash:crashinfo中。

有关更多信息,请参阅 从Crashinfo文件中获取信息.

core dump

core dump是路由器内存镜像的全面拷贝。这种信息对于解决大多数类型的崩溃问题是不必要的,但在记录新的故障时,最好使用这些信息。若要将 debug sanity、scheduler heapcheck process和memory check-interval 1等更多信息添加到core dump 中,则可能需要启用某些调试工具。

有关详细信息请参阅 创建Core Dumps

rom monitor

若路由器的config-register设置以0为结尾,则崩溃后,路由器可能在ROM监视器中终止。若路由器为68k,则提示符为">"。您可通过k命令来获取堆栈记录。 若处理器为精简指令集计算机构(RISC),则提示符将为"rommon 1>"。获取stack 50和show context的输出。

崩溃类型


show versionshow stacks命令输出可显示所发生崩溃的类型,如:总线错误或软件强制崩溃。您还可以通过crashinfoshow context命令来获取有关崩溃类型的信息。对于某些较新的Cisco IOS软件版本,没有明确显示崩溃原因(例如,显示内容为"Signal = x",其中x是一个数字)。若要了解这些数字所表示的意义,请参照通用接口处理器崩溃原因代码例如:"Signal = 23"是指软件强制崩溃。根据下面的链接来解决路由器上所发生的特定类型的崩溃:

  • 中断

  • 地址错误

  • 总线错误

  • 缓存器异常错误

  • 错误 - 级别 <x>

  • 格式错误

  • 非法指令

  • 非法Opcode异常

  • 跳到零错误

  • 线路仿真器陷阱

  • 加电

  • 处理器内存奇偶校验错误

  • 保留异常

  • 错误重新启动

  • 分段违例异常

  • 共享存储器奇偶校验错误

  • SIGTRAP

  • 软件强制崩溃

  • 跟踪陷阱

  • 未定义陷阱

  • 意外硬件运行中断

  • 未知故障

  • 未知重新装载原因

  • 监视器超时

  • 写总线错误中断

路由器模块崩溃


在某些情况下,只是特定的路由器模块崩溃,而不是整个路由器崩溃。下列文件对如何解决某些路由器模块上的崩溃进行了说明:

  • 排除VIP崩溃

  • 排除PA-A3上的SAR崩溃

  • 排除Cisco GSR12000系列上的线路卡崩溃

显示崩溃情况的输出范例


Router#show version
Cisco Internetwork Operating System Software 
IOS (tm) RSP Software (RSP-PV-M), Version 12.0(10.6)ST, EARLY DEPLOYMENT
MAINTENANCE INTERIM SOFTWARE 
Copyright (c) 1986-2000 by cisco Systems, Inc. 
Compiled Fri 23-Jun-00 16:02 by richv 
Image text-base: 0x60010908, data-base: 0x60D96000

ROM: System Bootstrap, Version 12.0(19990806:174725), DEVELOPMENT SOFTWARE 
BOOTFLASH: RSP Software (RSP-BOOT-M), Version 12.0(9)S, EARLY DEPLOYMENT 
RELEASE SOFTWARE (fc1)

Router uptime is 20 hours, 56 minutes 
System returned to ROM by error - a Software forced crash, PC 0x60287EE8 
System image file is "slot0:rsp-pv-mz.120-10.6.ST"

cisco RSP8 (R7000) processor with 131072K/8216K bytes of memory. 
R7000 CPU at 250Mhz, Implementation 39, Rev 1.0, 256KB L2, 2048KB L3 Cache 
Last reset from power-on 
G.703/E1 software, Version 1.0. 
G.703/JT2 software, Version 1.0. 
X.25 software, Version 3.0.0. 
Chassis Interface. 
1 EIP controller (6 Ethernet). 
1 VIP2 R5K controller (1 FastEthernet)(2 HSSI). 
6 Ethernet/IEEE 802.3 interface(s) 
1 FastEthernet/IEEE 802.3 interface(s) 
2 HSSI network interface(s) 
2043K bytes of non-volatile configuration memory. 
20480K bytes of Flash PCMCIA card at slot 0 (Sector size 128K). 
16384K bytes of Flash internal SIMM (Sector size 256K). 
No slave installed in slot 7. 
Configuration register is 0x2102

Router#show stacks
Minimum process stacks: 
Free/Size   Name 
5188/6000   CEF Reloader 
9620/12000  Init 
5296/6000   RADIUS INITCONFIG 
5724/6000   MDFS Reload 
2460/3000   RSP memory size check 
8176/9000   DHCP Client

Interrupt level stacks: 
Level    Called Unused/Size  Name 
   1         163   8504/9000  Network Interrupt 
   2       14641   8172/9000  Network Status Interrupt 
   3           0   9000/9000  OIR interrupt 
   4           0   9000/9000  PCMCIA Interrupt 
   5        5849   8600/9000  Console Uart 
   6           0   9000/9000  Error Interrupt 
   7      396230   8604/9000  NMI Interrupt Handler

System was restarted by error - a Software forced crash, PC 0x602DE884 at 05:07:31 
UTC Thu Sep 16 1999 
RSP Software (RSP-JSV-M), Version 12.0(7)T,  RELEASE SOFTWARE (fc2) 
Compiled Mon 06-Dec-99 19:40 by phanguye 
Image text-base: 0x60010908, database: 0x61356000 
Stack trace from system failure: 
FP: 0x61F73C30, RA: 0x602DE884 
FP: 0x61F73C30, RA: 0x6030D29C 
FP: 0x61F73D88, RA: 0x6025E96C 
FP: 0x61F73DD0, RA: 0x6026A954 
FP: 0x61F73E30, RA: 0x602B94BC 
FP: 0x61F73E48, RA: 0x602B94A8

若在 bootflash 中存在 crashinfo,则在 show stacks 命令执行结束时显示以下内容:

*************************************************** 
******* Information of Last System Crash ********** 
***************************************************

Using bootflash:crashinfo_20000323-061850. 2000 
CMD: 'sh int fas' 03:23:41 UTC Thu Mar 2 2000 
CMD: 'sh int fastEthernet 6/0/0' 03:23:44 UTC Thu Mar 2 2000 
CMD: 'conf t' 03:23:56 UTC Thu Mar 2 2000 
CMD: 'no ip cef di' 03:23:58 UTC Thu Mar 2 2000 
CMD: 'no ip cef distributed ' 03:23:58 UTC Thu Mar 2 2000 
...

Router#show context

System was restarted by error - a Software forced crash, PC 0x602DE884 at 
05:07:31 UTC Thu Sep 16 1999 
RSP Software (RSP-JSV-M), Version 12.0(7)T,  RELEASE SOFTWARE (fc2) 
Compiled Mon 06-DEC-99 19:40 by phanguye 
Image text-base: 0x60010908, database: 0x61356000

Stack trace from system failure: 
FP: 0x61F73C30, RA: 0x602DE884 
FP: 0x61F73C30, RA: 0x6030D29C 
FP: 0x61F73D88, RA: 0x6025E96C 
FP: 0x61F73DD0, RA: 0x6026A954 
FP: 0x61F73E30, RA: 0x602B94BC 
FP: 0x61F73E48, RA: 0x602B94A8

Fault History Buffer: 
RSP Software (RSP-JSV-M), Version 12.0(7)T,  RELEASE SOFTWARE (fc2) 
Compiled Mon 06-DEC-99 19:40 by phanguye 
Signal = 23, Code = 0x24, Uptime 3w0d 
$0 : 00000000, AT : 619A0000, v0 : 61990000, v1 : 00000032 
a0 : 6026A114, a1 : 61A309A4, a2 : 00000000, a3 : 00000000 
t0 : 61F6CD80, t1 : 8000FD88, t2 : 34008700, t3 : FFFF00FF 
t4 : 00000083, t5 : 3E840024, t6 : 00000000, t7 : 00000000 
s0 : 0000003C, s1 : 00000036, s2 : 00000000, s3 : 61F73C48 
s4 : 00000000, s5 : 61993A10, s6 : 61982D00, s7 : 61820000 
t8 : 0000327A, t9 : 00000000, k0 : 61E48C4C, k1 : 602E7748 
gp : 6186F3A0, sp : 61F73C30, s8 : 00000000, ra : 6030D29C 
EPC : 602DE884, SREG : 3400E703, Cause : 00000024 
Error EPC : BFC00000, BadVaddr : 40231FFE

文章录入:csh    责任编辑:csh

(0)

相关推荐

  • 排除路由器崩溃故障

    介绍通常所说的"系统崩溃"是指系统检测到无法恢复的错误并重新启动的情况. 引起崩溃的错误通常是由处理器硬件检测的,处理器硬件在 ROM 监视器中自动派生出特殊的错误处理代码.ROM 监视器可以识别错误,打印消息,保存故障信息并重新启动系统. 开始之前规则有关文件规则的更多信息,请参阅 Cisco Technical Tips Conventions. 前提条件本文没有任何特定的前提条件. 所使用组件本文不限于任何特定的软硬件版本. 获得有关崩溃的信息在路由器崩溃的情况下,最重要的工作是

  • 发现路由器转发故障的BFD

    IP网络在设计上无法在不到1秒的时间内恢复故障,但是,VoIP等应用对迅速故障检测和恢复提出了越来越高的要求.一种叫做双向转发检测(BFD)的新协议将帮助解决这个问题,提高故障检测与恢复速度.作为一项IETF草案标准,BFD提供一种检测链路或系统转发传输流能力的简单方法. 多层检测 BFD是从基础传输技术中经过逐步发展而来的,因此它可以检测网络各层的故障.它可以用于检测以太网.多协议标记交换(MPLS)路径.普通路由封装以及IPSec隧道在内的多种类型的传输正确性. 从本质上讲,BFD是一种高速

  • 宽带路由器常见故障巧排除

    在SOHO和中小型企业用户中,宽带路由器应用非常普遍.对于一些网络新手来说,出现一些说明手册未涉及的故障,有时难以应付.下面,笔者就一些常见的故障和问题进行分析,并提供解决方法. 一. 线路不通,无法建立连接 1. 用网线将路由器的WAN口与ADSL Modem相连,电话线连ADSL Modem的"Line"口.ADSL Modem与宽带路由器之间的连接应当使用直通线. 2. 检查路由器LAN中的Link灯信号是否显示,路由器至局域网是否正常联机.路由器的LAN端口既可以直接连接至计算

  • 基于路由器诊断步骤和故障排除技巧

    网络诊断是管好.用好网络,使网络发挥最大作用的重要技术工作.本文简述分层诊断技术,结合讨论路由器各种接口的诊断,综述互联网络连通性故障的排除. 网络故障诊断概述 网络故障诊断,从故障现象出发,以网络诊断工具为手段获取诊断信息,确定网络故障点,查找问题的根源,排除故障,恢复网络正常运行.网络故障通常有以下几种可能:物理层中物理设备相互连接失败或者硬件及线路本身的问题:数据链路层的网络设备的接口配置 问题:网络层网络协议配置或操作错误:传输层的设备性能或通信拥塞问题:上三层或网络应用程序错误.诊断网

  • 浅谈防火墙对FTP的影响及故障排除分析

    FTP是常见的基于TCP的网络服务,它使用了两个TCP连接来建立逻辑通信信道,即控制连接和数据连接.当客户端与服务器建立一个FTP会话时,使用TCP创建一个持久的控制连接以传递命令和应答.当发送文件和其它数据传输时,它们在独立的TCP数据连接上进行传递,这个连接根据需要创建和拆除. 更为复杂的是,FTP标准指定了创建数据连接的两种不同方法,即正常(主动)数据连接和被动数据连接.FTP的控制连接总是由客户端首先发起的,主动数据连接是由服务器端发起的,被动数据连接是由客户端发起的. 成功建立控制连接

  • 一般故障排除步骤与方法

    一般故障排除 硬盘的分区损坏.当硬盘启动时,会出现"Invalid partition table",而且用系统软盘启动后,用"DIR C:"命令,如果出现"Invalid drive specification",说明硬盘的分区损坏.需要用"FDISK"和"FORMAT"命令重新分区格式化. 24.2.1 硬盘故障排除 l.系统引导文件被破坏的处理 启动计算机时,屏幕出现"Missing Ope

  • 路由技术,路由器与网络安全

    路由器(Router)是因特网上最为重要的设备之一,正是遍布世界各地的数以万计的路由器构成了因特网这个在我们的身边日夜不停地运转的巨型信息网络的"桥梁".因特网的核心通讯机制是一种被称为"存储转发"的数据传输模型.在这种通讯机制下,所有在网络上流动的数据都是以数据包(Packet)的形式被发送.传输和接收处理的.接入因特网的任何一台电脑要与别的机器相互通讯并交换信息就必须拥有一个唯一的网络"地址".数据并不是从它的"出发点"直

  • Cisco路由器故障诊断技术

    1 引言 作为网络工程师,在网络环境出现故障时,及时定位故障并解决故障是十分重要的.本文以CISCO路由式网络为基础,介绍使用诊断工具对Cisco路由器进行故障诊断的方法.限于篇幅,我们所介绍的内容和示例主要是基于IP报文的,基于IPX和Appletalk等协议的诊断技术与此类似. 2 路由器的功能特性和体系结构 在学习Cisco路由器上可使用的各种故障排除和诊断工具之前,了解路由器的基本体系结构是十分重要的.网络工程师应该理解诊断命令执行时所起的作用以及对于路由器性能所产生的影响. 交换与路由

  • Cisco路由器故障诊断技术专题

    1 引言 作为网络工程师,在网络环境出现故障时,及时定位故障并解决故障是十分重要的.本文以CISCO路由式网络为基础,介绍使用诊断工具对Cisco路由器进行故障诊断的方法.限于篇幅,我们所介绍的内容和示例主要是基于IP报文的,基于IPX和Appletalk等协议的诊断技术与此类似. 2 路由器的功能特性和体系结构 在学习Cisco路由器上可使用的各种故障排除和诊断工具之前,了解路由器的基本体系结构是十分重要的.网络工程师应该理解诊断命令执行时所起的作用以及对于路由器性能所产生的影响. 交换与路由

  • Cisco路由器故障诊断技术重新编辑

    注:  要顺利地诊断并排除网络故障,网络工程技术人员必须掌握两种基本的技能.首先是对网络技术和协议要有清楚的理解,它是诊断与排除网络故障的基础.没有适当的知识和经验,故障诊断与排除工具比如路由器诊断命令和网络分析仪都不能发挥其作用. fffff>(net130.com)  1 引言 作为网络工程师,在网络环境出现故障时,及时定位故障并解决故障是十分重要的.本文以CISCO路由式网络为基础,介绍使用诊断工具对Cisco路由器进行故障诊断的方法.限于篇幅,我们所介绍的内容和示例主要是基于IP报文的,

随机推荐