Android ANR分析trace文件的产生流程详情

目录
  • 前言
  • 接着分析最后一步向收集到的进程发送信号

前言

首先收集需要dump trace的进程并给对应进程发送dump trace的信号

1.当一些带有超时机制的系统消息(如:Service的创建)判定超时后,会调用系统服务AMS接口,收集ANR相关信息并存档(data/anr/trace, data/system/dropbox)

2.进入到AMS中,AppError会先进行筛选(1.当前进程正在进行dump流程 2.已经发生crash 3. 已经被系统kill 4.系统是否正在关机等情况),如果都不符合,则认为当前进程发生了anr。

3.接下来系统在判断当前ANR进程对用户是否可感知,然后开始统计与该进程由关联的进程,或者一些系统核心服务进程的信息(例如与应用交互的SurfaceFligner,System Server等系统进程),如果这些系统服务进程在响应时被阻塞,那么将导致应用进程IPC通信过程被卡死。接着获取其他系统核心进程,因为这些服务进程是init进程直接创建的,并不在SystemServer或Zygote进程管理范围。 >firstPids队列:第一个是ANR进程,第二个是system_server,剩余是所有persistent进程; Native队列:是指/system/bin/目录的mediaserver,sdcard 以及surfaceflinger进程; lastPids队列: 是指mLruProcesses中的不属于firstPids的所有进程。

4.在收集完第一步信息后,接下来便开始统计各进程本地的更多信息,如虚拟机信息,java线程状态及堆栈。首先会弹出一个ANR的对话框,然后向UI线程发送SHOW_NOT_RESPONDING_MSG消息

5.当UI线程收到该消息后,会调用dumpStackTraces函数:

最重要的一点:向目标进程发送SINAL_QUIT(进程中的Signal Catcher会进行阻塞检测收集信息后面讲),firstPids列表中的进程, 两个进程之间会休眠200ms, 可见persistent进程越多,则时间越长. top 5进程的traces过程中, 同样是间隔200ms, 另外进程使用情况的收集也是比较耗时.

总结;

>将am_anr信息输出到EventLog(分析anr问题时先看该log) 获取重要进程的信息,java进程的,和native的进程 将ANR的Reason和CPU使用的情况输出到main_log 在将CPU使用情况和进程的trace文件信息,在保存到drpobox文件下 向收集到的进程发送SINAL_QUIT信号。

接着分析最后一步向收集到的进程发送信号

(Android5.0之前是dump用的SuspendAll线程,收集信息之后用ResumeAll恢复。在5.0之后采用的是checkPoint进行dump信息)

发生ANR时,systemServer进程会执行dumpStackTraces函数,在该函数中发SIGQUIT信号给对应的进程(上面有分析到) 处于安全考虑,进程之间是相互隔离的,即使系统进程也无法获取其他进程的信息,所以要借助于IPC通信,将指令发送到目标进程,目标进程接收到消息后,协助完成自身进程Dump信息并发送给系统进程。Android P 流程:

1.一个进程接收到了SIGQIUT信号的时候,SingaCatcher线程的WaitForSignal函数会返回接着会调用到HandlerSigQuit()函数。

2.hindleSigQuit()函数为:

3.DumpForSigQuit()函数:

这是读取的信息,但是什么时候去读取呢(什么时候才能保证获取到的却是是需要的东西,例如GC信息,当前分配了多少对象,这些打印一般都需要在suspend当前进程里面的所有的线程),接下来先分析这个suspend过程:

这个挂起SupendAll实在Thread_list.cc中实现的,他的作用就是用来suspend当前进程里面所有其他的线程(一般发生在GC,DumpForSigQuit等过程中)。SuspendAll过程实现最重要的就是ModifySupendCount(self,+1,false)这段语句他会修改对应Thread对象的suspend引用计数:

因为传入的delta值是+1所以会先执行AtmoicSetFlag()利用原子操作设置了KSuspendRequest标志位,代表当前这个线程有挂起请求。什么时候会进行检测这个标志位呢?这里涉及到了checkPoint的知识点最后讲解(在线程运行中进行上下文切换(例如java线程转换为Native线程)时就会运行CheckSuspend函数,这个函数才是真正的把当前线程suspend:

可以看到检测到了KSuspendRequest标记就会执行FullSuspend函数,KSuspendRequest标志位是用来dump线程的堆栈的,分析完了SuspendAll之后,再继续分析FullSuspendCheck函数:

调用TransitionFromRunnableToSuspend()这个函数后,线程就进入了KSuspended状态,然后在调用TransitionFromSuspendedToRunnablecpm函数从Suspend状态切换到Runnable状态的时候会阻塞在一个条件变量上,除非调用SuspendAll的线程接着又调用了ResumeAll()函数,要不然这些线程就会一直被阻塞住。 4.现在就把SuspendAll的流程分析完了,但是dump线程堆栈的时候并不是在设置了挂起标志位(KSuspendRequest)后执行的,与他相关的是另外一个标志位KCheckpointRequest,接下来看一下Thread_list的Dump函数,这个函数会在Thread_list的DumpForSigQuit中会被调用到,也就是在Signal Cathcer线程处理SIGQUIT信号的过程中。

这个函数先创建了一个叫DumpCheckPoint对象checkpoint,然后调用了RunCheckpoint将这个对象传入,这个函数会返回现在处于Runnable状态的线程个数,接着 调用了WaitForThreadsToRunThroughCheckpoint()等待这些处于Runnable的线程都执行完DumpCheckpoint的Run函数,如果等待超时就会报错。

接着分析RunCheckPoint函数,先看前一部分:

对于处于Runnable状态的线程执行它的RequestCheckpoint函数会返回true,其他状态的线程则会返回false。对于这些非Runnable状态的线程就会像SuspendAll一样会设置KSuspendRequest标志位,后面状态切换的时候就会检查这个标志位挂起。同事RunCheckPoint函数会把这些线程统计到suspend_count_modified_threads这个Vector变量中,在这个变量中的线程,Singal Catcher线程会主动触发他们的dump堆栈过程。接下来再看看这个RequestCheckpoint函数

最后一行设置kCheckpointRequest标志位,在刚才线程切换运行状态时会执行CheckSuspend函数在检测kCheckpointRequest标志位的时候会执行RunCheckpointFunction函数,接着会执行这个checkpoints里面元素的run函数:

(这个存储的其实就是Thread中的RequestCheckpoint在这里不仅设置了标志位还把参数设置为元素的值,这个参数就是Dump里面调用RunCheckpoint传过来的,其实就是DumpCheckpoint)。 ,所以也就是执行DumpCheckpoint的run函数:

其实就是调用了Thread的Dump函数,线程的java堆栈,Native堆栈和Kernel堆栈就是在这里打印的,刚才说对于处于Runnable状态的线程是通过调用他们的RequestCkeckPoint函数,然后它们自己去dump当前堆栈的,而那些不处于Runnable状态的线程则是添加到了一个Vector的变量中,接着就分析RunCheckPoint函数的第二部分:

对于这些不是Runnable状态的线程,他们可能不会主动去调用Run函数,所以只能有Signal Catcher线程去帮他们Dump,至于DumpCheckpoint的Run函数的功能和Runnable状态的线程是一样的,都是打印线程堆栈,并且最后修改引用计数让这些线程在切换状态时继续运行。

总结:

>1.SingalCatcher线程接收到信号后,首先Dump当前虚拟机有关信息(内存状态。对象,加载class,GC等相关信息) 2.接下来会设置每个线程的标记为(check_point),和请求线程状态(suspend)。当线程运行过程中进行上下文切换时,会检查该标记。如果发现有挂起请求,会将自己主动挂起。等到所有线程都挂起之后,SingalCatcher线程开始遍历Dump各个线程的堆栈和线程数据后再唤醒线程。如果某个线程一直无法挂起导致超时,那么本次Dump流程失败抛出异常.

大致流程(Android5.0之前):

checkPoint:

先讲解safePoint,对于ART编译的代码,可以定期轮询当前Runtime来确认是否需要执行某些特定代码;可以认为这些轮询时的点,就是safepoint;safepoint可以用来实现暂定一个java线程,也可以用来实现Checkpoint机制; 例: 当正在执行java代码的线程A执行到safepoint时,会执行CheckSuspend函数,在发现当前线程有 checkpoint request时, 会在这个点执行线程的CheckPoint函数;如果发现当前线程有suspend request时,会进行SuspendCheck,使得线程进入Suspend状态(暂停); 所以说,ART CheckPoint应该是safepoint的一个功能实现;

到此这篇关于Android ANR分析trace文件的产生流程详情的文章就介绍到这了,更多相关Android ANR分析 内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • 解析Android ANR问题

    一.ANR介绍 ANR 由消息处理机制保证,Android 在系统层实现了一套精密的机制来发现 ANR,核心原理是消息调度和超时处理.ANR 机制主体实现在系统层,所有与 ANR 相关的消息,都会经过系统进程system_server调度,具体是ActivityManagerService服务,然后派发到应用进程完成对消息的实际处理,同时,系统进程设计了不同的超时限制来跟踪消息的处理. 一旦应用程序处理消息不当,超时限制就起作用了,它收集一些系统状态,譬如 CPU/IO 使用情况.进程函数调用栈

  • Android ANR原理分析

    目录 卡顿原理 卡顿监控 ANR原理 卡顿原理 主线程有耗时操作会导致卡顿,卡顿超过阀值,触发ANR. 应用进程启动时候,Zygote会反射调用ActivityThread的main方法,启动loop循环. ActivityThread(api29) public static void main(String[] args) { Looper.prepareMainLooper(); ... Looper.loop(); throw new RuntimeException("Main thr

  • 通过Android trace文件分析死锁ANR实例过程

    对于从事Android开发的人来说,遇到ANR(Application Not Responding)是比较常见的问题.一般情况下,如果有ANR发生,系统都会在/data/anr/目录下生成trace文件,通过分析trace文件,可以定位产生ANR的原因.产生ANR的原因有很多,比如CPU使用过高.事件没有得到及时的响应.死锁等,下面将通过一次因为死锁导致的ANR问题,来说明如何通过trace文件分析ANR问题. 对应的部分trace文件内容如下: "PowerManagerService&qu

  • 浅谈Android ANR在线监控原理

    Android中的Watchdog 在Android中,Watchdog是用来监测关键服务是否发生了死锁,如果发生了死锁就kill进程,重启SystemServer Android的Watchdog是在SystemServer中进行初始化的,所以Watchdog是运行在SystemServer进程中 Watchdog是运行一个单独的线程中的,每次wait 30s之后就会发起一个监测行为,如果系统休眠了,那Watchdog的wait行为也会休眠,此时需要等待系统唤醒之后才会重新恢复监测 想要被Wa

  • Android ANR(Application Not Responding)的分析

    Android ANR(Application Not Responding)的分析 ANR (Application Not Responding) ANR定义:在Android上,如果你的应用程序有一段时间响应不够灵敏,系统会向用户显示一个对话框,这个对话框称作应用程序无响应(ANR:Application Not Responding)对话框.用户可以选择"等待"而让程序继续运行,也可以选择"强制关闭".所以一个流畅的合理的应用程序中不能出现anr,而让用户每

  • 深入学习Android ANR 的原理分析及解决办法

    目录 一.ANR说明和原因 1.1 简介 1.2 原因 1.3 避免 二.ANR分析办法 2.1 ANR重现 2.2 ANR分析办法一:Log 2.3 ANR分析办法二:traces.txt 2.4 ANR分析办法三:Java线程调用分析 2.5 ANR分析办法四:DDMS分析ANR问题 三.造成ANR的原因及解决办法 四.ANR源码分析 4.1 Service造成的Service Timeout 4.2 BroadcastReceiver造成的BroadcastQueue Timeout 4.

  • Android开发中避免应用无响应的方法(Application Not Responding、ANR)

    App里发生的最糟糕的事是弹出应用无响应"Application Not Responding" (ANR) 对话框.本课讲的是如何保持应用响应,避免ANR. 什么触发ANR 通常,系统会在应用无法对用户输入响应时显示ANR.比如,如果一个应用在I/O操作上阻塞了(频繁请求网络)UI线程,系统无法处理用户输入事件.或者,在UI线程中,app花了大量时间在构建复杂的类,或在游戏中计算下一个动作.保证这些操作高效是很重要的,但最高效的代码也需要花费时间. 在任何情况下,都不要在UI线程执行

  • 全面解析Android之ANR日志

    目录 一.概述 二.ANR产生机制 2.1 输入事件超时(5s) 2.2 广播类型超时(前台15s,后台60s) 2.3 服务超时(前台20s,后台200s) 2.4 ContentProvider 类型 三.导致ANR的原因 3.1 应用层导致ANR(耗时操作) 3.2 系统导致ANR 四.分析日志 4.1 CPU 负载 4.2 内存信息 4.3 堆栈消息 五.典型案例分析 5.1 主线程无卡顿,处于正常状态堆栈 5.2 主线程执行耗时操作 5.3 主线程被锁阻塞 5.4 CPU被抢占 5.5

  • 浅谈Android ANR的信息收集过程

    目录 一. ANR场景 二. appNotResponding处理流程 三. 总结 一. ANR场景 无论是四大组件或者进程等只要发生ANR,最终都会调用AMS.appNotResponding()方法,下面从这个方法说起. 以下场景都会触发调用AMS.appNotResponding方法: Service Timeout:比如前台服务在20s内未执行完成: BroadcastQueue Timeout:比如前台广播在10s内未执行完成 InputDispatching Timeout: 输入事

  • Android ANR分析trace文件的产生流程详情

    目录 前言 接着分析最后一步向收集到的进程发送信号 前言 首先收集需要dump trace的进程并给对应进程发送dump trace的信号 1.当一些带有超时机制的系统消息(如:Service的创建)判定超时后,会调用系统服务AMS接口,收集ANR相关信息并存档(data/anr/trace, data/system/dropbox) 2.进入到AMS中,AppError会先进行筛选(1.当前进程正在进行dump流程 2.已经发生crash 3. 已经被系统kill 4.系统是否正在关机等情况)

  • Android 中的类文件和类加载器详情

    目录 一.Java中的类加载器 二.Android中的类加载器 2.1 BootClassLoader 2.2 PathClassLoader 2.3 DexClassLoader 2.4 InMemoryDexClassLoader 三.Dex文件 3.1 Android内存中的Dex文件 3.2 Dex文件的生成 一.Java中的类加载器 首先花点时间回顾一下Java中的三种类加载器: BootStrap ClassLoader 启动类加载器,它是实现自C/C++的类加载器,用于加载JDK的

  • Android编程之SharedPreferences文件存储操作实例分析

    本文实例讲述了Android编程之SharedPreferences文件存储操作的方法.分享给大家供大家参考.具体分析如下: SharedPreferences类提供了一种简单的文件存储功能,像程序的配置文件可以通过它来实现. 源代码: package com.test.sharedpreferences; import android.app.Activity; import android.content.Context; import android.content.SharedPrefe

  • Android实现在xml文件中引用自定义View的方法分析

    本文实例讲述了Android实现在xml文件中引用自定义View的方法.分享给大家供大家参考,具体如下: 在xml中引用自定义view 方法一: <view class="com.test.copytext.CopyText" android:layout_width="fill_parent" android:layout_height="wrap_content" /> 方法二: <view class="com.

  • Android SD卡上文件操作及记录日志操作实例分析

    本文实例讲述了Android SD卡上文件操作及记录日志操作的方法.分享给大家供大家参考,具体如下: // SD卡是否存在 private boolean checkSDCardStatus() { boolean SDCardStatus = false; String sDStateString = android.os.Environment.getExternalStorageState(); if (sDStateString.equals(android.os.Environment

随机推荐