dump较大,有20M... 就不传了
0:000> kbn # ChildEBP RetAddr Args to Child 00 0025efa0 77266a24 77252278 00005654 00000000 ntdll!KiFastSystemCallRet01 0025efa4 77252278 00005654 00000000 00000000 ntdll!ZwWaitForSingleObject+0xc02 0025f008 7725215c 00000000 00000000 07f60000 ntdll!RtlpWaitOnCriticalSection+0x13e03 0025f030 7724fc76 07f60138 690e2064 00000000 ntdll!RtlEnterCriticalSection+0x15004 0025f10c 77275a70 00000214 00000220 07f603a4 ntdll!RtlpAllocateHeap+0x15905 0025f190 5e5ed198 07f60000 00000008 00000214 ntdll!RtlAllocateHeap+0x23a06 0025f1d0 5e5e75e2 00000214 00000214 00000000 NetAdmin!_calloc_impl+0xc4 [f:\dd\vctools\crt_bld\self_x86\crt\src\calloc_impl.c @ 94]07 0025f1ec 5e5dd771 00000001 00000214 0000000f NetAdmin!_calloc_crt+0x16 [f:\dd\vctools\crt_bld\self_x86\crt\src\crtheap.c @ 61]08 0025f20c 5e5a6579 00000000 00000000 5e5c2940 NetAdmin!_beginthreadex+0x42 [f:\dd\vctools\crt_bld\self_x86\crt\src\threadex.c @ 170]...
2d 0025fc10 7728377b 7ffdf000 690e2d38 00000000 kernel32!BaseThreadInitThunk+0xe2e 0025fc50 7728374e 0115eeda 7ffdf000 00000000 ntdll!__RtlUserThreadStart+0x702f 0025fc68 00000000 0115eeda 7ffdf000 00000000 ntdll!_RtlUserThreadStart+0x1b
0:000> !cs 07f60138 -----------------------------------------Critical section = 0x07f60138 (+0x7F60138)DebugInfo = 0x00395ac0LOCKEDLockCount = 0x4WaiterWoken = NoOwningThread = 0x00001db4RecursionCount = 0x1LockSemaphore = 0x5654SpinCount = 0x00000fa0
0:000> ~~[0x00001db4] ^ Illegal thread error in '~~[0x00001db4]'
分析看貌似在等一个Critical section ,而占有这个Critical section 的线程已经没了...
7f60000应该是堆句柄(亦是堆头结构的地址),07f60138是保护这个堆的关键区,其结构体也分配在堆的管理区中。
通常,在HEAP结构的偏移CC处的LockVariable指针指向这个关键区架构
0:000> dt _HEAP -y Lockntdll!_HEAP +0x0cc LockVariable : Ptr32 _HEAP_LOCK
0:000> dd esi+cc007400cc 00740138
现在看来,前一个线程在操作堆时出了意外,它能拿着关键区而死掉,说明触发异常的代码是在关键区保护的范围内。这个范围内的代码应该都是系统的代码。这通常意味着堆上的数据混乱了,堆管理器操作堆时促发异常了。
这样的问题一般要想办法重现,重现前启用堆的验证功能,抓住破坏堆的代码(二次释放,溢出等)。
学习了,谢谢张老师,这是个异常,很难很难重现,只能开启堆验证,再检查检查代码
貌似找着原因了,有个线程里会对堆进行操作,但是主线程对这个线程调用SuspendThread 和 TerminateThread, windows核心编程里说:挂起线程时,如果线程正在分配堆中的内存,线程将锁定堆。
初步预测是:挂起线程以后,堆被锁定了,然后主线程调用完挂起后,又直接调用终止线程了。堆的锁定就得不到释放了,再创建线程时,就出错了。这样貌似可以和dump分析结果一致。
只是猜测,由于是异常,还得继续跟踪。