一、标准的CaseStudy

1.为什么要写CaseStudy?

2.写CaseStudy的方法是什么?

二、非标准的事实

1.追查问题的一般思路

2.实际情况:

三、部分CaseStudy实例

1.CaseStudy-20151221-整理名单库代码导致规则平台的名单库功能部分失效   (链接:http://wiki.sankuai.com/x/c44dFw)

    由于顺手将expireTime的的类型由Integer改为Long导致的问题。最终导致白名单读取失败,拦截正常用户3434个;黑名单读取失败放过作弊用户。

2.CaseStudy-20141209-上线导致tatooine廊坊机器停止服务40分钟 (链接:http://wiki.sankuai.com/x/rAcWBw

    由于流量组更换了数据源,在信息不对称的情况下仅仅更改了几个文字,重新上线后导致tatooine廊坊机器停止服务40分钟。

3.CaseStudy-20150717,20150718-高峰时期风控服务性能异常问题调查(链接:http://wiki.sankuai.com/x/oKM7Dw)

    无法复现。线上流量过大,服务性能特别差。平时10ms左右,故障时间达到100ms~300ms,增加超时时间。导致队列堆积,导致报警。

    追查问题:1.监控没有做到位,业务方反馈得到的消息。2.最后没有查处问题具体原因,但是上线了定时压测系统,把系统的服务做高了。

四.结尾总结

1.相关建议

2.减少事故损失的一些办法

3.讲师的体会