1. Phạm vi áp dụng (Scope)
Chính sách này áp dụng đối với toàn bộ các sự cố phát sinh trên môi trường Production của tất cả dịch vụ thuộc phạm vi quản lý của công ty.
2. Quy tắc thực thi (Enforcement Rules)
Các mức độ sự cố được phân định như sau:
- SEV1 (Critical): Hệ thống chính ngừng hoạt động hoàn toàn. Yêu cầu phản hồi (response time) từ on-call trong vòng 5 phút.
- SEV2 (High): Suy giảm hiệu năng nghiêm trọng ảnh hưởng đến luồng giao dịch core. Yêu cầu phản hồi trong 15 phút.
- SEV3 (Medium): Lỗi ảnh hưởng bộ phận người dùng nhỏ hoặc có phương án rollback/bypass sẵn. Yêu cầu phản hồi trong 60 phút.
- SEV4 (Low): Lỗi giao diện hoặc các vấn đề vận hành không cản trở nghiệp vụ chính. Yêu cầu phản hồi trong 24 giờ.
3. Ngưỡng cảnh báo (Alert Thresholds)
- SEV1: Nếu sau 15 phút từ lúc phát hiện cảnh báo mà chưa có SRE vào tiếp nhận xử lý, hệ thống PagerDuty sẽ tự động kích hoạt cuộc gọi tới Engineering Manager.
- SEV2: Ngưỡng leo thang tự động là 30 phút.
4. Chuỗi leo thang (Escalation Chain)
Quy trình leo thang nhân sự thực hiện theo thứ tự:
- On-call Engineer (SRE/Developer)
- Team Lead
- Engineering Manager (EM)
- VP of Engineering
- CTO (Chief Technology Officer)
5. Kênh thông báo (Communication Channels)
- Primary System: PagerDuty (alert phone calls & SMS).
- Chat Ops: Slack channels
#incident-sev1-sev2và#payments-ops. - Reports: Email thông báo định kỳ tự động tới nhóm
sre-leads@company.com.