Chuyển tới nội dung chính

1. Phạm vi áp dụng (Scope)

Playbook này được kích hoạt khi hệ thống giám sát phát hiện dịch vụ payment-gateway trả về mã lỗi HTTP 5xx hàng loạt, hoặc khi tỉ lệ giao dịch thành công (transaction success rate) rơi xuống dưới ngưỡng 95% liên tục trong vòng 3 phút.

2. Vai trò & Trách nhiệm (Roles & Responsibilities)

  • Incident Commander (IC): Điều phối toàn bộ cuộc gọi xử lý sự cố và ra quyết định kỹ thuật cuối cùng.
  • Communications Lead (Comms Lead): Cập nhật trạng thái sự cố lên trang status page và gửi thông báo tới các đối tác liên quan.
  • On-Call Engineer (payments-sre): Trực tiếp kiểm tra logs, xác định nguyên nhân và thực thi các biện pháp khôi phục hạ tầng.

3. Quy trình phản hồi (Response Procedure)

  1. Verify & Detect: Kiểm tra biểu đồ Grafana và Datadog dashboards của dịch vụ payment-gateway để đánh giá quy mô lỗi.
  2. Verify DB Status: Xác thực kết nối tới cơ sở dữ liệu Postgres. Nếu phát hiện cạn kiệt connection pool, chuyển sang chạy quy trình Restart Payment Gateway Pods Example.
  3. External Provider Check: Kiểm tra latency từ đối tác thanh toán (Bank APIs). Nếu lỗi xuất phát từ đối tác, kích hoạt cơ chế Circuit Breaker để cô lập luồng thanh toán lỗi và chuyển đổi nhà cung cấp dự phòng.
  4. Verification: Theo dõi sự phục hồi của luồng checkout trong vòng 5 phút sau khi áp dụng giải pháp.

4. Tiêu chí leo thang (Escalation Criteria)

  • Thời gian: Nếu sự cố kéo dài quá 30 phút mà chưa xác định được giải pháp khắc phục.
  • Mức độ tác động: Khi ước tính thiệt hại doanh thu vượt quá $100K hoặc ảnh hưởng đến hơn 10,000 người dùng hoạt động đồng thời.
  • Hành động: IC lập tức kích hoạt chuỗi leo thang khẩn cấp tới VP of Engineering theo Escalation Policy.

5. Tài liệu tham chiếu liên quan (Related References)

X

Graph View