Chuyển tới nội dung chính

NOC Shift Handover

Outgoing Engineer: [Tên kỹ sư bàn giao] Incoming Engineer: [Tên kỹ sư tiếp nhận] Shift Period: YYYY-MM-DD HH:MM UTC → YYYY-MM-DD HH:MM UTC Region / Environment phụ trách: [Production / DR / Region]


1. Tổng Quan Ca Trực (Shift Summary)

Chỉ SốGiá TrịGhi Chú
Tổng alerts nhậnN
Incidents mở (đang xử lý)N
Incidents đã resolve trong caN
Maintenance windows đã thực hiệnN
Change requests đã áp dụngN
Escalations thực hiệnN
SLA breach trong caNGhi rõ nếu có

Đánh giá tổng thể ca trực (Overall Shift Assessment):

  • GREEN — Hệ thống vận hành bình thường, không có issue nghiêm trọng.
  • YELLOW — Có vấn đề đang theo dõi, chưa ảnh hưởng SLA.
  • RED — Đang có incident chưa resolve hoặc đã vi phạm SLA.

2. Tổng Quan Hạ Tầng & Dịch Vụ (Infrastructure & Service Health)

2.1 Trạng Thái Các Dịch Vụ Core

Service / ComponentStatusUptime (ca)Ghi Chú
[Tên dịch vụ 1][UP / DEGRADED / DOWN]XX.XX%
[Tên dịch vụ 2][UP / DEGRADED / DOWN]XX.XX%
Load Balancer / CDN[UP / DEGRADED / DOWN]XX.XX%
Database Cluster[UP / DEGRADED / DOWN]XX.XX%
Message Queue / Kafka[UP / DEGRADED / DOWN]XX.XX%

2.2 Tổng Quan Network Health

Chỉ Số MạngGiá Trị Hiện TạiNgưỡng Cảnh BáoTrạng Thái
Bandwidth sử dụng (Core link)X Gbps / XX%>80%[OK / WARN]
Packet loss trung bìnhX%>0.1%[OK / WARN]
BGP session statusX/X Active<X sessions[OK / WARN]
DNS resolution time (avg)X ms>100ms[OK / WARN]
WAN latency (core routes)X ms>50ms[OK / WARN]

2.3 Trạng Thái Capacity

ResourceMức Sử Dụng Hiện TạiNgưỡng Cảnh BáoXu Hướng
CPU Cluster (avg)XX%>85%[↑ Tăng / → Ổn định / ↓ Giảm]
Memory Cluster (avg)XX%>90%
Disk I/OXX%>80%
Connection Pool (DB)XX%>80%
Pod count (K8s)XXX/XXX

3. Active Incidents (Sự Cố Đang Mở)

Liệt kê tất cả incident chưa được resolve, theo thứ tự severity giảm dần.

3.1 Incident #[ID] — [Tên ngắn gọn]

  • Ticket ID: [JIRA-XXXX hoặc PagerDuty ID]
  • Severity: [SEV1 / SEV2 / SEV3 / SEV4]
  • Service bị ảnh hưởng: [/services/tên-service.md]
  • Thời điểm phát hiện: YYYY-MM-DD HH:MM UTC
  • Root cause (sơ bộ): [Mô tả nguyên nhân đã xác định hoặc suspected]
  • Tác động người dùng (User impact): [Số user bị ảnh hưởng / % traffic bị lỗi]
  • Hành động đã thực hiện:
    1. [Bước đã làm]
    2. [Bước đã làm]
  • Trạng thái hiện tại: [Investigating / Mitigated (chưa resolve) / Monitoring recovery]
  • Next steps cho incoming engineer:
    1. [Action cụ thể]
    2. [Action cụ thể]
  • Runbook đang dùng: [/irp/runbooks/tên-runbook.md]
  • Escalation status: [Not escalated / Escalated to: Tên/Team lúc HH:MM UTC]

4. Alerts Đã Xử Lý Trong Ca (Closed Alerts Log)

Alert / TicketServiceThời điểmNguyên nhânHành độngKết quả
[PD-XXXX][service-name]HH:MM[Root cause][Mô tả action]Resolved
[PD-XXXX][service-name]HH:MM[Root cause][Mô tả action]Resolved

5. Maintenance Windows & Scheduled Changes

5.1 Maintenance đã hoàn thành trong ca

TaskServiceBắt đầuKết thúcKết quảTicket
[Mô tả task][service]HH:MMHH:MM[Success / Partial / Rolled Back][Link]

5.2 Maintenance Windows đang chạy hoặc sắp tới

TaskServiceScheduled TimeNgười thực hiệnCR Number
[Mô tả task][service]YYYY-MM-DD HH:MM UTC[Tên kỹ sư][CR-XXXX]

⚠️ Incoming engineer cần chú ý: Nếu có maintenance window trong vòng 2 giờ tới, review Change Request và xác nhận rollback plan đã sẵn sàng.


6. Thay Đổi Cấu Hình Đã Áp Dụng (Config Changes Applied)

Ghi nhận tất cả thay đổi infrastructure và network configuration trong ca.

Thay đổiService / ComponentLý doTicketCó thể rollback
[Mô tả thay đổi][component][Lý do][CR-XXXX][Yes / No]

7. Các Task Định Kỳ Đã Hoàn Thành (Recurring Operational Tasks)

  • Backup verification (daily): [Passed / Failed] — Chi tiết: ___
  • Certificate expiry check: Cert sắp hết hạn gần nhất: [Tên cert — Hạn ngày]
  • DR sync check: Replication lag hiện tại [X seconds / minutes]
  • Log rotation / storage check: Disk còn lại [XX%] trên /var/log
  • On-call schedule confirmation: Ca tiếp theo được assign cho [Tên]
  • [Task định kỳ khác]

8. Monitoring & Observability Status

Hệ Thống Giám SátTrạng TháiGhi Chú
Prometheus / Grafana[Operational / Degraded]
Log aggregation (ELK / Loki)[Operational / Degraded]
APM (Datadog / NewRelic)[Operational / Degraded]
PagerDuty[Operational / Degraded]
Status Page (external)[Up-to-date / Needs update]

Nếu có incident đang mở, kiểm tra status page đã được cập nhật đúng không trước khi bàn giao.


9. Liên Lạc Khẩn Cấp & Leo Thang (Emergency Contacts & Escalation)

Vai TròTênKênh Liên LạcGhi Chú
NOC Lead on-call[Tên]PagerDuty / Phone: +84...24/7
Infrastructure Team Lead[Tên]Slack: @username[Giờ làm việc]
Network Operations (ISP contact)[Tên ISP]NOC Phone: +...24/7
Cloud Provider TAM / Support[AWS/GCP/Azure]Case: [URL]24/7 (Enterprise support)
On-call DBA[Tên]PagerDutySEV1-2 only

Chính sách leo thang áp dụng: /irp/policies/escalation-policy.md


10. Ghi Chú Bổ Sung Cho Ca Tiếp Theo (Notes for Incoming Shift)


Handover hoàn tất lúc: YYYY-MM-DD HH:MM UTC Chữ ký xác nhận tiếp nhận (Incoming Engineer sign-off): __________________________

X

Graph View