NOC Shift Handover

Outgoing Engineer: [Tên kỹ sư bàn giao] Incoming Engineer: [Tên kỹ sư tiếp nhận] Shift Period: YYYY-MM-DD HH:MM UTC → YYYY-MM-DD HH:MM UTC Region / Environment phụ trách: [Production / DR / Region]

1. Tổng Quan Ca Trực (Shift Summary)

Chỉ Số	Giá Trị	Ghi Chú
Tổng alerts nhận	`N`
Incidents mở (đang xử lý)	`N`
Incidents đã resolve trong ca	`N`
Maintenance windows đã thực hiện	`N`
Change requests đã áp dụng	`N`
Escalations thực hiện	`N`
SLA breach trong ca	`N`	Ghi rõ nếu có

Đánh giá tổng thể ca trực (Overall Shift Assessment):

GREEN — Hệ thống vận hành bình thường, không có issue nghiêm trọng.
YELLOW — Có vấn đề đang theo dõi, chưa ảnh hưởng SLA.
RED — Đang có incident chưa resolve hoặc đã vi phạm SLA.

2. Tổng Quan Hạ Tầng & Dịch Vụ (Infrastructure & Service Health)

2.1 Trạng Thái Các Dịch Vụ Core

Service / Component	Status	Uptime (ca)
[Tên dịch vụ 1]	`[UP / DEGRADED / DOWN]`	`XX.XX%`
[Tên dịch vụ 2]	`[UP / DEGRADED / DOWN]`	`XX.XX%`
Load Balancer / CDN	`[UP / DEGRADED / DOWN]`	`XX.XX%`
Database Cluster	`[UP / DEGRADED / DOWN]`	`XX.XX%`
Message Queue / Kafka	`[UP / DEGRADED / DOWN]`	`XX.XX%`

2.2 Tổng Quan Network Health

Chỉ Số Mạng	Giá Trị Hiện Tại	Ngưỡng Cảnh Báo	Trạng Thái
Bandwidth sử dụng (Core link)	`X Gbps / XX%`	`>80%`	`[OK / WARN]`
Packet loss trung bình	`X%`	`>0.1%`	`[OK / WARN]`
BGP session status	`X/X Active`	`<X sessions`	`[OK / WARN]`
DNS resolution time (avg)	`X ms`	`>100ms`	`[OK / WARN]`
WAN latency (core routes)	`X ms`	`>50ms`	`[OK / WARN]`

2.3 Trạng Thái Capacity

Resource	Mức Sử Dụng Hiện Tại	Ngưỡng Cảnh Báo	Xu Hướng
CPU Cluster (avg)	`XX%`	`>85%`	`[↑ Tăng / → Ổn định / ↓ Giảm]`
Memory Cluster (avg)	`XX%`	`>90%`
Disk I/O	`XX%`	`>80%`
Connection Pool (DB)	`XX%`	`>80%`
Pod count (K8s)	`XXX/XXX`

3. Active Incidents (Sự Cố Đang Mở)

Liệt kê tất cả incident chưa được resolve, theo thứ tự severity giảm dần.

3.1 Incident #[ID] — [Tên ngắn gọn]

Ticket ID: [JIRA-XXXX hoặc PagerDuty ID]
Severity: [SEV1 / SEV2 / SEV3 / SEV4]
Service bị ảnh hưởng: [/services/tên-service.md]
Thời điểm phát hiện: YYYY-MM-DD HH:MM UTC
Root cause (sơ bộ): [Mô tả nguyên nhân đã xác định hoặc suspected]
Tác động người dùng (User impact): [Số user bị ảnh hưởng / % traffic bị lỗi]
Hành động đã thực hiện:
1. [Bước đã làm]
2. [Bước đã làm]
Trạng thái hiện tại: [Investigating / Mitigated (chưa resolve) / Monitoring recovery]
Next steps cho incoming engineer:
1. [Action cụ thể]
2. [Action cụ thể]
Runbook đang dùng: [/irp/runbooks/tên-runbook.md]
Escalation status: [Not escalated / Escalated to: Tên/Team lúc HH:MM UTC]

4. Alerts Đã Xử Lý Trong Ca (Closed Alerts Log)

Alert / Ticket	Service	Thời điểm	Nguyên nhân	Hành động	Kết quả
[PD-XXXX]	[service-name]	HH:MM	[Root cause]	[Mô tả action]	`Resolved`
[PD-XXXX]	[service-name]	HH:MM	[Root cause]	[Mô tả action]	`Resolved`

5. Maintenance Windows & Scheduled Changes

5.1 Maintenance đã hoàn thành trong ca

Task	Service	Bắt đầu	Kết thúc	Kết quả	Ticket
[Mô tả task]	[service]	HH:MM	HH:MM	`[Success / Partial / Rolled Back]`	[Link]

5.2 Maintenance Windows đang chạy hoặc sắp tới

Task	Service	Scheduled Time	Người thực hiện	CR Number
[Mô tả task]	[service]	YYYY-MM-DD HH:MM UTC	[Tên kỹ sư]	[CR-XXXX]

⚠️ Incoming engineer cần chú ý: Nếu có maintenance window trong vòng 2 giờ tới, review Change Request và xác nhận rollback plan đã sẵn sàng.

6. Thay Đổi Cấu Hình Đã Áp Dụng (Config Changes Applied)

Ghi nhận tất cả thay đổi infrastructure và network configuration trong ca.

Thay đổi	Service / Component	Lý do	Ticket	Có thể rollback
[Mô tả thay đổi]	[component]	[Lý do]	[CR-XXXX]	`[Yes / No]`

7. Các Task Định Kỳ Đã Hoàn Thành (Recurring Operational Tasks)

Backup verification (daily): [Passed / Failed] — Chi tiết: ___
Certificate expiry check: Cert sắp hết hạn gần nhất: [Tên cert — Hạn ngày]
DR sync check: Replication lag hiện tại [X seconds / minutes]
Log rotation / storage check: Disk còn lại [XX%] trên /var/log
On-call schedule confirmation: Ca tiếp theo được assign cho [Tên]
[Task định kỳ khác]

8. Monitoring & Observability Status

Hệ Thống Giám Sát	Trạng Thái	Ghi Chú
Prometheus / Grafana	`[Operational / Degraded]`
Log aggregation (ELK / Loki)	`[Operational / Degraded]`
APM (Datadog / NewRelic)	`[Operational / Degraded]`
PagerDuty	`[Operational / Degraded]`
Status Page (external)	`[Up-to-date / Needs update]`

Nếu có incident đang mở, kiểm tra status page đã được cập nhật đúng không trước khi bàn giao.

9. Liên Lạc Khẩn Cấp & Leo Thang (Emergency Contacts & Escalation)

Vai Trò	Tên	Kênh Liên Lạc	Ghi Chú
NOC Lead on-call	[Tên]	PagerDuty / Phone: `+84...`	24/7
Infrastructure Team Lead	[Tên]	Slack: `@username`	[Giờ làm việc]
Network Operations (ISP contact)	[Tên ISP]	NOC Phone: `+...`	24/7
Cloud Provider TAM / Support	[AWS/GCP/Azure]	Case: [URL]	24/7 (Enterprise support)
On-call DBA	[Tên]	PagerDuty	SEV1-2 only

Chính sách leo thang áp dụng: /irp/policies/escalation-policy.md

10. Ghi Chú Bổ Sung Cho Ca Tiếp Theo (Notes for Incoming Shift)

Handover hoàn tất lúc: YYYY-MM-DD HH:MM UTC Chữ ký xác nhận tiếp nhận (Incoming Engineer sign-off): __________________________

1. Tổng Quan Ca Trực (Shift Summary)​

2. Tổng Quan Hạ Tầng & Dịch Vụ (Infrastructure & Service Health)​

2.1 Trạng Thái Các Dịch Vụ Core​

2.2 Tổng Quan Network Health​

2.3 Trạng Thái Capacity​

3. Active Incidents (Sự Cố Đang Mở)​

3.1 Incident #[ID] — [Tên ngắn gọn]​

4. Alerts Đã Xử Lý Trong Ca (Closed Alerts Log)​

5. Maintenance Windows & Scheduled Changes​

5.1 Maintenance đã hoàn thành trong ca​

5.2 Maintenance Windows đang chạy hoặc sắp tới​

6. Thay Đổi Cấu Hình Đã Áp Dụng (Config Changes Applied)​

7. Các Task Định Kỳ Đã Hoàn Thành (Recurring Operational Tasks)​

8. Monitoring & Observability Status​

9. Liên Lạc Khẩn Cấp & Leo Thang (Emergency Contacts & Escalation)​

10. Ghi Chú Bổ Sung Cho Ca Tiếp Theo (Notes for Incoming Shift)​

Graph View