1.
网络连通与路由检查(基础层)
1) 检查公网连通性:使用 ping 与 mtr 测试到目标 IP 的丢包率与延迟,目标丢包 <0.5% 为正常;
2) 验证带宽与抖动:iperf3 测试上下行,示例:1Gbps 线路目标测试值通常 >900Mbps;
3) MTU 与分片问题:若网站大量 413/packet 错误,检查 iperf -M 与 ifconfig/mtu,常见 MTU=1500/9k;
4) 路由与 BGP:确认是否走最近的 AS,异常跳点用 traceroute 或 BGP 查询;
5) 端口连通:使用 ss -tulpn 或 netstat 查看 80/443/22 等端口是否在监听并且防火墙放行;
6) 实际案例:某德国节点到中国访问高丢包,mtr 显示在中间 ISP 丢包 35%,与上游协商调整路由后丢包降至 0.8%。
2.
服务与进程健康检查(应用层)
1) CPU/内存/负载:top 或 htop 检查 1/5/15 分钟 load,vCPU=4 的 VPS load < 8 为可接受;
2) 磁盘与 inode:df -h 查看磁盘使用率,示例:100GB NVMe 使用率 < 80%;检查 df -i 避免 inode 用尽;
3) 日志与异常:tail -n 200 /var/log/syslog 与 /var/log/nginx/error.log,定位 OOM、segfault、FPM 崩溃;
4) 数据库连通:mysqladmin ping、show processlist;慢查询用 pt-query-digest 分析;
5) 连接数与超时:nginx keepalive、worker_connections,示例配置:worker_rlimit_nofile 200000, worker_connections 8192;
6) 实战举例:客户站点高并发时 MySQL 连接耗尽,经调整 max_connections=500、并启用连接池,错误 200->2/分钟。
3.
安全与DDoS防护检查
1) 防火墙策略:检查 iptables/nftables 规则与 ufw 状态,确保管理端口仅白名单访问;
2) 入侵防护:检查 fail2ban/sshguard 是否启用并有有效规则,阈值示例:ssh 5 次失败禁 1 小时;
3) DDoS 监测:通过 pps/mbps 报警,设置阈值(例如流量突增 > 500Mbps 或连接数 > 100k 报警);
4) 上游缓解:确认提供商是否支持自动清洗(cleaning),与 CDN/Anycast 联合缓解峰值;
5) SSL 与证书:检查 certbot renew 状态与证书链,示例证书剩余天数 < 7 天触发告警;
6) 真实案例:某德国VPS遭到 SYN Flood,网卡 pps>300k,通过上游启用 5Gbps 清洗,临时提升 accept_backlog 与 SYN cookies 后稳定。
4.
域名与CDN配置检查(DNS与加速)
1) DNS 生效:使用 dig +trace 验证 A/AAAA/CNAME 记录在全球解析一致性;
2) TTL 与切换:生产 TTL 建议 300s 测试期,切换记录时做好提前 TTL 降低;
3) CDN 缓存策略:确认 Cache-Control、Expires、Vary 配置,静态资源长缓存、动态页面短缓存;
4) SSL offload 与回源:确保 CDN 与回源之间使用 TLS,并验证回源证书与端口;
5) 域名续费与 WHOIS:检查域名到期时间并绑定自动续费,防止域名被误释放;
6) 案例:将静态图片上 CDN 后,德国节点平均 TTFB 从 220ms 降到 60ms,带宽节省约 65%。
5.
备份、快照与恢复演练(数据保障)
1) 备份频率:数据库建议每日一次全备 + 每小时增量;文件系统建议每日 rsync 到异地;
2) 快照策略:VPS 快照作为短时点恢复,示例:关键更新前做一次快照并保留 7 天;
3) 自动化与验证:定期做恢复演练,确认备份文件可读并能还原;
4) 备份保留策略:30/90/365 分层保留,示例:最近 30 天每日,31-90 天每周,>90 天每月;
5) 恢复时间目标(RTO)与恢复点目标(RPO):目标 RTO < 2 小时,RPO < 1 小时(视业务决定);
6) 示例 crontab:0 2 * * * /usr/bin/mysqldump ...,并将备份推送至异地对象存储。
6.
周期性运维检查表与示例配置(建议周期)
1) 日常(Daily):检查服务状态、告警队列、磁盘使用与证书到期;
2) 每周(Weekly):更新系统安全补丁、检查日志趋势与备份完整性;
3) 每月(Monthly):做一次完整恢复演练、磁盘健康 SMART 检查;
4) 每季(Quarterly):容量规划、负载测试、DDoS 演练与路由评估;
5) 每年(Yearly):审计安全策略、域名与证书审查、供应商 SLA 复核;
6) 下表为建议周期性检查项与命令示例:
| 周期 |
检查项 |
示例命令/说明 |
| 每日 |
服务/日志/证书 |
systemctl status nginx; tail -n 200 /var/log/nginx/error.log; certbot renew --dry-run |
| 每周 |
补丁/备份验证 |
apt update && apt upgrade -y; test-restore /backup/latest.sql |
| 每月 |
性能/SMART |
iostat -x 1 10; smartctl -a /dev/nvme0n1 |
| 每季 |
压力/安全演练 |
ab/wrk 压测; DDoS 演练 & 上游沟通 |
来源:德国VPS托管常见故障排查清单与运维周期性检查建议