Anduin Xue
Anduin Xue

Anduin's Tech Blog

All Posts in 2023.9


Aiursoft 事故调查、分析与总结

本篇博客详细记录了对Aiursoft发生的一次事故的调查、分析和总结过程。在NFS服务器的两块NVME固态都在线,机械硬盘也在线的情况下,发现了两次运行`zfs list -t snapshot`的结果不一致的问题,这引发了作者对数据安全的担忧。通过一系列的探究和实验,作者发现了两个zfs dataset的MOUNTPOINT竟然是同一个目录,这是ZFS不允许的。尽管遇到了无法卸载`/mnt/nvme`的问题,但作者通过重启NFS服务,成功地将两个dataset的MOUNTPOINT改为不同的目录,解决了NFS服务器的问题。 然而,这只是问题的一部分。作者还发现在事故发生时,由于数据中心的HA系统认为系统已经损坏,不停尝试将VM迁移,甚至对ESXI进行了关机,这导致了恢复数据中心时遇到了非常多的问题。经过大约3个小时的修复工作,数据中心最终恢复了正常。 而对于出现这一系列问题的原因,作者通过仔细阅读备份脚本和在试验室运行上述脚本得到了答案。这次事故的调查、分析和总结,不仅解决了问题,也为我们提供了一次深入理解和应对系统故障的机会。那么,你是否已经理解并掌握了这次事故的处理过程和原因呢?--GPT 4