起因

公司无法连接远程的测试服务器,由于怀疑是之前的软路由出了问题从而引发的一系列不过脑子的折腾……

实际的处理流程

  1. 由于软路由是公司最新添加的网络设备,这个问题之前从未出现过,故将软路由接出(造成第一次断网)
  2. 在将软路由接出公司网络以后,似乎就没有了问题,然而下午问题在没有软路由设备的情况下再次出现
  3. 发现公司备用网络能够访问远程的测试机
  4. 通过将公司交换机 wan 切换至备用网络路由器下(由于切换了路由器,导致大家内网IP变更,公司第二次断网),问题临时解决
  5. 怀疑是电信的宽带问题,故直接交换两个光猫所对应的路由器,造成第三次断网,但问题仍然未解决
  6. 进入光猫、路由器查看,并没有发现异常的配置
  7. 为了让需要使用测试机的人能够连接上测试机,去购买无线网卡
  8. 服务器重启,问题解决,取消无线网卡订单

问题分析

经过整个事件会发现其实问题并不出在公司的网络上(当然往公司网络上去怀疑是没有问题的),但是在问题的处理上处理得过于简单粗暴,导致公司连续断网,将只影响个别人的小问题变成了一个影响全公司的大问题,随着问题规模的提升,解决问题时的压力也会变大,导致处理问题效率下降(脑子变得不好使了)
若要不是曾老师及时阻止,或许还要再断几次网……

来把思路重新理一遍:

  1. 将软路由接出是可以接受的,这个处理方式我认为问题不大,而且由于没有动到dhcp,所以即使断网,恢复速度也比较快
  2. 其实在问题排查过程中也有 ping 过测试服,而且能够 ping 通,既然能够ping通说明硬件设备是没有问题的,后面无法使用是 http 应用层的问题,应该想到是服务器可能出了问题
  3. 怀疑宽带出错的时候不要去动路由器和交换机,而应该直接切换光猫,这样造成的损失是最小的(没有动dhcp,所以断网恢复速度比较快)

教训

  1. 保守治疗:一定要控制问题规模,如果处理方案会导致问题规模扩大那就不要这样处理,看看有什么备选方案
  2. 自信点:在检查过路由器配置确认无误,结合服务器能够ping通但无法访问的情况,应该大胆提出服务器可能有问题的猜想
  3. 大概是把这份工作看得很重要,所以在处理问题的时候生怕出错,也害怕各种突发情况,这些会导致在处理问题时过于紧张,越是害怕的东西就越是会出现,冷静下来仔细分析比什么都管用
  4. 对网络维护的熟练程度还不够自信,需要对这方面加强学习

最后,职场不相信眼泪,请在后续的工作中证明自己

Q.E.D.


此 生 无 悔 恋 真 白 ,来 世 愿 入 樱 花 庄 。