炉石传说为什么维护30多小时,炉石传说1月17日维护原因,截止到1月18日,炉石传说已经维护了33个小时了,很多玩家在论坛和贴吧讨论网易为什么维护这么久,维护30多个小时有没有补充呢,下面带来炉石传说1月17日维护原因预测分析。
炉石传说1月17日维护原因预测分析
来自网友PQFitz爆料:本人13年的时候在网易天下3项目,去年9月跳到九城。
这次炉石超长事件维护,各种传言不断,我从前内部人士的角度给大家分析一下这次事件。
关于服务器
首先说说服务器。
你们以为数据都在服务器里? 服务器只有硬件而已,硬盘数据13年-16年都是用的DELL的磁盘阵列服务器,而且是双机热备+异地容灾,我这台数据丢了,我另一台会有克隆的相同的数据。就算广州整个机房炸了,我上海机房异地也会有一台克隆的数据。
所以数据丢了,数据丢了30%什么,大家就不要信了。
我在做天下3运维的时候也遇到过N种问题,不过都被总监、经理他们这些人带着解决了。
可以说,就算来个10岁的小朋友,会动电脑鼠标看得懂字,按照流程都不会出问题。 一个团队4个人,一个经理, 5个人同时犯错?怎么可能因为操作失误就丢30%数据?
另外关于过热导致的各种问题我觉得也不可能,肯定有备用的空调和供电,网易多少年都走下来了,总结了很多经验和规范,服务器这方面是没问题的。
至于啥原因维护这么久?原因千奇百怪,也可能是游戏本身问题,可能锅在暴雪身上? 我只能说数据不会丢。
任务也不用担心,几行代码就能解决的,只是日期问题而已。或者想简单点,有补偿,一定会有的。
这次事件猜测
拖这么久,我觉得昨天应该是暴雪给的补丁有问题,但是每次修改游戏都必须工信部、文化局、广电局三个部门来审核。
每次更新游戏一般是这样的流程:
暴雪软件部-暴雪技术支持部(测试部)-网易软件部-网易技术支持部(测试部)- ZF部门(审核)-技术支持部(运维部)-网易技术支持部(测试部)
估计是两边的测试部第一次都没发现问题,结果运维部按照流程更新之后,测试部又TM发现问题,要修改游戏,又要所有部门再走一次流程。
既然涉及到了PC端/IOS/ANDROID,根本不是一天就能解决的。
比如我这次定5个小时做运维,2个小时做测试。 我5个小时运维做完了,剩下的就是测试组干的事情了。 测试组花了1个小时发现问题,想恢复更新之前,只能再花5个小时恢复,今天就白忙活。 OK,就算我今天白忙了, 每周都有每周的目标,下周要补这周的目标,所花的时间可能就是4倍了。
有测试端,所以主要责任是测试部,第一次测试没有发现问题,次要的是软件部,主管或者总监审核代码的时候为什么没有发现问题? 也要问责。我感觉总监这个年不好过了,就算是主管的责任,总监也要被扣年总奖了,谁让这个主管是你面的? 就面这水平? 这工作态度?
大家耐心等吧。
配点服务器相关的图
查看原图|大图模式
半个月工资配的服务器,准备玩单机游戏。
一些猜测的答疑
还有人说是有人把代码偷走了。
每个员工入职之前都要签保密协议,竞业协议
而且每个部门的团队,负责的都是不同的项目,能接触的只是一小块代码,修改完代码上传到SVN里。 能接触整个完整SVN的,只有总监
总监每个月工资不少于15W把? 还有年总奖。 至于偷个代码? 蹲几年牢,以后还有公司要? 而且偷了代码有什么用。。。。 开玩笑。。。
至于有朋友问我容灾是什么,不是冗余吗?
异地容灾,就是我这个机房真是起火了爆炸了,我异地机房能够运行起来。
冗余是指我服务器或者数据出了问题,我有bakup,可以随时顶上去。
好比美国容不下维基解密,迅速把机房全部占领了,想取回数据不可能,那怎么办,还好他们有容灾方案,地点在南极,请求俄罗斯帮助,俄罗斯就会帮他们保护数据。
至于有网友问那如果两台都炸了怎么办?
两台都炸了,这几率比你中彩票几率都低,应该不可能的。
另外有朋友问两地三中心,主机房将数据删除,其他中心也会瞬间删除的问题。
其实没有瞬间删除这一说,我之前可能没说详细,双机热备,同步时间5分钟(成本翻倍,之所以没有采用故障转移群集(成本低),是因为梦幻之前出过问题,导致只能回档,所以流程规定是双机热备) 异地容灾同步时间每天凌晨00:01 丢数据顶多回档一天给补偿。
另外日志精确到每一条语句,数据库Oracle 有商业解决方案。
至于有些帖子提出的BUG说。
程序员自己解决BUG? 不可能,每个程序员负责的都是一部分代码,他就算修改了,也不能编译出来,更别提他能接触到服务器了。
我之前是3-5个人一个小team,程序员应该是7-10人的样子,有了问题经理 主管都可以上报的。。。 服务器是深度定制的LINUX+密码狗。 修改了代码,SVN都有日志,要表明原因,不然代码也不会审核。
可能bug是有的,只是当时没有发现而已,他们主管就要倒霉了。
至于有朋友问为什么天下三12年后一天比一天坑爹?
虽然我是在天下3项目,不过我连这游戏都没下过,我只是运维。。。 管服务器的。
至于卡的问题,服务器问题是不可能的,只能说优化还是别的事情没有做好吧。机器假如内存坏了,我们不会追究是主板还是电源导致的,我们做的只有一件事,换新服务器,因为公司不差钱。
总结
总结一下吧,这次有说是误删的,有说是封脚本程序被恶意篡改的,有说是服务器物理损坏的,有说是意外bug走流程的……
我个人是觉得测试的锅。
以上就是炉石传说为什么维护30多小时,炉石传说1月17日维护原因预测分析,请大家继续关注。