利用现有平台设备进行灾难恢复规划
灾难恢复规划向来困难重重,需要考虑的因素和各种“假设情况”实在太多,而在恢复方案上投入过多本身就可能演变成一场不小的灾难。在灾难恢复规划中,有一个经常被忽视的因素:当灾难真正发生时,你通常能够并且非常愿意在必要之处做出妥协,因为灾难已经发生了。此时是分诊抢救的时刻,而不是照常运营的时候。
许多人会立刻设想,如果你的实时生产系统需要 X 的容量和性能,那么你的灾难恢复系统同样需要 X。然而在现实世界中,这种情况却很少成立。当灾难发生时,除极少数例外情况外,你完全可以接受较低的性能,将系统可用性限制在那些较为关键的系统上,而许多维护操作(通常包括归档系统)则会被暂停,直到完整的生产环境恢复为止。这意味着你的灾难恢复系统往往可以比主生产系统小得多。
灾难恢复系统并不是对生产力的投资,而是抵御故障的一种对冲,必须从这个角度来看待它们。正因如此,一种常见而有效的策略是,在考虑灾难恢复系统需求时,更多地从“足够”维持业务活动的角度出发,而不必非要让其运行得舒适或对用户透明无感。如果一场全面的灾难来袭,员工不得不忍受迟缓的文件检索、比平常更慢的数据库,或者推迟一项深度的商业智能分析任务直到高性能生产系统恢复,几乎没有人会抱怨。大多数员工,尤其是更多的业务决策者,都能够非常理解系统处于故障状态,并且他们可能需要尽其所能地维持运转,直到完整容量得以恢复。
本着这一思路,当你为主要生产用途采购并部署新平台时,将较旧的平台重新用于灾难恢复站点便可以成为一种有效的策略。这样可以打造一条成本低廉、易于规划的“灾难恢复流水线”,使灾难恢复站点始终拥有你“上一次更新换代”的容量——在大多数灾难恢复场景中,这已经绰绰有余。这是一种充分利用设备的绝佳方式,否则这些设备要么会被直接报废,要么会因为引发“沉没成本”的情感反应而诱使我们将其重新投入生产部署——而总体而言,这正是我们想要避免的。
沉没成本谬误是一个很难避免的陷阱。已经拥有某项设备,会让人很容易产生这样的感觉:即便正在实施一套全新设计的系统,在系统设计和规范之外再次部署这些设备也是有用或有益的。在某些情况下这或许成立,但更有可能并非如此。不过,正如我们不希望仅仅因为已经为设备付过钱就对其产生过度的情感依恋一样,我们也不希望忽视已经拥有的现有设备所蕴含的价值。这正是一条规划周密、通向灾难规划场景的流水线,能够在许多情况下以一种非常出色的方式发挥我们已有投资价值之处。我们必须记住,只要懂得如何正确地使用它来满足现有需求,这很可能是一批非常有用、仍然蕴含大量价值的设备。
一套从生产到灾难恢复的平台迁移规划流程,可以成为在获得出色灾难恢复效果的同时降低预算支出的绝佳途径。