7*24h服务热线:400-854-5566
会员注册 会员登录 预约参观机房预约参观机房
Jun
02

托管数据中心的停机响应和支持

正文 / 来源:润迅数据

关于数据中心的托管提供商,主要提供数据中心的空间、电源、冷却和物理安全,但托管服务在数据中心停机期间也面临着响应缓慢的潜在缺点。托管服务的组织必须仔细规划重要数据的存储位置,并遵循服务水平协议,以最大限度地减少托管数据中心服务中断的影响。所以在设备上架后,数据中心的运维是至关重要的。

当然,组织可以部署自己的数据中心,拥有、建设和维护基础设施和设备,雇佣员工,实施政策和操作应用程序,并设置任何中断所需的优先级。当出现问题时,组织领导知道谁要处理,员工可以专注于组织的利益。

作为托管服务提供商客户的组织,这些控制权交给托管服务提供商,负责排除故障,与客户保持联系。但托管服务提供商通常是为自身商业利益经营的企业,有时不能满足托管客户的需求。

导致托管数据中心停机的原因是什么
托管服务提供商以远程管理的数据中心为核心,通常可以追溯到许多可能影响内部部署数据中心面临的同样问题。停机的原因一般分为四类:电源、人员、灾难和连接。
(1)电源。
在备用电源系统等数据中心,托管服务提供商通常会实现更大的弹性。其备用电源包括为服务器和机架设备供电的不间断电源(UPS),工业级备用发电机可在市电中断时为数据中心设施供电。但是,UPS故障、发电机启动或维护不足以及备用电源系统的其他问题可能导致托管客户的业务中断。
(2)人员。
人为错误是数据中心关闭的主要原因。例如,配置错误的路由器、服务器、身份验证系统和其他硬件和软件基础设施错误可能会导致客户无法访问系统。内部和外部攻击或其他恶意活动(如拒绝服务攻击)也会干扰或破坏客户托管的工作负荷。
(3)灾难。
客户希望托管数据中心设施具有更强的弹性和更高的可靠性,因此他们通常希望远离自然灾害(飓风、洪水、地震等)和人为灾害(火灾、车祸和战争)。虽然谨慎的托管措施应该降低风险,但不可能完全避免和消除,不可预见的灾难会使托管数据中心设施瘫痪或损坏。
(4)连接。
托管服务本质上是远程实施的,WAN或者互联网连接对托管服务提供商至关重要。大多数托管服务提供商允许客户使用一个或多个可用电信提供商的服务。电信基础设施不完善,也不是100%可靠,这可能会导致使用某些电信服务的客户连接中断。在这种情况下,电信提供商(而不是托管服务提供商)必须恢复服务,但对这些托管客户的影响可能与火灾或洪水一样严重。

消除内外部地方的故障。作为托管数据中心客户的组织,解决托管数据中心的故障尤为具有挑战性,因为解决问题的过程首先取决于识别/确定问题,然后确定托管数据中心提供商(或客户)是否对故障和纠正措施负责。

传统的托管数据中心。例如,假设客户的工作负荷在传统的托管数据心设施中运行,托管服务提供商只提供空间、电源、制冷等服务。如果数据中心设施出现故障(如电源故障),客户将依赖托管提供商提供的电力服务,托管服务提供商将根据当前的服务水平达成协议(SLA)该条款负责查找和纠正电源问题。而根据问题的严重程度,修复过程可能需要数小时甚至数天的时间。

但客户仍将负责部署托管服务提供商的所有服务器、存储、网络等业务设备。可能导致服务器、存储子系统、网络交换机故障,甚至应用程序故障(软件错误)。客户将使用系统管理工具来监控和报告硬件和软件的状态,他们有责任通过重新启动服务器、更换服务器或使用其他潜在的维修方法来发现和解决问题。

如果客户真的负责维修,他们将面临完成工作的挑战。维修和排除故障应用程序可能需要实际操作,这可能需要几个小时来部署人员和执行维修所涉及的实际工作。在某些情况下,托管服务提供商的员工将提供帮助,但客户需要额外付费。

托管或托管主机在托管数据中心或托管方案中,托管服务提供商将提供数据中心空间、服务器、存储设备、网络等基础设施,客户可以从托管服务提供商那里租用。然而,托管服务提供商对整个基础设施负全部责任,客户不需要联系或关注托管服务提供商的基础设施。如果托管数据中心设施或计算资源出现故障,托管服务提供商必须按照服务等级协议处理并发出停机通知(SLA)故障排除行排除和补救。在这种情况下,客户通常会通过已建立的支持渠道(如电子邮件、电话或门户网站)通知托管服务提供商故障。

如果问题实际上是客户的应用程序,而不是托管服务提供商的基础设施(即托管数据中心设施正常运行,但客户的应用程序崩溃或其他异常),那么托管服务提供商就没有义务确定客户的应用程序是否正常工作。客户必须有适当的监控来跟踪应用程序的运行状态或了解应用程序的性能。当应用程序出现问题时,客户IT团队可选择远程操作重新启动应用程序,或要求托管服务提供商采取纠正措施。

托管数据中心支持的类
当出现问题时,组织必须找到快速、经济、高效的方法来解决问题,同时保持行业标准或法规要求的数据完整性和工作负荷安全。客户可以使用四种类型的支持:
  (1) 员工。当客户在托管设施中部署自己的设备时,他可能会雇佣自己IT员工管理和维护,而不是托管服务提供商。这有助于确保IT任务的执行符合客户的最佳利益,但其员工在远程托管数据中心工作可能需要时间和成本。
  (2) 远程控制。客户可聘请托管服务提供商的员工协助开展各种工作IT任务。这些任务可能包括物理设备故障排除、更换和配置。通常根据紧急情况或请求进行远程操作,费用将添加到客户的月度账单中。
  (3) 远程管理。现代IT系统管理工具擅长通过网络访问硬件设备来执行常见的管理任务。这些工具通常可以重新启动服务器,重新启动应用程序,迁移虚拟机,备份和恢复数据。远程管理在管理日常任务时非常有效,客户无需派遣员工在托管数据中心工作。
  (4) 托管服务。托管服务提供商通常提供客户可以参与的一系列服务,如托管电子邮件。一些服务费可能会增加到每月的托管费中,而一些服务(如备份)可能会带来额外的费用。然而,托管服务提供商通常可以参与增加新服务、改变现有服务或减少或取消不必要的服务。

减少数据中心托管设置中的不确定
托管服务提供商可能会给客户带来更多的不确定性和复杂性。在偏远地区运行的托管数据中心设施可能受到地缘政治不确定性和安全性的影响。托管服务提供商管理成本的愿望可能会减少支持者的数量,从而降低其响应能力。托管服务提供商的合并和请求可能会影响其日常运营。

客户可以通过谨慎的应急计划和大量的监控措施来缓解这些托管问题。常见步骤包括:
(1)工作负荷的适用性。
托管数据中心必须评估每个应用程序的适用性。并非所有的应用程序都适合托管,因为法规遵从性、安全性、性能或其他问题。有些工作负载应该保留在内部部署数据中心。
(2)遣返。
如果托管服务失败或证明托管不适合应用程序,则应采取遣返措施将每个工作负荷迁移到托管数据中心,并可在组织内部署数据中心恢复应用程序。
(3)备份和灾难恢复。
托管工作负荷不能保证可用性。重要的工作负荷可能需要额外的托管服务投资,以建立备份和灾难恢复框架,以确保托管服务中应用程序的可用性。默认情况下,托管服务提供商不提供此类服务。
(4)详细监控。
使用监控工具(如应用程序性能监控)和用于重要工作负程序的运行状态和性能,以及托管服务提供商及其资源的可用性。了解托管服务提供商的服务等级协议(SLA),并使用监控结果来验证托管服务提供商是否遵守服务等级协议(SLA)。
(5)寻求帮助。
托管服务提供商将为寻求支持提供各种帮助。客户应清楚了解可用的帮助,如何求助,必要时如何采取行动,及时采取纠正措施。

归根结底,托管服务提供商是客户的业务合作伙伴(而不是员工),托管服务提供商提供的资源和服务不能被视为理所当然。客户有责任管理托管数据中心环境中运行的工作负荷,并需要能够与托管服务提供商合作,以保持每个工作负荷的可用性和性能。

(本文来源网络整理,如有侵权请联系删除)

润迅数据中心 © 版权所有 经营许可证号A2.B2-20030001 | 粤ICP备12015248号

粤公网安备 44030302000533号