腾讯云_阿里云服务器学生优惠_0元

小七 2019年10月25日 21:23 141 0

NAT 网关_企业级_重庆群晖nas存储

随着Hadoop在企业中的迅速采用，部署了许多随意的、快速修复的Hadoop备份和恢复机制。通常，这些原始解决方案与Hadoop发行版捆绑在一起，但也由组织内的DevOps团队拼凑而成。虽然它们看起来在表面上工作，但它们通常会将您的数据和组织置于重大风险中，特别是当您的系统变得更大、更复杂时。在发生灾难时，物联网流量卡，任何由此导致的停机或数据丢失（由于恢复失败）都将严重影响您的业务声誉、成本和/或上市时间。更深入地说，云服务器那个好，从数据保护的角度来研究Hadoop的潜在误解，可以更好地理解这些解决方案的不足之处。1依赖文件系统副本进行Hadoop备份和恢复副本是保护数据免受硬件故障（如一个或多个节点停机或磁盘驱动器故障）影响的好方法。但是，它们不能保护您的数据免受更常见的情况的影响，在这种情况下，某些用户错误（例如，DBA无意中删除了配置单元表）和应用程序错误最终会损坏数据库中的数据。一家大型技术公司依靠3个Hadoop副本来保护数据。由于输入错误，DBA意外删除了一个大的400TB配置单元表。由于没有真正的备份，虚拟主机，该公司最终从源重新创建了数据，这花费了4周的时间和大量的工程资源。据其估计，这些资源和相关停机时间的总成本为110万美元。2使用HDFS快照Hadoop分布式文件系统（HDFS）提供快照功能，可以创建特定文件和目录的时间点副本。虽然这看起来是一种很好的数据保护策略，但它有如下严重的局限性：HDFS快照是文件级快照。因此，它们不能很好地与Hive和Hbase等数据库配合使用，因为备份中没有捕获到相关的模式定义。由于快照与数据存储在同一个节点上，节点或磁盘故障会导致两个快照的丢失以及受保护的数据。恢复数据是一项繁重的工作，因为它需要有人通过梳理所有快照来手动定位要恢复的文件，物联网操作系统，重建与恢复时间相关的任何模式，大数据网，最后恢复数据文件。即使存储适度数量的快照也会增加Hadoop集群的存储需求，从而限制了Hadoop集群在进行数据恢复时的时间回溯能力。三。为Hadoop备份和恢复编写自定义DevOps脚本许多拥有内部DevOps团队的组织通常会使用编写自定义脚本来备份其配置单元和HBase数据库以及HDFS文件。通常，要花几个月的时间来编写和测试这些脚本，以确保它们在所有场景下都能正常工作。这些脚本需要定期更新，以处理更大的数据集、升级到Hadoop发行版以及对数据中心基础设施的任何其他重要更改。与快照一样，脚本只负责制作数据的副本。作为一个完全手动的过程，恢复仍然是一个繁重和容易出错的过程，就像使用快照方法一样。除非定期测试，否则脚本也可能导致数据丢失，特别是当编写脚本的DevOps团队不在时。一个零售组织编写了脚本来备份其Hive和Hbase数据库。虽然这些脚本必须手动运行，经常失败，并且需要定期更改，但在发生数据丢失事件之前，该进程似乎一直在工作。当零售商试图从其备份中恢复数据时，它意识到备份脚本遇到了无声的故障，因此，当实际备份失败时，备份被报告为成功。它的备份在组织最需要它的时候失败了，导致数据丢失。4使用Hadoop发行版中的备份工具商业Hadoop发行版打包了备份功能。这些工具提供了基本的备份功能，可能无法满足公司的恢复点（RPO）和恢复时间（RTO）目标。它们主要是在HDFS快照之上提供一个用户界面，因此与上述HDFS快照相关的所有限制也显示在这里。通常，这些工具不提供任何简单的恢复机制，因此恢复仍然是手动的，而且容易出错。可靠的Hadoop备份和恢复策略随着基于Hadoop的应用程序和数据库变得越来越重要，组织需要更加认真地研究其针对Hadoop的恢复策略。需要一个经过深思熟虑的适当Hadoop备份和恢复策略，以确保数据能够可靠、快速地恢复，并且备份操作不会占用太多工程或DevOps资源。现代Hadoop备份和恢复解决方案必须：完全不需要编写脚本不需要完全自动化的资源只需要很少的Hadoop专业知识具有极高的可靠性和可扩展性，可管理数PB的数据满足RPO和RTO的内部法规遵从性要求保护数据以防勒索软件攻击与云存储集成以降低成本保留数据的多个时间点副本设计时考虑到恢复具有数据意识，能够消除大数据格式的重复数据观看此视频可以深入了解Hadoop备份和恢复的一致性解决方案。

本文地址： /cunchu/42403.html