网络技术辅导:重复数据删除技术弱点

网络技术辅导:重复数据删除技术弱点,第1张

网络技术辅导:重复数据删除技术弱点,第2张

重复数据删除是目前存储行业最热门的技术之一,用户和厂商都非常看好这项技术。有的厂商在开发硬件,有的厂商在开发软件,还有的同时在开发相关的软硬件。
和以前一样,我不打算比较不同厂商的产品或技术。我只想说一个你在考虑购买重复数据删除软件或硬件时必须向厂商咨询的重要问题,那就是数据损坏。您可能想知道,重复数据删除与数据损坏有什么关系?别担心,我马上给你解释。但必须注意的是,我是从通用硬件和软件的角度来写这篇文章的。有些厂商的产品可能接近也可能不接近我在本文中谈到的全部或部分问题。买哪个厂家的产品,找厂家咨询什么问题的决定权在自己手里,作者不承担任何责任。
有些人可能读过我曾经写过的一篇文章,讲述了我自己经历的数据损坏。对比正确数据和损坏数据后,数据的ASCII码发生了很大变化。实际上,大部分字节都损坏了。
本文讨论的是不规则数据损坏的问题,即使是数据损坏概率远低于廉价SATA的高端企业级光纤通道驱动器,也不一定会出现这种情况。此外,所讨论的组件不一定是驱动程序或控制器,也可以是内存、CPU或其他组件。综上所述,数字世界的数字数据肯定会被破坏。虽然数据损坏事故与使用的操作系统、硬件和软件有关,但即使是基于MVS多重虚拟存储系统的IBM大型机也可能发生数据损坏事故,但概率远低于系统。
瑞士一家实验室去年发表了一篇关于数据腐败的论文,其中一些值得一读。
您可能想知道这些与重复数据删除有什么关系。问题是,如果重复数据删除的硬件或软件受损,您可能会丢失所有数据。如果您计划删除重复的数据,您必须确保您拥有的数据是完整的。
比如,如果添加的数据在被读出的时候损坏了,但是存储在磁盘上的数据还是完好的,那么数据对比的时候会出现什么情况?如果你再读一遍,也许能得到正确的数据。但是如果数据写入磁盘的日期是错误的,还能读取那些文件吗?让我们一步步分析这两个例子,看看到底发生了什么。
例一:读取损坏的数据
如果你从磁盘中读取数据,而那些数据因为某种原因损坏了,然后开始将损坏的数据应用到新数据中,你可能会遇到一个大问题。当您再次从磁盘读取数据并执行重复数据删除操作时,情况可能会有所不同。
如果将读取的数据与新的数据进行比较,内存中的数据将是坏的,所以下次读取时,您找到的所有相同的数据都将成为其他数据。因此,基本上从损坏的数据中读取的任何数据都会被错误地比较,从而变得不可读。
如果那些数据因为某种原因被重新读取,并且读取了正确的数据,那么后续的数据就正确了。此外,还会有不可恢复的调试,你会丢失很多数据。令人担忧的是,有些数据是好的,有些数据是坏的。如果你想区分它们,你必须进行非常仔细的检查。
例二:损坏数据的重复数据
但是,如果数据从一开始就是错误的,在磁盘上已经损坏了怎么办?这个问题和第一个例子很像。Exam @ Big Tip就是第一个例子中的数据是好的,然后读取坏的数据,损坏了所有的数据。在这个例子中,在内存中创建了重复数据,这是好的,但是磁盘上的数据是坏的。也就是说,你用一个好的复制数据建立了数据,但是一旦你从磁盘中读取数据,这个数据就变坏了。好的一面是,一旦数据从磁盘重新读入内存,数据还是一样的,所以这个问题不是很严重。但是当使用内存中的原始数据创建数据时,无法恢复已删除的重复数据。下个月恢复删除的重复数据时,会得到错误的数据,除非从磁盘中读取正确的数据。还是那句话,这是个调试问题,可能解决不了。
需要向厂家咨询什么?
我自己也发生过数据损坏的事故,也见过其他人遇到同样的问题,你迟早也会遇到。我也非常相信新的T10数据完整性字段标准,它将检查从主机到磁盘的8个字节,并让磁盘验证数据。估计今年晚些时候会有很多厂商提供基于这个标准的产品。我个人很喜欢这个标准,因为有些部分已经应用到硬件的数据通道上了。它由为您提供SCSI协议的同一个供应商提供。
文件系统可以进行数据验证,但是如果文件系统在验证过程中对数据进行了修正,你可能会遇到两个问题:
文件系统必须在验证之前将数据读回服务器。在数据写回设备之前,它们是未经验证的。
服务器CPU必须计算检查号,并在读回文件时进行验证。这对服务器的影响很大。包括增加内存带宽和使用CPU缓存的要求,要求从内存重新加载应用程序和检查数字计算所需的内存带宽。
如果您正在运行的应用程序使用了大量的服务器资源,这将是一个严重的问题。
有些产品有自己的文件系统和检验号,可以解决我对数据损坏的一些担忧,但并不是所有的厂商都提供有这些功能的产品。这只是您应该注意的重复数据消除问题的一部分。在购买产品时,您还必须考虑许多其他因素,但这应该是您的首要任务。当你提出这个问题的时候,厂商可能会说这是你自己的问题,你的系统应该像T10DIF一样。这个答案是错误的。在你提问之前,厂商必须考虑你的硬件和软件。如果他们向你抛出问题,你就不必考虑购买他们的产品。
在某些环境中,重复数据删除是一种重要的工具,但任何事物都有两面性。你应该仔细地计划和实施它。

位律师回复
DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » 网络技术辅导:重复数据删除技术弱点

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情