数据裂变:数据以生物形式快速增长

数据裂变:数据以生物形式快速增长,第1张

数据裂变:数据以生物形式快速增长,第2张

很多与数据中心相关的问题都是源于数据的快速增长。随着数据的不断增长,看似平静的表面下,蕴藏着一股巨大的力量,任何阻挡数据增长的东西都会被摧毁。数据不可阻挡的增长已经超出了你的文件系统、磁盘、系统、网络、保护计划甚至你的生活的能力。我们只有无止境的扩张,绝望于数据增长可能带来的下一个问题。
找出问题的症结,而不是追踪问题的表象,才是我们必须要做的。数据增长是自然的(世界上每时每刻都在产生新的数据),但大多数数据都是由科学研究产生的。如数据扩展、副本、副本的副本、备份副本的副本、备份副本的副本等。,这些不仅仅是能力问题,而是像科学一样复杂。
生物学上有一个过程叫裂变。裂变是指一个细胞分裂形成两个相同的细胞。如果允许在合适的环境中发育,这些细胞将再次分裂,形成四个相同的细胞,以此类推。很快,整个桌子上就没有快速生长细胞的空间了。如果一个科学家采用了IT人的做法,他会在细胞太多之前,把培养皿里的细胞全部倒进一个更大的容器里,让它们继续快速繁殖。之后,重复这个操作。
通常情况下,生物科学家会为不同的测试或实验选择单细胞的精确拷贝数。它还应该考虑这种方法——我们还需要一些数据副本来测试不同应用程序的运行。科学家使用副本进行各种实验,观察会发生什么,而IT部门使用副本进行测试,填充数据库,创建备份副本和灾难恢复副本,将副本发送给其他用户,等等。本质是科学家事先知道自己需要多少份,所以有计划。而且,实验完成后,他们可以把副本扔掉,而不是让它继续复制。然而在IT行业,我们很少清洗空培养皿。相反,我们不断创造新的副本。IT流程很少有科学实验室中的那种预先规划。这种拷贝留存导致的数据增长,让很多数据变得没用,我们的问题大部分都是由此造成的。为了解决这个问题,我们只是从供应商那里购买新一代更大的培养皿。
Data Domain的经验证明,在备份过程中消除重复数据是一件好事。现在,我们可以听到一千个关于“重复数据删除”的故事,但不可否认的事实是,消除无用的重复数据是有好处的,而罪魁祸首就是无缘无故地保留无用的重复数据。
如果在数据生命周期结束时消除重复数据是一件好事——那么越早消除越好,这是一个前沿领域。在这些没有价值的重复数据有机会引发问题之前,尽早清除,避免类似生物复制的繁殖问题。数据清洗,压缩技术,重复数据删除,消除或压缩复制的数据,这些类似的概念是可行的,从逻辑上讲,它们都为数据处理的下游创造了巨大的利益。
以上理论如何实现?目前可行的方式有两种:一是根据流程和战略需要,确定需要的副本数量、存储时间,以及如何处理副本的计划。第二,在这些副本失控之前,用技术清除它们,就像清除里面的一些蟑螂一样。如果最后蟑螂赢了,你只能被踢出去。
如果重复数据删除在备份目标市场创造的价值远远超过20亿美元(并且还在继续增长),想象一下,如果它更接近数据创建点(我们生成的所有不同数据类型的创建点),该功能将产生什么价值。我们将是绿色的(没有比这更绿色的了),资源充足的(我们暂时不需要购买任何新系统)和健全的(管理负担更少等于问题更少),而且可能实际上只需要8分钟就可以完成所有工作,并且有时间思考如何为企业增加战略价值,这与整天忙于在充满有害物质的房间里倾倒培养皿形成了鲜明的对比。
那么,我们什么时候才能开始将这项神奇的技术应用到“食物链”上呢?如果它适用于备份,它也应该适用于主存储。但是在主存储器中创建的数据类型是不同的,例如记录、文件、对象、块和其他数据。存储在主存储器中的数据经历了不同的阶段:什么时候?删除技术是在哪里实现的?这是每个人都需要考虑和决定的。
1。所有数据都是通过动态或事务处理生成的——Word、PowerPoint、事务数据、法律文本、视频和MP3等。所有数据在一段时间内都是动态的。动态数据非常重要,应该进行不同级别的保护。在这个阶段,如果数据丢失,影响会很大。这是我们通常制作第一个数据副本的地方,我们很可能在这里做镜像。
2。根据一般的数据生命周期,所有数据在一定时间后都会变成“固定的”或“持久的”。数据不会同时进入固定状态,但最终都会发生。UDS的第二个阶段就是我们所说的“持续活动数据”,也就是不再发生变化,但是数据仍然非常活跃的数据。这并不意味着访问数据变得不重要。通常这个阶段数据访问比较重要,我们往往在这里设置最重要的数据副本。通常,我们复制数据用于灾难恢复;建立备份副本和快照;复制数据以测试/开发系统;通过电子邮件将副本发送给我们的供应商和合作伙伴。之后,我们备份副本的副本,并创建更多副本。我不是说我们不应该复制。我们需要多次创建这些副本。只要不同的系统/应用需要,我们都会提供副本。我们可能不需要持续支持这么多副本。
3。生命周期的第三个阶段是数据进入“持续非活动”状态。即不可更改且很少被访问的数据。90%的业务数据都在这个生命周期中。因此,在流程和技术方面,90%的资本节约和运营效率的提高也正在这一阶段发生。既然这些数据永远不会改变,而且你还备份了他们的副本,为什么还会有人备份这些数据?在这个阶段,您应该考虑一种完全不同的方法来处理前一阶段的数据。这些数据应该存储在一个非常便宜、节能的系统中,一旦写入就很少或根本不读取,一个普通员工就可以负责所有的管理。这也是我们要大规模减少数据副本的阶段。这仍然可以存储在“主”中,但是,通过应用重复数据删除技术,总容量可以节省50%或更多。将备份常识/灾难恢复策略结合起来是很棒的—您可能会有一两个轻松的周末。没有比这更节能环保的了!
4。第四阶段是恢复阶段。通常需要异地备案或者“以防世界末日”。幸运的是,如果你必须在不同的地方进行备份,你不需要恢复9756份相同的固定数据,不是吗?或者3或4份对我来说已经足够了。
所以,接下来要想的是如何让重复数据删除的起点更接近数据创建点,它的价值点也在数据生命周期的第三阶段。我们还必须认识到,压缩备份数据(顺便说一句,这是明智的)意味着重复删除文件,但我们在主容量中拥有的不仅仅是文件。我们需要复制数据块、记录、对象等等。在备份中完成这一切很棒,因为我们可以将所有数据类型组合到文件中进行处理,但当我们上游处理数据时,这意味着我们做出了更明智的举动。例如,只有少数人考虑数据库压缩。考虑投入大量资金挖掘资金潜力——在最昂贵、最复杂、最透明的交易系统上进行数据压缩,会有巨大的投资回报。当然,备份是一个难题,但如果重复数据消除在备份过程中创造了数十亿美元,想象一下在贸易领域会是什么样子。而视频和多媒体的可开发价值也很大,因为它只消耗容量。基于内容的对象本来就是复制的,这一块除了符合法律法规,不会被视为价值主流。

位律师回复
DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » 数据裂变:数据以生物形式快速增长

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情