Deduplikacja – sposób na duże oszczędności

0

W systemach informatycznych dzisiejszych przedsiębiorstw przetwarzanych jest ogromna ilość danych. Wymaga to dostępności pamięci masowych o pojemnościach, jakich nigdy wcześniej nie spotykano w biznesie. Zapotrzebowanie na przestrzeń pamięci masowych wzrasta dodatkowo wraz z potrzebą tworzenia kopii zapasowych oraz archiwizacji tych danych. Wszystko to powoduje lawinowy wzrost kosztów prowadzenia i utrzymania infrastruktury IT w przedsiębiorstwach. Próbą zaradzenia temu problemowi jest deduplikacja danych w pamięciach masowych, a zwłaszcza w zwirtualizowanych pamięciach masowych.

Deduplikacja danych jest technologią opracowaną szczególnie na potrzeby tworzenia i przechowywania kopii zapasowych. Już od pierwszego momentu, kiedy powstała potrzeba tworzenia kopii zapasowych danych (czyli od samych początków informatyki) szukano sposobów na ograniczenie ilości wymaganego miejsca na dane oraz oszczędności w utrzymaniu kopii zapasowych. Odpowiedzią na te potrzeby były sprzętowa kompresja danych czy opracowanie technik wykonywania przyrostowych oraz różnicowych kopii zapasowych zamiast wykonywania pełnych kopii (stosowanie odpowiednich polityk bezpieczeństwa odnośnie danych umożliwia oprogramowanie do tworzenia kopii zapasowych). Wszystkie powyższe techniki są dziś powszechnie stosowane, jednakże dramatyczny wzrost ilości danych używanych przez przedsiębiorstwa wymagał poszukiwań dalszych rozwiązań.

Wraz z taniejącymi pamięciami dyskowymi oraz rosnącymi ich pojemnościami pojawiła się koncepcja przejścia z metodologii backupu D2T (Disk-to-Tape) na D2D2T, czyli Disk-to-Disk-to-Tape. Inaczej mówiąc, powstał pomysł zwirtualizowania obecnie stosowanych bibliotek taśmowych i zastąpienia ich rozwiązaniami VTL (Virtual Tape Library – Wirtualna Biblioteka Taśmowa). Rozwiązania te doskonale się sprawdziły na rynku pamięci masowych oraz są powszechnie stosowane do tworzenia i przechowywania kopii zapasowych.

Wzrost popularności wirtualnych bibliotek taśmowych w biznesie spowodował postawienie przez producentów pytania czy i jak można zredukować ilość wymaganego miejsca na przechowywane dane. Po kompresji, kopiach przyrostowych i różnicowych przyszedł czas na deduplikację danych.

Czym jest deduplikacja?

Deduplikacja to proces eliminacji powtarzających się danych poprzez zastępowanie duplikatów odnośnikami do jednej, oryginalnej porcji danych. Proces ten można zastosować do eliminacji danych w systemach bazodanowych lub innych aplikacjach, jednakże biorąc pod uwagę systemy informatyczne w ogólności, największe korzyści z deduplikacji można uzyskać stosując ją w wirtualnych pamięciach masowych.

Proces deduplikacji polega na inteligentnym i systematycznym wyszukiwaniu bloków danych, które wielokrotnie powtarzają się, eliminacji ich i zastępowaniu odnośnikami do jednej, pozostawionej kopii danych w systemie. Są dwa rodzaje deduplikacji: na poziomie systemu plików oraz na poziomie bloków dyskowych. Ta druga pozwala na uzyskanie lepszych efektów, gdyż jest niezależna od rodzaju oraz ilości plików znajdujących się w systemie plików oraz od systemu operacyjnego, na którym pracuje dany system informatyczny.

Dlaczego deduplikacja w wirtualnych bibliotekach taśmowych?

Głównym problemem, związanym z przechowywaniem kopii zapasowych, są koszty pamięci masowych służących za nośnik. W koszty te należy wliczyć same nośniki, koszty infrastruktury, utrzymania oraz serwisowania sprzętu. Szansą na ich redukcję jest zastosowanie deduplikacji w wirtualnych pamięciach masowych. Głównym efektem jest drastycznie zmniejszone zapotrzebowanie na przestrzeń dyskową do składowania danych. Producenci oprogramowania wspierającego deduplikację podają, iż w wyniku redukcji bloków dyskowych zawierających powtarzające się dane, można osiągnąć całkowitą redukcję wymaganej przestrzeni dyskowej od 50% do nawet 90%. Wyniki te są uzależnione od rodzaju składowanych danych (binarne, testowe, multimedialne) oraz od częstości zmian dokonywanych w tychże danych.

W wyniku stosowania deduplikacji uzyskuje się również inne oszczędności. Dzięki zredukowaniu zapotrzebowania na pamięć masową o co najmniej 50% wymagana jest mniejsza ilość systemów do przechowywania kopii zapasowych, co przekłada się na mniejsze wydatki na infrastrukturę IT oraz administrację i utrzymanie. Nie należy również zapominać o oszczędnościach w zużyciu energii elektrycznej. Jedną z większych bolączek współczesnych serwerowni jest zapotrzebowanie na energię potrzebną do zasilenia ogromnej ilości serwerów, macierzy dyskowych oraz bibliotek taśmowych. Częste są już przypadki, kiedy to roczne wydatki na energię elektryczną przewyższają koszt samego sprzętu IT! Stosując już tylko wirtualne biblioteki taśmowe mocno ograniczamy zapotrzebowanie na energię, redukując koszty utrzymania oraz również przyczyniamy się do mniejszego zatrucia środowiska naturalnego. Jeśli dodamy do tego jeszcze deduplikację, koszty zużywanej energii podlegają dalszym redukcjom.

Istnieją również wirtualne pamięci masowe wspierające deduplikację i umożliwiające również składowanie danych na wielu poziomach. Oznacza to, że cały system można skonfigurować na, przykładowo, trzy poziomy: poziom danych dostępnych on-line, poziom danych zapasowych oraz poziom danych zarchiwizowanych. Dane z pierwszego poziomu znajdować się będą na wydajnych macierzach dyskowych, które będą w stanie zaspokoić zapotrzebowanie na ciągły dostęp do danych i obsługę wielu klientów. Dane z drugiego poziomu można umieścić na wirtualnej bibliotece taśmowej wspierającej deduplikację. Dzięki temu kopie zapasowe można odtwarzać szybciej niż z tradycyjnych taśm, dodatkowo jeszcze ograniczając wymogi odnośnie przestrzeni dyskowych wymaganych na te dane. Dane zarchiwizowane umieszcza się na ostatnim poziomie, czyli już na tradycyjnych taśmach. Czas dostępu do tychże danych nie jest krytyczny, więc taśmy będą tu odpowiednim wyborem, zarówno ze względu na czynniki ekonomiczne, jak i ze względu na niezawodność taśm.

Replikacja i deduplikacja

Deduplikacja znajduje również zastosowanie w jeszcze jednym zagadnieniu związanym z obsługą danych – replikacji danych pomiędzy centrami danych oraz serwerowniami w różnych lokalizacjach. Jak wiadomo, w celu zapewnienia ciągłości pracy systemów IT tworzy się lokalizacje zapasowe, które – w razie katastrofy głównej lokalizacji – mogą przejąć wszystkie zadania i umożliwić dalsze funkcjonowanie przedsiębiorstwu. Jednym z warunków, aby było to w ogóle możliwe, jest synchronizacja danych pomiędzy tymi lokalizacjami. Odbywa się to poprzez replikację danych z głównej lokalizacji do zapasowych.

Podczas przeprowadzania replikacji danych pojawia się kwestia ilości danych, które należy przesłać między lokalizacjami z wykorzystaniem infrastruktury sieciowej. Zaawansowane systemy wirtualnych pamięci masowych umożliwiają deduplikację przechowywanych danych, a następnie replikację tak zdeduplikowanych danych do lokalizacji zapasowej. Według producentów wirtualnych pamięci masowych, stosując deduplikację przy replikacji i synchronizacji danych pomiędzy lokalizacjami można zredukować ilość przesyłanych danych nawet o 84% dziennie. Należy przy tym pamiętać, że podczas okresowej synchronizacji danych pomiędzy lokalizacjami przesyłane są tylko i wyłącznie dane zmienione w lokalizacji głównej, również redukując ilość danych przesyłanych infrastrukturą sieciową.

Autor: Marek Żukowski, konsultant ds pamięci masowych, Polcom Storage

PODZIEL SIĘ

BRAK KOMENTARZY

ZOSTAW ODPOWIEDŹ