Deduplikowanie danych – FAQ (cz. III)

17 października 2008

10. Jak deduplikowanie wpływa na wydajność programów wykonujących kopie zapasowe danych i odzyskujących dane?

Czas potrzebny do odzyskania danych będzie w przypadku systemu dyskowego krótszy niż w przypadku pamięci taśmowej, ponieważ jest to system pracujący w trybie online, oparty na swobodnym dostępie do danych. Przepustowość systemu zależy jednak zawsze od dostawcy konkretnego rozwiązania. Deduplikowanie to proces, który musi cały czas intensywnie przetwarzać dane. Gdy system ma zapisać dane musi wcześniej sprawdzić, czy niewielka sekwencja danych nie została już wcześniej zapisana na dysku, co wiąże się z koniecznością przeanalizowania setek terabajtów danych. A danych takich jest zbyt wiele, aby użyć do tego celu pamięci RAM (można to robić tylko w przypadku niewielkich systemów). Dane muszą być więc odczytywane z dysków twardych, które są niestety wolne.

Oto najłatwiejsze sposoby pozwalające przyspieszyć proces deduplikowania danych. Po pierwsze, należy stosować długie sekwencje danych, tak aby nie korzystać zbyt często z usług dysków; po drugie, można rozbudować warstwę sprzętową systemu, instalując w nim więcej dysków. Wiąże się to niestety z koniecznością poniesienia dodatkowych kosztów, więc z tego punktu widzenia pamięć taśmowa jest atrakcyjniejsza. Dostawcy systemów deduplikowania danych stosują w swoich rozwiązaniach różne technologie. Dobrze jest więc rozumieć takie pojęcia, jak:

Przepustowość systemu wykonującego kopie zapasowe danych i odzyskującego dane, wykorzystującego pojedynczy strumień danych. Parametr ten pozwala określić, jak szybko daną bazę danych/plik można zapisać, odczytać lub skopiować na taśmę, celem utworzenia zasobu archiwalnego. Mogą tu być różne czasy: szybkość odczytywania danych i zapisywania danych to dwa oddzielne zagadnienia. Mając na uwadze okna backupowe do wykonywania kopii zapasowych ważnych danych, większość użytkowników pyta się zawsze o wydajność systemu wykonującego kopie zapasowe danych, chociaż czas odzyskiwania danych jest w przypadku większości umów SLA ważniejszym parametrem.
Zagregowana przepustowość oferowana przez system wykonujący kopie zapasowe danych i odzyskujący dane. Jak szybko dany kontroler może pracować, obsługując wiele strumieni danych? Wartość taka pomaga oszacować, ile kontrolerów/systemów należy zastosować w przypadku konkretnego wdrożenia.
Typy danych. Pytanie: czy w przypadku dużych plików (takich, jakie są przechowywane w bazach danych lub tworzone np. przez program Exchange), deduplikowanie pracuje wolniej niż w przypadku mniejszych plików? Niektóre technologie deduplikowania stosują proste metody celem zwiększenia średniej wydajności, identyfikując np. znane w systemie, całe pliki. Technologie takie nie zdają egzaminu w przypadku danych strukturalnych, które mają z reguły dużą objętość. Tak więc jednym z najprostszych sposobów oceny systemu deduplikowania jest sprawdzenie, jaka jest jego przepustowość przy obsługiwaniu długich plików, takich jakie są przechowywane w bazach danych. W niektórych przypadkach deduplikowanie pracuje wolno; w innych rozwiązanie nie deduplikuje zasobów wystarczająco efektywnie (wykorzystując np. segmenty o bardzo długiej, stałej długości).
Czy kopię zapasową numer 30 można przywrócić tak szybko jak kopię zapasową numer 1? Jeśli użytkownik wykonuje kopie zapasowe obrazów i z czasem usuwa niektóre z nich, to czy wydajność systemu zmieni się wtedy z upływem czasu? Deduplikowanie korzysta z bardzo wielu odwołań przy przechowywaniu nowych dokumentów. Czy w związku z tym szybkość przywracania ostatniej kopii zapasowej (bo z reguły taka kopia jest wtedy wykorzystywana) różni się od szybkości przywracania pierwszej kopii zapasowej, wykonanej np. dwa miesiące wcześniej? W dobrze zaprojektowanym systemie deduplikowania, szybkość przywracania ostatniej kopii zapasowej nie powinna się znacząco różnić od szybkości przywracania kopii zapasowej wykonanej rok wcześniej. Zaskakujące jest to, że nie wszyscy dostawcy oferują tego rodzaju behawioralną spójność rozwiązania.
Wydajność wdrożenia będzie zależeć od wielu czynników, w tym od oprogramowania wykonującego kopie zapasowe oraz od systemów i sieci obsługujących to oprogramowanie.

11. Czy wydajność systemu deduplikownaia zależy od ilości dysków twardych?

Dyski twarde należą do najwolniejszych elementów systemu pamięci masowej. Aby system pracował wydajniej, dane są często zapisywane na wielu dyskach przy użyciu metody paskowania (technologia znana pod nazwą “striping”), dzięki czemu żądania generowane przez układy I/O mogą być obsługiwane jednocześnie przez kilka dysków. Jeśli system pamięci masowej wykorzystuje taką technologię, należy zawsze rozważyć kwestię właściwej proporcji miedzy dwoma parametrami: wydajnością systemu i jego pojemnością. Jest to ważne zagadnienie, ponieważ jednym z istotnych czynników branych pod uwagę przy wdrożeniach systemów deduplikowania danych jest chęć ograniczenia liczby dysków.

12. Jak pojemne muszą być pamięci masowe w przypadku wdrażania systemu deduplikowania danych?

Nie jest to istotne pytanie w przypadku systemów deduplikowania pracujących w trybie inline, ale ważne w przypadku systemów pracujących w trybie post-process. Metody post-process wymagają zawsze obecności pojemniejszych systemów pamięci masowej, tak aby system mógł na nich przechowywać tymczasowo duplikowane dane. Pojemność pamięci zależy wtedy od ilości obsługiwanych danych; od tego ile kopii zapasowych danych jest wykonywanych w danym systemie oraz od tego jak długo system deduplikowania musi przechowywać wszystkie dane na dysku, zanim usunie z niego niepotrzebne, zdeduplikowane dane. Systemy deduplikowania typu post-process, które muszą czekać na całkowite zakończenie operacji wykonania kopii zapasowej (zanim zaczną deduplikować dane) wymagają obecności dużo pojemniejszych buforów dyskowych niż systemy deduplikowania, które zaczynają deduplikować dane już podczas operacji wykonywania kopii zapasowej.

13. Jakie są najlepsze praktyki przy wyborze systemu deduplikowania danych?

Należy się upewnić czy dane rozwiązanie można łatwo zintegrować z istniejącym środowiskiem.
Należy się zapoznać z referencjami innych użytkowników – prowadzących podobny biznes co my.
Należy wdrożyć rozwiązanie pilotażowe produktu/technologii w swoim środowisku.
Należy również poznać plany dostawcy dotyczące dalszego rozwoju kupowanego rozwiązania.

Autorem tekstu jest Philip Turner, Regional Director, UK & Ireland at Data Domain

Pozostałe części tego przewodnika:
– część I
– część II

Deduplikowanie danych – FAQ (cz. III)

BRAK KOMENTARZY

ZOSTAW ODPOWIEDŹ Anuluj odpowiedź

POWIĄZANE ARTYKUŁYWIĘCEJ OD AUTORA

Dell Technologies World 2018 – prosto z Las Vegas

SPARC: procesor rozwijany z myślą o optymalnej obsłudze baz danych

Storage w chmurze – czy to się opłaca

BRAK KOMENTARZY

ZOSTAW ODPOWIEDŹ Anuluj odpowiedź

POWIĄZANE ARTYKUŁY WIĘCEJ OD AUTORA