Nie zmieniajmy basenu w magazyn!

0

Rozmowa z Mathew Lodge, starszym dyrektorem marketingu produktowego w Symantec Information Management Group

Storagefocus: O konieczności odpowiedniego zarządzania informacją mówi się już od kilku lat. Swego czasu popularny był nawet termin Information Lifecycle Management, jednak później nieco o nim zapomniano… Ale Symantec ostatnio stara się wrócić do tego tematu. Dlaczego?

Mathew Lodge, Symantec

Mathew Lodge: Główną przyczyną jest fakt, że ilość wytwarzanych dziś informacji rośnie znacznie szybciej niż ilość dostępnej, produkowanej przestrzeni dyskowej. Taka tendencja trwa już od co najmniej siedmiu lat. IDC na ten rok szacuje wzrost ilości wygenerowanej informacji na ok. 15%, a przez najbliższe 4 lata – już o 400%. Można zauważyć, że przestrzeń dyskowa tanieje, za rok jeden terabajt będzie o ok. 30% tańszy. Ale problem w tym, że ilość danych będzie rosła znacznie szybciej, o ok. 50-60%, a dodatkowo jako kolejny koszt pojawiają się czynności związane z zarządzaniem taką dużą ilością danych, tym bardziej że budżety działów IT i liczba zatrudnionych w nich osób nie wzrosną o kilkaset, a co najwyżej o 10% według IDC. Sytuację pogarsza coraz bardziej popularna wirtualizacja. Podczas gdy maleje koszt zakupu serwerów i zarządzania nimi, znacznie rosną koszty związane z pamięciami masowymi. Potrzebujemy ich więcej, wirtualne maszyny trzeba systematycznie backupować, a aby ten proces odbywał się sprawnie, nasz system pamięci masowej musi działać z niemałą wydajnością.

Storagefocus: Co w praktyce oznacza to dla administratorów centrów danych i pamięci masowych?

Mathew Lodge: Niedługo będą musieli znacznie zmienić swoje podejście do pamięci masowych w swojej firmie. Nie będzie miało sensu ciągłe przechowywanie wszystkich posiadanych informacji w taki sposób, w jaki najczęściej robimy to dziś. Gdybyśmy przechowywali zupełnie wszystko, to wyszukanie odpowiedniej, poszukiwanej przez nas informacji, będzie trwało wieki, jeśli nie zatrudnimy do tej operacji setek czy tysięcy serwerów, tak jak to czyni Google. Zatem trzeba będzie rozważnie kasować to, co niepotrzebne, a resztę deduplikować. Przechowywane informacje trzeba będzie także rozważnie indeksować. Być może należy także zweryfikować model korzystania z taśm w systemie backupu, przeznaczając je głównie do krótkoterminowego odzyskiwania danych po katastrofie lub długotrwałej archiwizacji, a nie do backupu. Realizowane dość często kolekcjonowanie taśm z backupami nie ma sensu, ponieważ odzyskiwanie danych odbywa sie bardzo rzadko, więc koszt przechowywania taśm i zarządzania nimi bywa większy od kosztu tworzenia backupu i odzyskiwania danych w inny sposób. Znam jedną firmę w Szwajcarii, która musiała zlikwidować swój basen dla pracowników, żeby przebudować go… w magazyn na archiwum taśm. Przy bogactwie oferowanych dziś technologii takie podejście naprawdę nie ma sensu.

Storagefocus: Czyli oznacza to konieczność zbudowania środowiska pamięci masowych opartego na warstwach?

Mathew Lodge: Dokładnie tak. Na najbardziej wydajnych nośnikach powinny być przechowywane aplikacje i rzeczywiście tylko najczęściej przetwarzane dane. Resztę danych należy oddzielić od aplikacji i umieścić w pamięciach masowych drugiej warstwy – znacznie tańszych macierzach dyskowych. Najstarsze informacje można przechowywać na taśmach, ale powinno się wciąż dysponować oprogramowaniem, które będzie w stanie do takiej informacji dotrzeć i udostępnić ją w odpowiedniej aplikacji (np. zarchiwizowaną wiadomość pocztową zapisaną na taśmie udostępnić w Outlooku). Dzięki temu możemy deduplikować informacje poza aplikacją, co da o wiele większą skuteczność. Deduplikację powinno się też przenosić bardziej w kierunku źródeł powstawania informacji. W tej chwili najczęściej jest ona wykonywana w systemach backupu, bo tam są największe korzyści. Ale nasze analizy pokazały, że nawet deduplikując podstawowe macierze dyskowe można oszczędzić wiele miejsca. Poza tym deduplikacja to tylko fragment rozwiązania problemu, należy też wprowadzić i realizować polityki kasowania danych. Na przykład wiadomości e-mail powinny być z urzędu objęte polityką, która mówi, że zostaną one skasowana za określony czas, być może za rok czy trzy lata.

Storagefocus: Jaka strategię proponujecie na wieloletnią archiwizację danych, sięgającą nawet kilkudziesięciu lat?

Mathew Lodge: Przede wszystkim takie archiwum powinno być skalowalne. Powinno też składać się z dwóch elementów – metadanych i samych archiwizowanych danych, przechowywanych w oryginalnym formacie (pliki lub rekordy baz danych). Archiwum powinno też być przyrostowe, a więc umożliwić dodawanie nowych plików bez konieczności kasowania starych (nawet jeśli jest to plik o tej samej nazwie, wtedy powinny być przechowywane jego wszystkie wersje). Tak przygotowane archiwum możemy przechowywać na taśmach, dobrze jeśli proces migracji może dziać się automatycznie według jednej, wspólnej polityki. Mamy klientów, którzy mają w swoim archiwum ponad miliard elementów i muszą je trzymać bardzo długo, ponieważ są to dane medyczne. Oczywiście wciąż przegrywają je na nowe nośniki, ale to nie jest najważniejsza rzecz. Największy problem jest w możliwości zapewnienia logicznego odczytania danych. Dlatego decydując się na wybór oprogramowania do archiwizacji warto sprawdzić, czy ma ono możliwość automatycznego konwertowania archiwizowanych plików do HTML-a, który jest już oczywistym standardem, kompatybilnym wstecz. Dzięki temu możemy przechowywać oryginalny plik i jego kopię w HTML, której gwarancję odczytu mamy i będziemy mieli jeszcze przez długi czas.

Storagefocus: Jednak inwestycja w nowe rozwiązania to kolejny koszt, którego firmy starają się unikać w czasach kryzysu…

Mathew Lodge: Warto zauważyć przede wszystkim ogromną różnicę w cenie zakupu sprzętu i oprogramowania. Ta proporcja może wynieść nawet 10:1. Czasami zainwestowanie pewnej kwoty w oprogramowanie do zarządzania danymi może skutkować znacznie większymi oszczędnościami na sprzęcie. Tutaj bardzo łatwo można obliczyć całkowity koszt użytkowania systemu, a więc także czas zwrotu z poniesionej inwestycji. Dzięki deduplikacji można zaoszczędzić 40-60% przestrzeni dyskowej w samych serwerach pocztowych. Gdy dołączymy do tego systemy plików, może okazać się, że czasami można uzyskać nawet 80%.

Storagefocus: Rozpoczęliście ostatnio świadczenie usługi backupu online. Czy wierzycie w to, że ta usługa może być świadczona także przedsiębiorstwom?

Mathew Lodge: Na pewno tak, ale do tego potrzeba znacznego polepszenia przepustowości i niezawodności łączy internetowych. Armia amerykańska próbowała wykonać w sieci rozległej usługę VMotion, czyli przeniesienie działającej aplikacji w wirtualnej maszynie. Operacja zajęła 14 godzin, przy czym sama aplikacja przeniosła się w pięć minut. Resztę zajęło przeniesienie danych… Dlatego zarządzanie informacją jest takie ważne, aby w przypadku, gdy trzeba będzie ją backupować, odzyskiwać, przenosić itp., zajmowała ona jak najmniej miejsca.

Rozmawiał Krzysztof Jakubik

PODZIEL SIĘ

BRAK KOMENTARZY

ZOSTAW ODPOWIEDŹ