Data Lake upraszcza architekturę

0

IT Focus rozmawia z Radosławem Piedziukiem, dyrektorem ds. sprzedaży rozwiązań Isilon w firmie EMC, o repozytorium danych Data Lake.

Wojciech Urbanek. Czym jest Data Lake?

Radosław Piedziuk Data Lake to skonsolidowane i skalowalne repozytorium danych plikowych i obiektowych, które łączy informacje z aplikacji biznesowych oraz analitycznych i elastycznie udostępnia je użytkownikom wszędzie tam, gdzie są potrzebne z zachowaniem polityki bezpieczeństwa organizacji.

Dlaczego warto w nie zainwestować?

Radosław Piedziuk. Bo upraszcza przechowywanie, analizę i zarządzenie wielkich zbiorów danych (Big Data) liczonych w setkach TB, konsolidując dane o różnych wymaganiach w zakresie wydajności. Pozwala również na dostęp do nich za pomocą różnych metod (np. dostęp plikowy i obiektowy). Najważniejszym elementem Data Lake pozostaje możliwość wirtualizacji repozytorium danych i elastycznego przydzielania dostępu dla wybranych grup użytkowników o różnych poziomach uprawnień. Dzięki temu znacząco upraszczamy architekturę naszego systemu i drastycznie obniżamy nakład pracy i koszty poniesione na zarządzanie danymi w dużej skali.

Czy mamy dużą dowolność co do rodzaju danych jakie mogą znajdować się w Data Lake, czy może też muszą one spełniać pewne restrykcyjne wymagania?
Radosław Piedziuk. Tak naprawdę, do Data Lake powinny trafić wszystkie dane nieustrukturyzowane, które firma chce wykorzystać zaczynając od danych roboczych użytkowników, takich jak pliki tekstowe i multimedialne – również w przypadku architektur zwirtualizowanych , np. VDI, a kończąc na obiektach (BLOBach – Binary Large Objects) przetwarzanych w tradycyjnych bazach danych. Dodatkowo możemy tam umieszczać dane generowane automatycznie: logi z transakcji bankowych, contact center, dane z serwisów społecznościowych, czujników i narzędzi telemetrycznych. Oczywiście cały czas możemy zarządzać oddzieleniem danych dla różnych użytkowników, zachowując pełne bezpieczeństwo informacji wraz z możliwością pełnego audytu dostępu do nich.

Czyli tak naprawdę Data Lake gromadzi dane plikowe z każdego możliwego miejsca. Gdzie jest haczyk? Przecież jeśli chciałbym tylko przechowywać dane to mógłbym postawić sobie zwykłą macierz typu NAS? Jaką wartość dodaną da mi Data Lake?

Radosław Piedziuk. Zgadza się, ale klasyczny NAS nie zdaje egzaminu przy obecnie wykorzystywanych powierzchniach gdzie często znacząco przekraczamy 100TB i musimy obsłużyć dynamicznie zmieniające się grupy użytkowników. W tym scenariuszu możemy docenić najistotniejsze atuty repozytorium Data Lake, czyli dostęp do spójnej przestrzeni dyskowej i możliwość równoczesnego skalowania powierzchni i wydajności systemu. Dzięki temu Data Lake może być współdzielony przez wielu użytkowników, a dodatkowo można nim precyzyjnie zarządzać. To platforma, z której przedsiębiorstwa lub poszczególne departamenty mogą skorzystać przy analizie danych i generowaniu przekrojowych analiz, ale także budowaniu aktywnych archiwów online i tworzeniu aplikacji opartych na informacjach, które są in naprawdę potrzebne. Data Lake wykorzystywany wraz z architekturą Hadoop pozwala zniwelować istniejący od dawna rozdźwięk między korporacyjnym naciskiem na umieszczanie w hurtowniach standardowych danych i używanie ich w spójny sposób, a wymogami wewnętrznych jednostek w organizacji, które potrzebują nietypowych zestawień i korelacji swoich danych. Dlatego właśnie tak ważną funkcją dodatkową platformy Data Lake jest wspomaganie analizy wielkich zbiorów danych w architekturach typu Hadoop. Repozytorium Data Lake w ten sposób staje się swoistym laboratorium, które pozwala nam na wyszukiwanie nowych, dotychczas niedostrzeganych korelacji między zgromadzonymi materiałami.

A co w przypadku zespołów zajmujących się analizami danych nieusystematyzowanych ad-hoc?

Radosław Piedziuk. W ich przypadku Data Lake udostępnia interfejs do integracji z systemami analizy danych – czyli pozwala na dostęp do danych za pomocą protokołu HDFS. Dzięki repozytoriom Data Lake analitycy danych nieusystematyzowanych mogą na żądanie korzystać z potrzebnych im informacji. Kolejną zaletą repozytoriów Data Lake jest uproszczenie i przyspieszenie procesów ekstrakcji, transformacji i ładowania (ETL). Data Lake umożliwia złożone przetwarzanie ETL na dużą skalę, nie pochłania jednak drogich zasobów hurtowni danych.

Jakie nowości planuje EMC i czy one już są dostępne w Polsce?

Radosław Piedziuk. EMC w połowie lutego wprowadziło do globalnej sprzedaży nowy system Isilon HD400, umożliwiający klientom rozbudowę platformy Data Lake aż do 50 PB spójnej przestrzeni dyskowej w jednym klastrze. Rozwiązanie idealnie nadaje się do tworzenia archiwum danych dostępnego on-line i rozbudowy istniejących platform Data Lake o komponenty o dużej pojemności. Co więcej system, pozwala na wyjątkową gęstość upakowania danych plikowych (3,2 PB/stelaż), która pomaga obniżyć wydatki operacyjne, w tym koszty zasilania, chłodzenia i powierzchni centrum przetwarzania danych o 50%. Wszystkie rozwiązania budujące platformę Data Lake, czyli systemy Isilon oraz ECS są już dostępne w Polsce.

Jakie jest zainteresowanie klientów tego typu rozwiązaniami w naszym regionie?

Radosław Piedziuk. Zainteresowanie w Polsce i w regionie przekroczyło nasze oczekiwania. Zyskaliśmy wielu nowych Klientów z praktycznie wszystkich sektorów: finansowego, telekomunikacyjnego, edukacyjnego, rządowego ale również komercyjnego, w tym centrów badań i rozwoju. Isilon w zeszłym roku okazał się jednym z najszybciej rosnących rozwiązań w portfolio EMC. Źródło jego sukcesu jest oczywiste: klienci, szukają skutecznego sposobu na opanowanie przyrostu danych nieustrukturyzowanych, a odpowiedzią na te potrzeby jest elastyczne i skalowalne repozytorium Data Lake.

PODZIEL SIĘ

BRAK KOMENTARZY

ZOSTAW ODPOWIEDŹ