Dane, dużo danych, bardzo dużo danych…

0

Wraz z postępem informatyzacji i nieomalże powszechną jej obecnością w naszym życiu zawodowym i prywatnym, naturalnym zjawiskiem jest powstawanie przeróżnych zasobów danych. Z drugiej strony mnogość rzeczy i nieustanna konkurencja zawęża margines niepowodzeń na jaki stać nawet duże firmy. Skoro więc mamy dane, dużo danych – to dlaczego by nie poszukać, co stanie się przebojem rynku w dziedzinie ich analizy?

Duże repozytoria danych to dość szerokie zjawisko, bowiem za tworzenie i gromadzenie różnego typu danych odpowiadają nie tylko przedsiębiorstwa i instytucje ale też, w zasadzie większość użytkowników internetu. Analizy samych danych czy profilu wykorzystania poszczególnych serwisów mogą mieć różnorakie cele i zastosowanie: od prostego poznania jacy jesteśmy, poprzez poszukiwanie trendów rynkowych aż do demaskowania czarnych charakterów. Wspólnym mianownikiem we wszystkich przypadkach jest zawsze ogromny zasób informacji i konieczność jej analizy w skończonym czasie.

Dotychczasowy rozwój systemów informatycznych sprawił, że wraz ze wzrostem mocy obliczeniowej i rozmiarem zasobów komputer rozumiany jako całość przekształcił się w szereg urządzeń składowych dostarczanych przez wyspecjalizowanych dostawców. Dlatego utrzymanie centrum danych jest już w zasadzie niekończącym się procesem zakupów, instalacji, wymian, modernizacji. Ale – pomijając aspekt organizacyjno–handlowy – łatwo też zauważyć, że wraz z rozwarstwieniem „komputera” ucierpiała jego spójność wewnętrzna i zdolność do komunikacji między warstwami. Mamy więc bardzo szybkie procesory powiązane luźno z ich zasobami danych. Jeszcze kilka lat temu, gdy rozmiar informacyjnego stogu siana do przeszukania był „ogarnialny” nikomu to specjalnie nie przeszkadzało – dziś, gdy w poszukiwaniu iskry geniuszu (światłego lub zabójczego) przekopujemy się przez bezmiar głównie wtórnych informacji, powrót do całościowej wizji komputera staje się kluczem do sukcesu.

Wydarzeniem roku minionego było niewątpliwie ostateczne połączenie Oracle i Sun’a, czego konsekwencje stopniowo przeobrażają cały rynek IT. Zgromadzenie wszystkich w danym wypadku niezbędnych produktów w obrębie jednej oferty jest mile widziane przez klienta, ale nie zmienia jeszcze faktu, że składniki oferty są zbiorem rozwiązań z różnych stajni. Poprzestając na prostym połączeniu ofert, Oracle dołączyłby co najwyżej do grona integratorów – natomiast aktywnie rozwijając technologię sprzętową pod kątem wykorzystania jej nowych możliwości przez oprogramowanie (i vice versa) staje się jednym z unikalnych dostawców kompletnych rozwiązań.

Najbardziej oczywistym i dobrze zaakceptowanym przez rynek produktem, który materializuje tę nową architekturę i nowe całościowe podejście do systemu jest niewątpliwie maszyna bazodanowa, znana jako Oracle Exadata. Na pierwszy rzut oka, to pakiet serwerów z półki spiętych szybką magistralą – w rzeczywistości jest to spójny klaster odpowiedzialny zarówno za przetwarzanie jak i składowanie danych. Można już wprawdzie na rynku dostać podobnie wyglądające pakiety – ale bez przeorganizowania całego systemu z aplikacją włącznie – są to tylko serwery i macierze w jednym racku, gdzie jedyną wartością dodaną są nietypowe śrubki. Cała idea, która legła u podstaw budowy sprzętowego repozytorium danych typu „Exa” oparta była na spostrzeżeniu, że dzisiejszy serwer gromadzi w sobie pełnię „wiedzy i kompetencji” zaś współczesny system pamięci masowej odpowiada na proste zapytania. W takim układzie jedyna dozwolona forma inteligencji macierzy dyskowej sprowadzała się do zdolności zgadywania, jakie będzie następne zapytanie.

W nowej architekturze porównywalny zakres inteligencji wymagany jest zarówno od warstwy obliczeniowej jak i od warstwy składowania. Dzięki temu wszystkie komponenty porozumiewają się nie na poziomie prostych bloków, ale poprzez wymianę informacji i poleceń w formacie aplikacji – w tym wypadku relacyjnej bazy danych. Stąd serwer nadrzędny może podzielić się pracą z serwerem składowania, zaś sam zająć się wypracowaniem wyniku końcowego. Taka organizacja kończy bezrozumne przesyłanie terabajtów danych pomiędzy storage’em a serwerem, zaś dodatkowo, gdy odpowiedź cząstkowa może być zwrócona wprost do pamięci RAM serwera nadrzędnego – system okazuje się nie tylko bardzo wydajny, ale też bardzo szybki.

Repozytoria danych mają to do siebie, że rosną – ale jakich byśmy prognoz nie użyli do określenia możliwości wzrostu, na początku klienta najbardziej interesuje akceptowalny poziom wejścia. Dlatego system marzeń powinien być na starcie możliwie mały i gwarantować możliwie wielki, najlepiej liniowy wzrost. Klasyczne klastry, których magistrale komunikacyjne budowaliśmy w oparciu o ethernet z transportem danych po FC, trapił problem skalowalności – wraz ze wzrostem liczby węzłów klaster stawał się coraz mniej efektywny – dlatego też jedynym wyjściem była migracja do dużych maszyn monolitycznych. W momencie, gdy łączem wewnętrznym stał się InfiniBand, a protokołem transportu danych wewnętrzny protokół aplikacji, zakres skalowalności wzrósł niepomiernie. Obecnie oferowane systemy klasy „Exa” skalują się od 36 rdzeni obliczeniowych i 40 TB powierzchni dyskowej do 512 rdzeni i 2,5 PB dysków. Dodatkowym atutem nowego produktu jest możliwość spięcia go w całość z warstwą aplikacyjną, czyli systemem Oracle Exalogic – dzięki czemu zyskujemy silnie zintegrowany kombajn do składowania, analizy oraz efektywnego transportu i prezentacji wyników finalnych.

Tam gdzie w grę wchodzi informacja, zwłaszcza ta, z którą wiąże się odpowiedzialność prawna, kluczowego znaczenia nabiera ochrona danych na wypadek awarii czy nieuprawnionego dostępu. W tradycyjnych systemach za realizację złożonych serwisów danych (jak tworzenie kopii czy zdalnych replik) odpowiadał system pamięci masowej. Rozwiązanie to było tak samo naturalne – bowiem dane chroniła macierz która je składowała, jak i nieporęczne technicznie – bowiem macierz składowała tylko anonimowe bloki danych, które bez serwera i aplikacji były zupełnie nieużyteczne. Jakiekolwiek tworzenie replik angażowało złożony łańcuch dodatkowych aplikacji, które coś wstrzymywały, coś uruchamiały, coś wymuszały, by tworzona w danym momencie kopia zawierała komplet danych, a nie była wypowiedzą urwaną w pół słowa. Przeniesienie funkcjonalności ochrony danych na poziom, gdzie one powstają i gdzie są zrozumiałe – czyli na poziom aplikacji sprawia, że system się upraszcza oraz staje się bardziej efektywny i elastyczny, a ochrona danych pewniejsza.

Próbując zgadnąć, jak dalej będzie rozwijał się rynek IT możemy pokusić się o stwierdzenie, że będzie rosło zarówno zapotrzebowanie, jak i oferta takich kompletnych kombajnów dostarczanych i wymiennych jako spójne, kompletne bloki. W dawnych czasach, kiedy rósł rynek IT, towarzyszyła nam pasja i wiara, że otwierają się przed nami nowe horyzonty. Dziś chcielibyśmy się skupić raczej na ich podziwianiu, a nie każdy chce być administratorem czy informatykiem. Dlatego systemy informatyczne przechodzą z etapu wiecznie niedokończonych projektów do etapu gotowych klocków. Jednym z takich zagadnień z jakimi mierzą się dzisiejsze firmy, jest analiza dużych repozytoriów danych; dla tych, którzy nie chcą budować wszystkiego od początku, bo dla ich firmy IT jest narzędziem a nie celem, rozwiązaniem będą produkty typu „Oracle Exa”. Dla tych, których produkt i wartość oparte są na globalnej sieci, pozostają produkty standardowe i możliwość łączenia ich za pomocą otwartych standardów i protokołów. Tutaj Oracle także ma sporo do zaoferowania, ale to już całkiem inna historia…

Zbigniew Swoczyna, szef zespołu wsparcia sprzedaży Oracle Hardware w Oracle Polska

BRAK KOMENTARZY

ZOSTAW ODPOWIEDŹ