Jak wyeliminować przestoje w centrum danych

12 marca 2018

Termin wysoka dostępność w centrum danych odnosi się do systemów, które mogą pracować nieprzerwanie przez długi czas. Z reguły oznacza to, że zostały one przetestowane, są regularnie serwisowane i wyposażone w redundantne komponenty, które zapewniają ciągłość działania.

Są dwie kwestie, które zaprzątają uwagę osób odpowiedzialnych ze centrum danych. Pierwsza to zapewnienie niezawodnego zasilania. Nieprzerwane dostawy energii to absolutna podstawa nieprzerwanego działania systemów IT. Druga kwestia to ustalenie, jaki poziom redundancji jest potrzebny, żeby osiągnąć wysoką dostępność.

Przestoje mogą być spowodowane szeregiem czynników: przerwą w zasilaniu, awarią sprzętu, katastrofą naturalną, błędem człowieka czy pożarem. Ich skutkiem jest utrata przychodów i klientów, czy spadek produktywności. Celem osób odpowiedzialnych za centra danych jest więc zapewnienie ciągłości działania niezależnie od okoliczności. O niezawodności serwerowni decyduje wiele czynników, które można podzielić na trzy grupy: ludzie, procesy i wyposażenie.

Menedżerowie centrów danych stosują szereg środków zmniejszających prawdopodobieństwo wystąpienia przestojów. Zatrudniają wykwalifikowanych specjalistów i opracowują niezbędne procedury. Ponadto dbają o to, aby infrastruktura centrum danych była zbudowana z zachowaniem redundancji i niezawodności w takich obszarach, jak zasilanie, łączność sieciowa, zaawansowane systemy monitoringu, zasilanie awaryjne oraz czujniki wilgoci i ognia.

Jednym ze sposobów zwiększania poziomu dostępności jest korzystanie z lokalizacji zapasowej, która w razie potrzeby przejmuje rolę podstawowego ośrodka. W przypadku awarii (niedostępności) systemów IT w podstawowym centrum danych, następuje przełączenie do lokalizacji zapasowej, która może przejmować funkcje operacyjne również w przypadku planowanych prac konserwacyjnych. Techniki przełączania awaryjnego sprawiają, że systemy stają się odporne na błędy i znacznie poprawia się poziom dostępności. Co istotne, procedura przełączenia powinna odbywać się płynnie, w sposób nieodczuwalny dla użytkowników.

Oprócz wdrożenia komponentów uodparniających na błędy, o wysoki poziom dostępności należy zadbać już na etapie projektu. Wszystkie komponenty centrum danych powinny być ocenione pod kątem niezawodności, zaczynając od zrozumienia, jakie metryki są istotne dla poszczególnych komponentów. Przede wszystkim trzeba sprawdzić ograniczenia wydajności i pojemności oraz oczekiwaną żywotność (te parametry podają producenci).

Redundantne systemy i komponenty
Redundancja pomaga wyeliminować pojedyncze punkty awarii w obrębie infrastruktury IT. Jednak w każdym przypadku trzeba sobie odpowiedzieć, jaki poziom redundancji jest odpowiedni dla danej firmy. Potrzebna jest więc szczegółowa ocena wymagań, żeby redundancja nie była zbyt mała (nieakceptowalny poziom wystąpienia awarii) ani zbyt wysoka (nadmierne koszty).

Z pewnością wprowadzenie redundancji do centrum danych jest bardzo ważne z punktu widzenia wysokiej dostępności. Jednak wdrożenie stuprocentowej redundancji oznacza bardzo wysokie koszty kapitałowe i operacyjne (np. redundancja zasilania oznacza większe wydatki na energię). Co więcej, nie zawsze wyższy poziom dostępności oznacza poprawę niezawodności. Chociaż to twierdzenie jest sprzeczne z intuicją, zwiększenie redundancji komponentów prowadzi do powstania bardziej skomplikowanej infrastruktury. Większa złożoność przekłada się na większe wyzwania związane z zarządzaniem infrastrukturą. Dlatego istotne jest stosowanie redundancji na odpowiednim poziomie.

Zasilanie awaryjne
Rozwiązania zapasowe obejmują, m.in. właściwą konfigurację generatorów oraz zasilaczy awaryjnych (UPS, Uninterruptible Power Supply). W przypadku generatorów każde urządzenie może zostać zaprogramowane tak, aby uruchamiać się automatycznie w przypadku utraty zewnętrznego zasilania. Tak długo, jak wystarczy paliwa, generator będzie dostarczać energię do centrum danych, oczekując na przywrócenie zewnętrznego źródła prądu. W momencie przywrócenia regularnego zasilania generator zatrzyma się. Przełączenie między źródłami zasilania odbywa się płynnie, jeśli jest skonfigurowane prawidłowo. Największą niezawodność zapewni rozwiązanie obejmujące podstawowe generatory zasilania oraz generatory zapasowe, gdyby któreś z urządzeń nie zadziałało.

Redundancja powinna być wbudowana również w systemy UPS. Jeśli któryś z zasilaczy awaryjnych zepsuje się, nie powinno to mieć wpływu na całe rozwiązania. Zarówno generatory jak i UPS’y powinny być skonfigurowane tak, żeby przełączenie zasilania mogło odbywać się automatycznie lub ręcznie. Automatyczne przełączanie jest niezbędne ze względu na ochronę przed niespodziewanymi przerwami w dostawach zasilania. Natomiast ręczne przełączenia przydaje się w przypadku planowanych prac konserwacyjnych czy testów wyposażenia centrum danych, żeby takie zdarzenia nie powodowały przerw w normalnym funkcjonowaniu systemów IT.

Systemy monitoringu i wykrywania
Do publicznej wiadomości przedostaje się dużo informacji o cyberatakach, ale czynniki środowiskowe mogą mieć równie niszczycielski wpływ na sprzęt IT i centra danych. Aby zminimalizować szansę wystąpienia przestojów, w serwerowni muszą być zainstalowane systemy wykrywania zagrożeń, których zadaniem jest ostrzeganie o problemach, zanim dojdzie do niekorzystnych zdarzeń.

Systemy monitoringu i wykrywania mogą śledzić następujące czynniki środowiskowe:

temperaturę: czujniki mierzą ciepło wytwarzane przez sprzęt, jak również temperaturę na wlotach i wylotach powietrza;
wilgotność: celem tych czujników jest zapobieganie korozji spowodowanej zbyt wysoką wilgocią oraz występowaniu wyładowań statycznych, które pojawiają się przy zbyt suchym powietrzu; mogą również służyć wykrywaniu wycieków, jeśli w serwerowni stosuje się chłodzenie cieczą;
przepływ powietrz: sensory sprawdzają, czy powietrze odpowiednio przepływa przez szafy stelażowe oraz z i do systemów chłodzenia;
napięcie: czujniki wykrywają brak zasilania;
moc: systemy monitoringu mierzą na bieżąco moc zasilania dostarczanego do centrum danych i są wstanie wykryć, jeśli wystąpi awaria energetyczna;
dym: oprócz alarmowania pracowników centrum danych o pojawieniu się ognia, te czujniki mogą również przesyłać alerty bezpośrednio do jednostek straży pożarnej.

Jak wyeliminować przestoje w centrum danych

BRAK KOMENTARZY

ZOSTAW ODPOWIEDŹ Anuluj odpowiedź

POWIĄZANE ARTYKUŁYWIĘCEJ OD AUTORA

41% ruchu w polskim Internecie pochodzi spoza Polski

Unified Communication – to już było. Jaka może być przyszłość komunikacji biznesowej

Rola systemów UC w cyfrowej transformacji

BRAK KOMENTARZY

ZOSTAW ODPOWIEDŹ Anuluj odpowiedź

POWIĄZANE ARTYKUŁY WIĘCEJ OD AUTORA