Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych

37
Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych Paweł Wawrzyniak Warszawa, 23 kwietnia 2015 http://www.nordea.pl/

Transcript of Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych

Kilka mniej oczywistych zagrożeń

dla ciągłości operacyjnej

centrum przetwarzania danych

Paweł Wawrzyniak

Warszawa, 23 kwietnia 2015

http://www.nordea.pl/

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

O Nordea IT Polska sp. z o.o. (NITPL)

Nordea IT Polska sp. z o.o. została powołana do życia przez Nordea Bank AB, by wykorzystując

wiedzę i wieloletnie doświadczenie ekspertów nabyte w Nordea Bank Polska S.A., wspierać Grupę

Nordea w działaniach z obszaru IT

Z sukcesem realizujemy wiele dużych międzynarodowych projektów informatycznych, wspieramy

bank w Polsce, krajach bałtyckich i Skandynawii

Posiadamy 2 nowoczesne CPD, w których prowadzimy działalność m.in. w zakresie kolokacji i

usług powiązanych

Działamy w ramach pięciu departamentów

O Nordea IT Polska sp. z o.o. (NITPL)

Data Centre Services, zespół 6-7 osób:

– Wsparcie dla Nordea Operation Centre w Polsce, Łódź 700 osób (2 lokalizacje)

– Floor Management, Service Management i nadzór nad jakością usługi Primary Data Centre

– Floor Management, Service Management i nadzór nad jakością usługi Disaster Recovery Centre

– Wsparcie projektów (przedsięwzięć) realizowanych w powyższych obszarach odnośnie definicji wymagań,

definicji standardów i zgodności projektów oraz ich wykonania z wymaganiami Nordea AB (w tym projektu

migracji Nordea Bank Polska S.A. do PKO BP S.A)

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

Bezpieczeństwo CPD… Podstawowe założenia

• Bezpieczeństwo CPD musi być zapewnione na kilku warstwach:

• Fizycznej (lokalizacja, otoczenie, budynek, pomieszczenia, itp.)

• Infrastrukturalnej (zasilanie, chłodzenie, wyposażenie, łącza telekomunikacyjne, sieć,

serwery, sprzęt IT, oprogramowanie, itd.)

• Organizacyjnej (polityka; procesy: ITILv3; procedury; standardy: ISO 27001, ISO

27002, ISO 31000; kadry)

Bezpieczeństwo CPD… Podstawowe założenia

Źródło: Protect Data - Data Backup Services

44%

32%

14%

7%

3% Awarie sprzętowe lubsystemów

Błąd ludzki

Uszkodzenieoprogramowania

Wirusy komputerowe

Klęski żywiołowe

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

• Analiza ryzyka

• Dostępność stabilnego zasilania, łączy

telekomunikacyjnych

• Drogi dojazdowe

• Bezpośrednie sąsiedztwo i charakter

prowadzonej tam działalności

• Plan zagospodarowania przestrzennego

• Klęski żywiołowe

• Dodatkowe zalety lub wady otoczenia (lotnisko

vs stadion)

• Pamiętajmy, że cykl życia CPD to zwykle 10

do 20 lat (i więcej)

Warstwa fizyczna Temat 1: Bezpieczna lokalizacja

źródło: http://www.kzgw.gov.pl/

• Zagrożenia:

• Prace ziemnie w bezpośrednim

sąsiedztwie mogą uszkodzić trasy kablowe

łącz telekomunikacyjnych, podziemne

kable zasilające, instalację gazową itp. (z

drugiej strony to samo może wydarzyć się

poza zasięgiem naszego wzroku)

• Prace budowlane z użyciem ciężkiego

sprzętu budowlanego mogą generować

niebezpieczne wstrząsy (np. palowanie)

• Ruch na drodze dojazdowej może się

zwiększyć (dalsze sąsiedztwo) – co może

oznaczać np. wstrząsy, ryzyko związane z

wypadkiem lub przewozem

niebezpiecznych substancji

• W otoczeniu może pojawić się mniej

bezpieczne sąsiedztwo

Warstwa fizyczna Temat 1: Bezpieczna lokalizacja

PDC, 2010-2012

• Standardy korporacyjne dla CPD

• Drugie CPD?

• Przy planowaniu drugiego ośrodka, który ma

być synchronizowany z ośrodkiem

podstawowym w konfiguracji: aktywny <->

aktywny celem zapewnienia ciągłej lub prawie

ciągłej dostępności, przy ograniczeniach

obecnej technologii światłowodowej, zaleca się

dystans 5 do 15 km

• Warto rozważyć posiadanie trzeciego ośrodka

(disaster recovery) w odległości np. ponad 200

km (cold site)

• Tylko zapasowy ośrodek przetwarzania może

nas efektywnie ochronić przed skutkami klęski

żywiołowej

Warstwa fizyczna Temat 1: Bezpieczna lokalizacja

• Pytania:

• Czy przetestowano plany DRP?

• Czy wszystkie warstwy infrastruktury

świadczenia usług przełączą się

automatycznie?

• W jakim czasie nastąpi przełączenie

usług?

• Czy w organizacji mamy „osoby kluczowe”

dla działania danej usługi?

• Krytyczne jest wczesne wykrywanie awarii

(monitoring infrastruktury i usług)

Warstwa fizyczna Temat 1: Bezpieczna lokalizacja

• Pytania:

• Załóżmy brak zasilania na obszarze

województwa przez okres dłuższy niż np.

72h. Czy ktokolwiek dostarczy nam paliwo

do agregatów – pomimo tego, że mamy

kontrakt na dostawę paliwa?

• A jak będzie wyglądała sprawa

dostępności łączy operatorskich? (centrala

operatora na pewno jest podtrzymywana,

ale jak wygląda to w odległych

lokalizacjach?)

• Rozważamy sytuacje klęsk żywiołowych,

wszelkie czarne scenariusze („W”), a czy

nie lepiej być gotowym na niedostępność

CPD z powodu braku… Bieżącej wody,

faktu zastosowania rakotwórczego kleju do

wykładzin na powierzchni biurowej lub

blokady drogi dojazdowej w związku z

wypadkiem?

Warstwa fizyczna Temat 1: Bezpieczna lokalizacja

Primary Data Centre

• Od początku października do początku listopada

2014 roku stwierdzono 18 lotów nad francuskimi

elektrowniami atomowymi lub w ich pobliżu

• Atak dronem? W przypadku celowego ataku

różne warianty, np. rozpoznanie obiektu i

zabezpieczeń technicznych, ciecze wylewane na

wymienniki ciepła, małe ładunki wybuchowe itp.

Niezamierzony atak - utrata kontroli nad dronem,

uszkodzenia obiektu CPD

• Kolega z Zespołu DCS złożył własnego drona w

tydzień. Potrzebne części zakupił przez Internet

• Obecnie eksperci twierdzą, że drony nie są w

stanie przenosić ładunków o odpowiedniej

mocy, aby być zagrożeniem

• A w niedalekiej przyszłości? Czy będziemy

umieszczać takie ryzyko w analizach?

Warstwa fizyczna Temat 2: Bezpieczeństwo fizyczne

© Nevit Dilmen, źródło: Wikipedia

• Wniesienie na ośrodek ładunku wybuchowego,

podsłuchu lub rozpylenie gazu to zdarzenia możliwe

• Procedury ochrony osób i mienia muszą być regularnie

przeglądane i aktualizowane

• Listy osób uprawnionych do dostępu i mogących

autoryzować gości muszą być zawsze aktualne

• Firmy zewnętrzne (np. serwis systemów CPD,

budynkowych lub IT) muszą pracować pod nadzorem

autoryzowanego personelu (ryzyko sabotażu)

• Dokładna kontrola ruchów osobowo-materiałowych

• Największym wrogiem ochrony i najlepszych procedur

jest - rutyna. Warto przeprowadzać okresowe testy

czujności

• Charakter CPD – być może obiekt powinien podlegać

obowiązkowej ochronie i posiadać plan ochrony?

• Audyty bezpieczeństwa są koniecznością

• EPO na stanowisku ochrony – SPOF, z którym

musimy żyć (ryzyko konieczne do zaakceptowania)

Warstwa fizyczna Temat 2: Bezpieczeństwo fizyczne

Primary Data Centre

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

• Budynek może być jednocześnie np.

centralą firmy i CPD – tzw. budynek

mieszanego przeznaczenia

• Decyzja może wynikać z:

• konieczności dostarczenia rozwiązania

tymczasowego

• mylnie rozumianego prestiżu lub wygody

• braku innej możliwości

• Taki budynek może znajdować się w centrum

miasta, co oznacza dodatkowe utrudnienia

(poza łatwym dojazdem dla personelu, służb

miejskich i patroli/grup interwencyjnych

ochrony) – np. działalność sąsiednich firm,

bliskość ulic, torów kolejowych, częste zaniki

zasilania etc.

• Najgorszy scenariusz dla CPD

Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1

„Stare” Primary Data Centre, 2008

Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1

Problem Rozwiązanie

Nakładanie się dwóch różnych standardów bezpieczeństwa

fizycznego osób i mienia, współdzielone systemy

zabezpieczeń technicznych (SKD, SSWiN, CCTV, kamery IP)

Należy wyraźnie określić zasady dostępu do pomieszczeń,

odpowiedzialności, wydać stosowne instrukcję ochronie oraz

personelowi (centrali i CPD), umożliwić przepływ informacji

Nakładanie się i zacieranie odpowiedzialności Za bezpieczeństwo osób i mienia w obiekcie CPD odpowiada

kierownik obiektu. W budynku mieszanego przeznaczenia

jest kierownik obiektu, który nie musi być kierownikiem CPD

– taka sytuacja powinna być wyjaśniona za pomocą

odpowiednich regulacji

Problemy z wykonywaniem napraw po awariach i

przeglądów prewencyjnych

Wzajemna komunikacja o konieczności wykonania

przeglądów lub napraw, które mogą wzajemnie zakłócać

działalność centrali i CPD, o ile to możliwe – komunikacja z

wyprzedzeniem (plan przeglądów), uzyskiwanie zgody

biznesu na prace serwisowe infrastruktury CPD, dobrze

zdefiniowane procesy zarządzania zdarzeniami, incydentami,

problemami i zmianami

Zagrożenie dla ciągłości działania CPD w przypadku

współdzielenia infrastruktury np. zasilania (trafostacja,

agregat, UPS budynkowy)

Możliwie maksymalne odseparowanie infrastruktury

krytycznej CPD od powierzchni biurowych. Trafostacja i

agregat (o odpowiedniej mocy) mogą być współdzielone,

UPS budynkowy musi być osobno dedykowany dla

powierzchni biurowych i odbiorów w CPD

Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1

Problem Rozwiązanie

Możliwy dyskomfort pracowników biura (hałas, transport

urządzeń)

Pomieszczenie UPS i serwerownie powinny zostać

wygłuszone tak, aby nie zakłócać pracy w sąsiednich biurach.

Trasy transportowe powinny być tak wyznaczone, aby nie

blokować korytarzy w przestrzeni biurowej (w miarę

możliwości), ewentualnie dostawy sprzętu po godzinach

pracy biura

Awarie infrastruktury budynkowej mogą wpływać na

obszar CPD (instalacja wodociągowa, kanalizacja)

System BMS w CPD powinien korzystać z czujek zalania,

które zainstalowane powinny być w miejscach potencjalnego

pojawienia się wody (nie tylko przy klimatyzatorach, także

np. pod sufitem)

Ograniczenia infrastruktury budynku biurowego Konieczność wymiany trafostacji, agregatu, wzmocnienia

stropu w pomieszczeniach serwerowni i UPS, instalacja

dodatkowych systemów ppoż. (system gaszenia gazem +

butlownia), duże ilości okablowania w szachtach itp..

„Stare” Primary Data Centre. Komora

• Przestrzeń CPD może być dedykowana

wyłącznie jednemu użytkownikowi

• Brak współdzielonej infrastruktury krytycznej,

systemów zabezpieczenia technicznego,

dedykowana ochrona i własne standardy

bezpieczeństwa fizycznego

• Taki budynek może znajdować się poza

centrum miasta, ale w jego bliskości (łatwy

dojazd dla personelu, służb miejskich,

patroli/grup interwencyjnych ochrony)

• Jest to scenariusz lepszy od budynku

mieszanego przeznaczenia z przestrzenią

współdzieloną

Warstwa infrastrukturalna Temat 4: Charakterystyka budynku. Przestrzeń dedykowana

Disaster Recovery Data Centre. Komora

Warstwa infrastrukturalna Temat 4: Charakterystyka budynku. Przestrzeń dedykowana

Problem Rozwiązanie

Mogą występować ryzyka związane z działalnością

prowadzoną przez sąsiadów

Należy upewnić się i zagwarantować sobie (poprzez

porozumienie z Administratorem Budynku), że w budynku

nie będzie prowadzona działalność, która może nieść

zagrożenie dla CPD (np. hurtownia farb i lakierów,

gotówkowa placówka bankowa)

Awarie infrastruktury budynkowej mogą wpływać na

obszar CPD (instalacja wodociągowa, kanalizacja)

System BMS w CPD powinien korzystać z czujek zalania,

które zainstalowane powinny być w miejscach potencjalnego

pojawienia się wody (nie tylko przy klimatyzatorach, także

np. pod sufitem)

Disaster Recovery Data Centre – komora i MDF

• CPD zaprojektowane i zbudowane od

podstaw

• Lokalizacja poza centrum miasta, ale

umożliwiająca łatwy dojazd dla personelu służb

miejskich, patroli/grup interwencyjnych ochrony

• Brak ograniczeń strukturalnych i

infrastrukturalnych istniejących budynku

(projekt uwzględniający wszystkie potrzeby

CPD)

• Ułatwione zarządzanie obszarem

bezpieczeństwa fizycznego osób i mienia

• Ułatwione zarządzanie dostawami i usuwaniem

sprzętu, przeglądami i naprawami po awariach

• Szansa na zapewnienie bardzo wysokiego

poziomu bezpieczeństwa w warstwie fizycznej,

infrastrukturalnej i organizacyjnej

Warstwa infrastrukturalna Temat 5: Charakterystyka budynku. Dedykowany obiekt

Primary Data Centre. Komora AST

Warstwa infrastrukturalna Temat 5: Charakterystyka budynku. Dedykowany obiekt

Primary Data Centre. Wewnątrz komory AST

• Korozja urządzeń IT w serwerowni o kontrolowanych warunkach środowiskowych jest możliwa!

• Miejscowe i ciągłe pomiary temperatury oraz wilgotności (BMS) nie dadzą nam 100% pewności,

że sytuacja korozji nie wystąpi (np. pomiar w 3 miejscach zimnego korytarza na wysokości 2/3

szaf IT)

• Tego typu pomiary pozwalają, co najwyżej, udowodnić, że w obrębie komory serwerowni

spełnione są parametry określone w SLA odnośnie oczekiwanej temperatury i wilgotności

Warstwa infrastrukturalna Temat 6: Monitoring środowiska

• Dobrą praktyką są okresowe pomiary przy

użyciu kamery termowizyjnej, dokonywane w

różnych miejscach komory, nieobjętych

bezpośrednio pomiarem temperatury i

wilgotności – np. na wlocie zimnego powietrza

do urządzeń wolnostojących

• Zdalny monitoring nie jest panaceum na

wszelkie dolegliwości – nic nie zastępuje

regularnych wizualnych inspekcji

• Konieczne jest rozwiązanie problemu poprzez

zmniejszenie wilgotności i zwiększenie

temperatury nawiewu

Warstwa infrastrukturalna Temat 6: Monitoring środowiska

źródło: http://dpcalc.org/

• Nie ma szczurów, bo są myszy. A szczury

jedzą myszy, więc gdyby były szczury, to by

nie było myszy – cytat z życia!

• Gryzonie uwielbiają izolacje kabli, a także

światłowody

• Ilość zakamarków CPD komplikuje

zidentyfikowanie obecności intruzów

• Znalezienie przegryzionego światłowodu może

nie być łatwe

• Na tak specyficzne zagrożenie także trzeba być

gotowym

Warstwa infrastrukturalna Temat 7: Atak gryzoni!

źródło: Internet

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

• Zarządzanie zmianą – musi być dobrze

udokumentowane i zaimplementowane

(ANSI/TIA-942)

• Zarządzanie konfiguracją – aktualna

dokumentacja

• Zarządzanie pojemnością – kontrola i

planowanie zużycia zasobów

• Zarządzanie zdarzeniami, incydentami,

problemami

• Procedura dostawy i instalacji (z testami i

weryfikacją poprawności)

• Procedura wizualnych inspekcji i badań kamerą

termowizyjną

• Procedura usuwania sprzętu

Warstwa organizacyjna Temat 8: Najważniejsze procesy

• Urządzenie nieprawidłowo podłączone do

dwutorowego systemu zasilania

• Dodatkowo, wizualna inspekcja pozwalała

potwierdzić, że zasilanie doprowadzone jest z

dwóch torów

• Konfiguracja nie jest jednak zgodna z

wymaganiami producenta, które określono w

dokumentacji instalatora

• Dziurawa procedura dostawy i instalacji sprzętu

– nie uwzględniono konieczności wykonania

testu, który pozwoliłby ustalić, że zasilanie

rozprowadzone jest do modułów urządzenia w

sposób zapewniający utrzymanie ciągłości

działania

• Brak testu może sprawić, że źle podłączone

urządzenie pozostanie niewykryte przez wiele

miesięcy

• Utrata zasilania na jednym torze oznacza

całkowite wyłączenie urządzenia… Zasilanego

dwutorowo, ale niewłaściwie

Warstwa organizacyjna Temat 9: Brak weryfikacji poprawności instalacji urządzenia

Nieprawidłowo rozprowadzone

zasilanie

• Tego typu awarii można uniknąć – należy

posiadać procedurę dostawy i instalacji

sprzętu, która wymaga testu i sprawdzenia

poprawności konfiguracji (część procesu

Zarządzania zmianą)

• Wymagania instalacyjne powinny być

konfrontowane z dokumentacją producenta

• Dokumentacja konfiguracji serwerowni powinna

być aktualizowana od razu po instalacji

• Autoryzowany personel powinien bezpośrednio

nadzorować firmy zewnętrzne, odpowiedzialne

za instalację urządzeń

• Tego typu błędy można naprawić wyłącznie w

czasie bezpiecznego okna serwisowego –

wyłączenie urządzenia może nie być możliwe

(sic!). Wówczas konieczne jest posiłkowanie

się dodatkowym źródłem (tymczasowym)

zasilania

Warstwa organizacyjna Temat 9: Brak weryfikacji poprawności instalacji urządzenia

Prawidłowo rozprowadzone

zasilanie

• Montaż tzw. „nieprodukcyjnego” urządzenia bez

przejścia procesu zarządzania zmianą (CR-a) –

sam CR nie zagwarantuje ciągłości

operacyjnej, ale…

• Dla CPD nie ma rozróżnienia na sprzęt

produkcyjny i nieprodukcyjny.

• Każda instalacja niesie za sobą ryzyko, każdy

sprzęt konsumujący zasoby staje się

produkcyjny, ma wpływ na zarządzanie

konfiguracją i pojemnością, może stać się

przyczyną incydentu (staje się częścią żywej

infrastruktury)

• Oby infrastruktura nie zaczęła żyć własnym

życiem!

Warstwa organizacyjna Temat 10: Zmiany produkcyjne i „nieprodukcyjne”

Okablowanie a’la spaghetti

źródło: Internet

• Instalacja urządzenia w szafie, która jest na

granicy zapasu mocy. W najbardziej

korzystnym scenariuszu może oznaczać to

zadziałanie zabezpieczenia w listwie PDU dla

kilku gniazd (1 pole), zasilanych z jednego toru.

W najgorszym wariancie wyłączeniu ulegną

urządzenia w całej szafie. Jeżeli istnieje

problem z selektywnością zabezpieczeń, to

wpływ może być jeszcze większy (cała

serwerownia?) – przy przeciążeniu lub zwarciu

• Nierównomierne obciążenie torów zasilania –

błahe, ale wciąż popularne. Ma negatywny

wpływ na zarządzanie pojemnością

• Mnożenie urządzeń jednozasilaczowych, które

stają się „krytyczne” i zabezpieczanie ich coraz

większą ilością STS-ów. Dodatkowo,

komplikuje proces zarządzania pojemnością

Warstwa organizacyjna Temat 11: Inne wciąż popularne błędy

Problem z selektywnością

zabezpieczeń. Przykładowy wpływ

awarii (zwarcie) lub przeciążenia

zasilacza

• Zaniki zasilania to zwykle serie – często mają związek ze złymi warunkami atmosferycznymi

• Przy zanikach częstszych niż 3 na godzinę, układ automatyki klimatyzacji zostaje zablokowany,

sprężarki chillerów przestają pracować (jest to mechanizm ochronny) - konieczny jest fizyczny restart

sterownika (na dachu?)

• W serwerowni zaczyna rosnąć temperatura

• Najlepiej wyciągnąć sygnał do pomieszczenia kontroli i nadzoru CPD (BMS)

• Uruchomienie agregatu na okres 1h po pierwszym zaniku zasilania lub praca do zatrzymania

• Każde przełączenie źródła zasilania przez SZR to dodatkowe ryzyko

• Problem z restartem sterownika klimatyzacji lub startem agregatu – w czasie burzy z piorunami?

• Tier I i Tier II – szczególne ryzyko

• SMS?

• Obsługa 24/7 (Tier III, Tier IV)

Warstwa organizacyjna Temat 12: Procesy, procedury a rzeczywistość

• O Nordea IT Polska sp. z o.o. (NITPL)

• Bezpieczeństwo CPD...

• Warstwa fizyczna

• Warstwa infrastrukturalna

• Warstwa organizacyjna

• Podsumowanie

Podsumowanie

• Obowiązuje reguła najsłabszego ogniwa

• Wszystkie warstwy infrastruktury są ze sobą powiązane

• Testy integracyjne i obciążeniowe przed uruchomieniem

• Regularne audyty i oceny ryzyka

• Aktualna dokumentacja

• Zdefiniowane, udokumentowane i wdrożone procesy

• Zdefiniowane i ciągle aktualizowane procedury

• Gotowość do ciągłych zmian

• Optymizm w stosunku do wyzwań codzienności

Podsumowanie

W prezentacji wykorzystano pomysły i spostrzeżenia członków Zespołu DCS

Nordea IT Polska sp. z o.o.:

Zenon Ruta, Sebastian Jary, Filip Jeziorski, Piotr Trzciński, Krzysztof Kęsicki,

Bartosz Kwiatek, Paweł Wawrzyniak

Dziękuję