Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych
-
Upload
pawel-wawrzyniak -
Category
Technology
-
view
506 -
download
1
Transcript of Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych
Kilka mniej oczywistych zagrożeń
dla ciągłości operacyjnej
centrum przetwarzania danych
Paweł Wawrzyniak
Warszawa, 23 kwietnia 2015
http://www.nordea.pl/
• O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
O Nordea IT Polska sp. z o.o. (NITPL)
Nordea IT Polska sp. z o.o. została powołana do życia przez Nordea Bank AB, by wykorzystując
wiedzę i wieloletnie doświadczenie ekspertów nabyte w Nordea Bank Polska S.A., wspierać Grupę
Nordea w działaniach z obszaru IT
Z sukcesem realizujemy wiele dużych międzynarodowych projektów informatycznych, wspieramy
bank w Polsce, krajach bałtyckich i Skandynawii
Posiadamy 2 nowoczesne CPD, w których prowadzimy działalność m.in. w zakresie kolokacji i
usług powiązanych
Działamy w ramach pięciu departamentów
O Nordea IT Polska sp. z o.o. (NITPL)
Data Centre Services, zespół 6-7 osób:
– Wsparcie dla Nordea Operation Centre w Polsce, Łódź 700 osób (2 lokalizacje)
– Floor Management, Service Management i nadzór nad jakością usługi Primary Data Centre
– Floor Management, Service Management i nadzór nad jakością usługi Disaster Recovery Centre
– Wsparcie projektów (przedsięwzięć) realizowanych w powyższych obszarach odnośnie definicji wymagań,
definicji standardów i zgodności projektów oraz ich wykonania z wymaganiami Nordea AB (w tym projektu
migracji Nordea Bank Polska S.A. do PKO BP S.A)
• O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
Bezpieczeństwo CPD… Podstawowe założenia
• Bezpieczeństwo CPD musi być zapewnione na kilku warstwach:
• Fizycznej (lokalizacja, otoczenie, budynek, pomieszczenia, itp.)
• Infrastrukturalnej (zasilanie, chłodzenie, wyposażenie, łącza telekomunikacyjne, sieć,
serwery, sprzęt IT, oprogramowanie, itd.)
• Organizacyjnej (polityka; procesy: ITILv3; procedury; standardy: ISO 27001, ISO
27002, ISO 31000; kadry)
Bezpieczeństwo CPD… Podstawowe założenia
Źródło: Protect Data - Data Backup Services
44%
32%
14%
7%
3% Awarie sprzętowe lubsystemów
Błąd ludzki
Uszkodzenieoprogramowania
Wirusy komputerowe
Klęski żywiołowe
• O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
• Analiza ryzyka
• Dostępność stabilnego zasilania, łączy
telekomunikacyjnych
• Drogi dojazdowe
• Bezpośrednie sąsiedztwo i charakter
prowadzonej tam działalności
• Plan zagospodarowania przestrzennego
• Klęski żywiołowe
• Dodatkowe zalety lub wady otoczenia (lotnisko
vs stadion)
• Pamiętajmy, że cykl życia CPD to zwykle 10
do 20 lat (i więcej)
Warstwa fizyczna Temat 1: Bezpieczna lokalizacja
źródło: http://www.kzgw.gov.pl/
• Zagrożenia:
• Prace ziemnie w bezpośrednim
sąsiedztwie mogą uszkodzić trasy kablowe
łącz telekomunikacyjnych, podziemne
kable zasilające, instalację gazową itp. (z
drugiej strony to samo może wydarzyć się
poza zasięgiem naszego wzroku)
• Prace budowlane z użyciem ciężkiego
sprzętu budowlanego mogą generować
niebezpieczne wstrząsy (np. palowanie)
• Ruch na drodze dojazdowej może się
zwiększyć (dalsze sąsiedztwo) – co może
oznaczać np. wstrząsy, ryzyko związane z
wypadkiem lub przewozem
niebezpiecznych substancji
• W otoczeniu może pojawić się mniej
bezpieczne sąsiedztwo
Warstwa fizyczna Temat 1: Bezpieczna lokalizacja
PDC, 2010-2012
• Standardy korporacyjne dla CPD
• Drugie CPD?
• Przy planowaniu drugiego ośrodka, który ma
być synchronizowany z ośrodkiem
podstawowym w konfiguracji: aktywny <->
aktywny celem zapewnienia ciągłej lub prawie
ciągłej dostępności, przy ograniczeniach
obecnej technologii światłowodowej, zaleca się
dystans 5 do 15 km
• Warto rozważyć posiadanie trzeciego ośrodka
(disaster recovery) w odległości np. ponad 200
km (cold site)
• Tylko zapasowy ośrodek przetwarzania może
nas efektywnie ochronić przed skutkami klęski
żywiołowej
Warstwa fizyczna Temat 1: Bezpieczna lokalizacja
• Pytania:
• Czy przetestowano plany DRP?
• Czy wszystkie warstwy infrastruktury
świadczenia usług przełączą się
automatycznie?
• W jakim czasie nastąpi przełączenie
usług?
• Czy w organizacji mamy „osoby kluczowe”
dla działania danej usługi?
• Krytyczne jest wczesne wykrywanie awarii
(monitoring infrastruktury i usług)
Warstwa fizyczna Temat 1: Bezpieczna lokalizacja
• Pytania:
• Załóżmy brak zasilania na obszarze
województwa przez okres dłuższy niż np.
72h. Czy ktokolwiek dostarczy nam paliwo
do agregatów – pomimo tego, że mamy
kontrakt na dostawę paliwa?
• A jak będzie wyglądała sprawa
dostępności łączy operatorskich? (centrala
operatora na pewno jest podtrzymywana,
ale jak wygląda to w odległych
lokalizacjach?)
• Rozważamy sytuacje klęsk żywiołowych,
wszelkie czarne scenariusze („W”), a czy
nie lepiej być gotowym na niedostępność
CPD z powodu braku… Bieżącej wody,
faktu zastosowania rakotwórczego kleju do
wykładzin na powierzchni biurowej lub
blokady drogi dojazdowej w związku z
wypadkiem?
Warstwa fizyczna Temat 1: Bezpieczna lokalizacja
Primary Data Centre
• Od początku października do początku listopada
2014 roku stwierdzono 18 lotów nad francuskimi
elektrowniami atomowymi lub w ich pobliżu
• Atak dronem? W przypadku celowego ataku
różne warianty, np. rozpoznanie obiektu i
zabezpieczeń technicznych, ciecze wylewane na
wymienniki ciepła, małe ładunki wybuchowe itp.
Niezamierzony atak - utrata kontroli nad dronem,
uszkodzenia obiektu CPD
• Kolega z Zespołu DCS złożył własnego drona w
tydzień. Potrzebne części zakupił przez Internet
• Obecnie eksperci twierdzą, że drony nie są w
stanie przenosić ładunków o odpowiedniej
mocy, aby być zagrożeniem
• A w niedalekiej przyszłości? Czy będziemy
umieszczać takie ryzyko w analizach?
Warstwa fizyczna Temat 2: Bezpieczeństwo fizyczne
© Nevit Dilmen, źródło: Wikipedia
• Wniesienie na ośrodek ładunku wybuchowego,
podsłuchu lub rozpylenie gazu to zdarzenia możliwe
• Procedury ochrony osób i mienia muszą być regularnie
przeglądane i aktualizowane
• Listy osób uprawnionych do dostępu i mogących
autoryzować gości muszą być zawsze aktualne
• Firmy zewnętrzne (np. serwis systemów CPD,
budynkowych lub IT) muszą pracować pod nadzorem
autoryzowanego personelu (ryzyko sabotażu)
• Dokładna kontrola ruchów osobowo-materiałowych
• Największym wrogiem ochrony i najlepszych procedur
jest - rutyna. Warto przeprowadzać okresowe testy
czujności
• Charakter CPD – być może obiekt powinien podlegać
obowiązkowej ochronie i posiadać plan ochrony?
• Audyty bezpieczeństwa są koniecznością
• EPO na stanowisku ochrony – SPOF, z którym
musimy żyć (ryzyko konieczne do zaakceptowania)
Warstwa fizyczna Temat 2: Bezpieczeństwo fizyczne
Primary Data Centre
• O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
• Budynek może być jednocześnie np.
centralą firmy i CPD – tzw. budynek
mieszanego przeznaczenia
• Decyzja może wynikać z:
• konieczności dostarczenia rozwiązania
tymczasowego
• mylnie rozumianego prestiżu lub wygody
• braku innej możliwości
• Taki budynek może znajdować się w centrum
miasta, co oznacza dodatkowe utrudnienia
(poza łatwym dojazdem dla personelu, służb
miejskich i patroli/grup interwencyjnych
ochrony) – np. działalność sąsiednich firm,
bliskość ulic, torów kolejowych, częste zaniki
zasilania etc.
• Najgorszy scenariusz dla CPD
Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1
„Stare” Primary Data Centre, 2008
Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1
Problem Rozwiązanie
Nakładanie się dwóch różnych standardów bezpieczeństwa
fizycznego osób i mienia, współdzielone systemy
zabezpieczeń technicznych (SKD, SSWiN, CCTV, kamery IP)
Należy wyraźnie określić zasady dostępu do pomieszczeń,
odpowiedzialności, wydać stosowne instrukcję ochronie oraz
personelowi (centrali i CPD), umożliwić przepływ informacji
Nakładanie się i zacieranie odpowiedzialności Za bezpieczeństwo osób i mienia w obiekcie CPD odpowiada
kierownik obiektu. W budynku mieszanego przeznaczenia
jest kierownik obiektu, który nie musi być kierownikiem CPD
– taka sytuacja powinna być wyjaśniona za pomocą
odpowiednich regulacji
Problemy z wykonywaniem napraw po awariach i
przeglądów prewencyjnych
Wzajemna komunikacja o konieczności wykonania
przeglądów lub napraw, które mogą wzajemnie zakłócać
działalność centrali i CPD, o ile to możliwe – komunikacja z
wyprzedzeniem (plan przeglądów), uzyskiwanie zgody
biznesu na prace serwisowe infrastruktury CPD, dobrze
zdefiniowane procesy zarządzania zdarzeniami, incydentami,
problemami i zmianami
Zagrożenie dla ciągłości działania CPD w przypadku
współdzielenia infrastruktury np. zasilania (trafostacja,
agregat, UPS budynkowy)
Możliwie maksymalne odseparowanie infrastruktury
krytycznej CPD od powierzchni biurowych. Trafostacja i
agregat (o odpowiedniej mocy) mogą być współdzielone,
UPS budynkowy musi być osobno dedykowany dla
powierzchni biurowych i odbiorów w CPD
Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1
Problem Rozwiązanie
Możliwy dyskomfort pracowników biura (hałas, transport
urządzeń)
Pomieszczenie UPS i serwerownie powinny zostać
wygłuszone tak, aby nie zakłócać pracy w sąsiednich biurach.
Trasy transportowe powinny być tak wyznaczone, aby nie
blokować korytarzy w przestrzeni biurowej (w miarę
możliwości), ewentualnie dostawy sprzętu po godzinach
pracy biura
Awarie infrastruktury budynkowej mogą wpływać na
obszar CPD (instalacja wodociągowa, kanalizacja)
System BMS w CPD powinien korzystać z czujek zalania,
które zainstalowane powinny być w miejscach potencjalnego
pojawienia się wody (nie tylko przy klimatyzatorach, także
np. pod sufitem)
Ograniczenia infrastruktury budynku biurowego Konieczność wymiany trafostacji, agregatu, wzmocnienia
stropu w pomieszczeniach serwerowni i UPS, instalacja
dodatkowych systemów ppoż. (system gaszenia gazem +
butlownia), duże ilości okablowania w szachtach itp..
„Stare” Primary Data Centre. Komora
• Przestrzeń CPD może być dedykowana
wyłącznie jednemu użytkownikowi
• Brak współdzielonej infrastruktury krytycznej,
systemów zabezpieczenia technicznego,
dedykowana ochrona i własne standardy
bezpieczeństwa fizycznego
• Taki budynek może znajdować się poza
centrum miasta, ale w jego bliskości (łatwy
dojazd dla personelu, służb miejskich,
patroli/grup interwencyjnych ochrony)
• Jest to scenariusz lepszy od budynku
mieszanego przeznaczenia z przestrzenią
współdzieloną
Warstwa infrastrukturalna Temat 4: Charakterystyka budynku. Przestrzeń dedykowana
Disaster Recovery Data Centre. Komora
Warstwa infrastrukturalna Temat 4: Charakterystyka budynku. Przestrzeń dedykowana
Problem Rozwiązanie
Mogą występować ryzyka związane z działalnością
prowadzoną przez sąsiadów
Należy upewnić się i zagwarantować sobie (poprzez
porozumienie z Administratorem Budynku), że w budynku
nie będzie prowadzona działalność, która może nieść
zagrożenie dla CPD (np. hurtownia farb i lakierów,
gotówkowa placówka bankowa)
Awarie infrastruktury budynkowej mogą wpływać na
obszar CPD (instalacja wodociągowa, kanalizacja)
System BMS w CPD powinien korzystać z czujek zalania,
które zainstalowane powinny być w miejscach potencjalnego
pojawienia się wody (nie tylko przy klimatyzatorach, także
np. pod sufitem)
Disaster Recovery Data Centre – komora i MDF
• CPD zaprojektowane i zbudowane od
podstaw
• Lokalizacja poza centrum miasta, ale
umożliwiająca łatwy dojazd dla personelu służb
miejskich, patroli/grup interwencyjnych ochrony
• Brak ograniczeń strukturalnych i
infrastrukturalnych istniejących budynku
(projekt uwzględniający wszystkie potrzeby
CPD)
• Ułatwione zarządzanie obszarem
bezpieczeństwa fizycznego osób i mienia
• Ułatwione zarządzanie dostawami i usuwaniem
sprzętu, przeglądami i naprawami po awariach
• Szansa na zapewnienie bardzo wysokiego
poziomu bezpieczeństwa w warstwie fizycznej,
infrastrukturalnej i organizacyjnej
Warstwa infrastrukturalna Temat 5: Charakterystyka budynku. Dedykowany obiekt
Primary Data Centre. Komora AST
Warstwa infrastrukturalna Temat 5: Charakterystyka budynku. Dedykowany obiekt
Primary Data Centre. Wewnątrz komory AST
• Korozja urządzeń IT w serwerowni o kontrolowanych warunkach środowiskowych jest możliwa!
• Miejscowe i ciągłe pomiary temperatury oraz wilgotności (BMS) nie dadzą nam 100% pewności,
że sytuacja korozji nie wystąpi (np. pomiar w 3 miejscach zimnego korytarza na wysokości 2/3
szaf IT)
• Tego typu pomiary pozwalają, co najwyżej, udowodnić, że w obrębie komory serwerowni
spełnione są parametry określone w SLA odnośnie oczekiwanej temperatury i wilgotności
Warstwa infrastrukturalna Temat 6: Monitoring środowiska
• Dobrą praktyką są okresowe pomiary przy
użyciu kamery termowizyjnej, dokonywane w
różnych miejscach komory, nieobjętych
bezpośrednio pomiarem temperatury i
wilgotności – np. na wlocie zimnego powietrza
do urządzeń wolnostojących
• Zdalny monitoring nie jest panaceum na
wszelkie dolegliwości – nic nie zastępuje
regularnych wizualnych inspekcji
• Konieczne jest rozwiązanie problemu poprzez
zmniejszenie wilgotności i zwiększenie
temperatury nawiewu
Warstwa infrastrukturalna Temat 6: Monitoring środowiska
źródło: http://dpcalc.org/
• Nie ma szczurów, bo są myszy. A szczury
jedzą myszy, więc gdyby były szczury, to by
nie było myszy – cytat z życia!
• Gryzonie uwielbiają izolacje kabli, a także
światłowody
• Ilość zakamarków CPD komplikuje
zidentyfikowanie obecności intruzów
• Znalezienie przegryzionego światłowodu może
nie być łatwe
• Na tak specyficzne zagrożenie także trzeba być
gotowym
Warstwa infrastrukturalna Temat 7: Atak gryzoni!
źródło: Internet
• O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
• Zarządzanie zmianą – musi być dobrze
udokumentowane i zaimplementowane
(ANSI/TIA-942)
• Zarządzanie konfiguracją – aktualna
dokumentacja
• Zarządzanie pojemnością – kontrola i
planowanie zużycia zasobów
• Zarządzanie zdarzeniami, incydentami,
problemami
• Procedura dostawy i instalacji (z testami i
weryfikacją poprawności)
• Procedura wizualnych inspekcji i badań kamerą
termowizyjną
• Procedura usuwania sprzętu
Warstwa organizacyjna Temat 8: Najważniejsze procesy
• Urządzenie nieprawidłowo podłączone do
dwutorowego systemu zasilania
• Dodatkowo, wizualna inspekcja pozwalała
potwierdzić, że zasilanie doprowadzone jest z
dwóch torów
• Konfiguracja nie jest jednak zgodna z
wymaganiami producenta, które określono w
dokumentacji instalatora
• Dziurawa procedura dostawy i instalacji sprzętu
– nie uwzględniono konieczności wykonania
testu, który pozwoliłby ustalić, że zasilanie
rozprowadzone jest do modułów urządzenia w
sposób zapewniający utrzymanie ciągłości
działania
• Brak testu może sprawić, że źle podłączone
urządzenie pozostanie niewykryte przez wiele
miesięcy
• Utrata zasilania na jednym torze oznacza
całkowite wyłączenie urządzenia… Zasilanego
dwutorowo, ale niewłaściwie
Warstwa organizacyjna Temat 9: Brak weryfikacji poprawności instalacji urządzenia
Nieprawidłowo rozprowadzone
zasilanie
• Tego typu awarii można uniknąć – należy
posiadać procedurę dostawy i instalacji
sprzętu, która wymaga testu i sprawdzenia
poprawności konfiguracji (część procesu
Zarządzania zmianą)
• Wymagania instalacyjne powinny być
konfrontowane z dokumentacją producenta
• Dokumentacja konfiguracji serwerowni powinna
być aktualizowana od razu po instalacji
• Autoryzowany personel powinien bezpośrednio
nadzorować firmy zewnętrzne, odpowiedzialne
za instalację urządzeń
• Tego typu błędy można naprawić wyłącznie w
czasie bezpiecznego okna serwisowego –
wyłączenie urządzenia może nie być możliwe
(sic!). Wówczas konieczne jest posiłkowanie
się dodatkowym źródłem (tymczasowym)
zasilania
Warstwa organizacyjna Temat 9: Brak weryfikacji poprawności instalacji urządzenia
Prawidłowo rozprowadzone
zasilanie
• Montaż tzw. „nieprodukcyjnego” urządzenia bez
przejścia procesu zarządzania zmianą (CR-a) –
sam CR nie zagwarantuje ciągłości
operacyjnej, ale…
• Dla CPD nie ma rozróżnienia na sprzęt
produkcyjny i nieprodukcyjny.
• Każda instalacja niesie za sobą ryzyko, każdy
sprzęt konsumujący zasoby staje się
produkcyjny, ma wpływ na zarządzanie
konfiguracją i pojemnością, może stać się
przyczyną incydentu (staje się częścią żywej
infrastruktury)
• Oby infrastruktura nie zaczęła żyć własnym
życiem!
Warstwa organizacyjna Temat 10: Zmiany produkcyjne i „nieprodukcyjne”
Okablowanie a’la spaghetti
źródło: Internet
• Instalacja urządzenia w szafie, która jest na
granicy zapasu mocy. W najbardziej
korzystnym scenariuszu może oznaczać to
zadziałanie zabezpieczenia w listwie PDU dla
kilku gniazd (1 pole), zasilanych z jednego toru.
W najgorszym wariancie wyłączeniu ulegną
urządzenia w całej szafie. Jeżeli istnieje
problem z selektywnością zabezpieczeń, to
wpływ może być jeszcze większy (cała
serwerownia?) – przy przeciążeniu lub zwarciu
• Nierównomierne obciążenie torów zasilania –
błahe, ale wciąż popularne. Ma negatywny
wpływ na zarządzanie pojemnością
• Mnożenie urządzeń jednozasilaczowych, które
stają się „krytyczne” i zabezpieczanie ich coraz
większą ilością STS-ów. Dodatkowo,
komplikuje proces zarządzania pojemnością
Warstwa organizacyjna Temat 11: Inne wciąż popularne błędy
Problem z selektywnością
zabezpieczeń. Przykładowy wpływ
awarii (zwarcie) lub przeciążenia
zasilacza
• Zaniki zasilania to zwykle serie – często mają związek ze złymi warunkami atmosferycznymi
• Przy zanikach częstszych niż 3 na godzinę, układ automatyki klimatyzacji zostaje zablokowany,
sprężarki chillerów przestają pracować (jest to mechanizm ochronny) - konieczny jest fizyczny restart
sterownika (na dachu?)
• W serwerowni zaczyna rosnąć temperatura
• Najlepiej wyciągnąć sygnał do pomieszczenia kontroli i nadzoru CPD (BMS)
• Uruchomienie agregatu na okres 1h po pierwszym zaniku zasilania lub praca do zatrzymania
• Każde przełączenie źródła zasilania przez SZR to dodatkowe ryzyko
• Problem z restartem sterownika klimatyzacji lub startem agregatu – w czasie burzy z piorunami?
• Tier I i Tier II – szczególne ryzyko
• SMS?
• Obsługa 24/7 (Tier III, Tier IV)
Warstwa organizacyjna Temat 12: Procesy, procedury a rzeczywistość
• O Nordea IT Polska sp. z o.o. (NITPL)
• Bezpieczeństwo CPD...
• Warstwa fizyczna
• Warstwa infrastrukturalna
• Warstwa organizacyjna
• Podsumowanie
Podsumowanie
• Obowiązuje reguła najsłabszego ogniwa
• Wszystkie warstwy infrastruktury są ze sobą powiązane
• Testy integracyjne i obciążeniowe przed uruchomieniem
• Regularne audyty i oceny ryzyka
• Aktualna dokumentacja
• Zdefiniowane, udokumentowane i wdrożone procesy
• Zdefiniowane i ciągle aktualizowane procedury
• Gotowość do ciągłych zmian
• Optymizm w stosunku do wyzwań codzienności
Podsumowanie
W prezentacji wykorzystano pomysły i spostrzeżenia członków Zespołu DCS
Nordea IT Polska sp. z o.o.:
Zenon Ruta, Sebastian Jary, Filip Jeziorski, Piotr Trzciński, Krzysztof Kęsicki,
Bartosz Kwiatek, Paweł Wawrzyniak