Agenda

39
Nowoczesne systemy dyskowe i sieci pamięci masowych Warsztaty „Usługa powszechnej archiwizacji” Rafał Mikołajczak, PCSS Maciej Brzeźniak, PCSS

description

Nowoczesne systemy dyskowe i sieci pamięci masowych Warsztaty „Usługa powszechnej archiwizacji” Rafał Mikołajczak, PCSS Maciej Brzeźniak, PCSS. Agenda. Pamięci dyskowe – wprowadzenie Dyski twarde – uniwersalne medium przyszłości (?) Cechy i ograniczenia napędów dyskowych - PowerPoint PPT Presentation

Transcript of Agenda

Page 1: Agenda

Nowoczesne systemy dyskowe i sieci pamięci masowych

Warsztaty „Usługa powszechnej archiwizacji”

Rafał Mikołajczak, PCSSMaciej Brzeźniak, PCSS

Page 2: Agenda

Agenda

• Pamięci dyskowe – wprowadzenie– Dyski twarde – uniwersalne medium przyszłości (?)– Cechy i ograniczenia napędów dyskowych– Macierze dyskowe – więcej niż Just Bunch of Disks (JBoD)

• Techniki konsolidacji pamięci masowej – SAN (FCP, iSCSI)– NAS (CIFS, NFS, ftp, http…)

Page 3: Agenda

Dysk twardyuniwersalne medium przyszłości (?)

Źródło: Wikipedia: http://en.wikipedia.org/wiki/Hard_disk_drive

Page 4: Agenda

Dysk twardy – uniwersalne medium przyszłości? (1)

Krótka historia (pojemność)

1956: IBM 350 - disk storage unit: Pierwszy „dysk twardy” Pojemność: ok. 4.4 MB 1000 kg, talerze 24”, obudowa 140 x 172 x 74 [cm]

1980: Seagate ST4053 Pojemność: ok. 5 MB talerze 5 1/4”

1986: Conner Peripherals CP340 Pojemność: ok. 40 MB talerze 3.5”

1991: Zapis magnetorezystywny (IBM) Przełamanie bariery pojemności 1 GB! 8 talerzy 3.5”, czas dostępu 7.5 ms IBM 0664 „Corsair”

Źródło: IBM 350 disk storage unit, http://www-03.ibm.com/ibm/history/exhibits/storage/storage_350.html

Page 5: Agenda

Dysk twardy – uniwersalne medium przyszłości? (2)

Krótka historia (pojemność)

2005: Perpendicular recording Technologia zapisu „poprzecznie” do ścieżki Znaczny wzrost gęstości zapisu!

2007: Hitachi (w 2003 wykupił IBM HDD Devision) Pierwszy dysk 1 TB 5 talerzy 3.5”, 7200 RPM, czas dostępu: 8.7 ms,

2009: Western Digital / Seagate Pierwszy dysk 2 TB:

WD: 5400 obr./min., 2 talerze Seagate: 7 200 obr./min, seek <8,5 ms

2010: Seagate zapowiada pierwszy dysk 3 TB:

SSD....

Page 6: Agenda

SSD – realna sytuacja

Krótka historia SSD: 1970 & 1980: Pierwsze prace nad SSD (IBM, Cray, Amdahl) 1995 – pierwsze SSD oparte o pamięci flash (Texas Memory Systems, CERAM) 2003 – pierwsze dyski 1TB SSD – (2 szafy rack, 5kW mocy, 2mln IOPS, Texas Memory Systems) 2009 – pamięci flash osiągają tą samą gęstość zapisu co dyski twarde...

np. 1TB w dysku 3,5” SATA (Foremay Jaguar Series)

2010 – pamięci SSD: 4 TB na karcie PCIE, 1.5-1.6GB/s (Foremay EC188) Wiele linii i typów SSD:

wydajność, pojemność, niezawodność,

Ceny: rozpiętość 1-200x w zależności od parametrów 1 TB - OCZ Technology 3.5” SATAII: $4,076.99 (amazon.com)

Sustained write: 220MB/s (dysk „do PC”) 146 GB – dysk do macierzy IBM DS8000, List price: 57,722$

Brak danych dot. wydajności

za drogie jako medium do kopii zapasowych/archiwizacjiNa podstawie:

SSD Market History –

Charting the 30 Year Rise of the Solid State Disk Market

(http://www.storagesearch.com/chartingtheriseofssds.html)

Page 7: Agenda

Dysk twardy – uniwersalne medium przyszłości? (1)

Wzrost pojemności dysków twardych w komputerach osobistych.Źródło: Wikipedia: http://en.wikipedia.org/wiki/Hard_disk_drive

+ Dysk 3TBSeagate,

3-4Q2010

Page 8: Agenda

Dysk twardy – ograniczenia dysków twardych (1)

Prawo Moore’a – wzrost liczby tranzystorów w procesorach komputerów.Źródło: Wikipedia: http://en.wikipedia.org/wiki/Moore%27s_law

Dyski nie rozwijają się tak szybko jak procesory liczba tranzystorów w podwaja się co 24 miesięce (trend wykładniczy)

Page 9: Agenda

Dyski nie rozwijają się tak szybko jak procesory ewolucja napędów „desktopowych” i serwerowych (2001-2007)

Read access time: 12.3-14.4 ms Read access time: 5.5-5.9 ms

Ewolucja napędów "desktopowych" - 7200 obr/min (2001-2007)

0

100

200

300

400

500

600

700

800

900

1000

2001 2002 2003 2004 2005 2006 2007

rok

Max. Transfer rate GB/ platter Capacity [GB]

Ewolucja napędów "serwerowych" - 15 000 obr/min (2002-2007)

0

50

100

150

200

250

300

2002 2003 2004 2005 2006 2007

rok

Max. Transfer rate GB/ platter Capacity [GB]

Dysk twardy – ograniczenia dysków twardych (2)

Page 10: Agenda

Dyski są urządzeniami mechanicznymiczyli podlegają prawom fizyki...

Czas dostępu jest ograniczony koniecznością przesuwania głowic Transfer jest ograniczony gęstością zapisu i prędkością obrotową talerzy

Dysk twardy – ograniczenia dysków twardych (3)

Page 11: Agenda

Dyski są urządzeniami mechanicznymi:co oznacz, że niestety psują się...

=> Czas życia dysku: 5-10 lat – w zależności od obciążenia MTBF:

Jest często „zawyżany” Typowe wartości:

300 000 h – dyski do stacji roboczych

1 000 000 h – dyski do serwerów i macierzy dyskowych

S.M.A.R.T.: ma ograniczoną skuteczność

Dyski podlegają m.in.: Wibracjom Zmianom temperatury Włączaniu/wyłączaniu

częsta przyczyna awarii

Dysk twardy – ograniczenia dysków twardych (4)

Page 12: Agenda

MTBF – fakty a mity: MTBF - Mean Time Between Failures - średni czas między awariami Co mówi MTBF?, np. 300 000 h (34 lata)?

Jest miarą statystyczną określa prawdopodobieństwo awarii dysku w dużej populacji napędów

Nic nie mówi o niezawodności pojedynczego dysku!!!

Np. MTBF=300 000 h mówi, że: w dużej populacji dysków, połowa dysków ulegnie awarii po pierwszych 300 000 h

użytkowania w populacji 100 dysków średnio 2,92 dysku „zepsuje” się w ciągu roku

Jak obliczany jest MTBF? Często jest zawyżany!

Najczęściej na podstawie dysków, które trafiają w trybie serwisowymdo producentów, z których ok. 20-30% po testach określana jest jako „brak błędów” – co nie oznacza, że w praktyce wytrzymałyby obciążenie produkcyjne

Awaryjność w praktyce jest ok. 3-5x większa niż wynikałoby to z kalkulacji opartych na MTBF (patrz prace Google *)

Za: http://storagemojo.com/2007/02/19/googles-disk-failure-experience/

Dysk twardy – ograniczenia dysków twardych (5)

Page 13: Agenda

SMART – ograniczenia skuteczności: SMART:

Self-Monitoring, Analysis, and Reporting Technology Monitoruje wiele parametrów dysków twardych, m.in.:

Liczniki błędów: błędy CRC/odczytu/zapisu, błędne sektory, błędy pozycjonowania głowic, itp.

Parametry fizyczne pracy dysku: temperatura, wibracje, stabilność głowic

Praktyczna skuteczność SMART: m.in. prace Google z 2007 *) dot. dużych

populacji dysków twardych pokazały, że: O ile wiele dysków, dla których SMART sygnalizował

problemy (np. tzw. surface scan errors lub bad sectors) uległo awarii w ciągu 60 dni

o tyle wiele dysków, które uległy awarii nie wykazywało żadnych błędów SMART

=> wystąpienie błędu SMART jest ostrzeżeniem=> niewystąpienie błędu SMART nie powinno usypiać

naszej czujności

*) Failure Trends in a Large Disk Drive Population, 5th USENIX Conference on File and Storage, Technologies (FAST’07), February 2007, San Jose, CA, USA

Dysk twardy – ograniczenia dysków twardych (6)

Page 14: Agenda

Dysk twardy – ograniczenia - podsumowanie

Wiele dysków Pojemność: zależy od liczby dysków

Wydajność: nie ograniczona wydajnością pojedynczego dysku

Potencjalnie zwiększona niezawodność: redundancja

1 dysk: Pojemność: Do 2TB / dysk

Wydajność: Do 140 MB/sek

Czas życia dysku: 5-10 lat MTBF: XXX godzin S.M.A.R.T.: nie na 100% skuteczny Bad sector’y: na każdym dysku

=>

Just Bunch of Disks (JBoD)

Page 15: Agenda

Macierze dyskowecoś więcej niż Just Bunch of Disks (JBoD)

Źródło: IBM

Page 16: Agenda

Macierze dyskowe

Wiele dysków (JBoD) Pojemność: nie ograniczona

pojemność pojedynczego dysku Wydajność: skalowalna Potencjalnie zwiększona

niezawodność: redundancja

Kontroler macierzowy

Macierze dyskowe: Pojemność: nie ograniczona

pojemność pojedynczego dysku Wydajność: skalowalna Niezawodność: zwiększona

awarie „maskowane” dziękiwiększej liczbie dysków

redundancja dodatkowe techniki macierzowe:

RAID analiza informacji S.M.A.R.T. aktywna kontrola mediów ‘autorskie’ algorytmy

Page 17: Agenda

RAID: ang. Redundant Array of Independent Disks Technika zwiększenia wydajności lub niezawodności

za pomocą kombinacji napędów dyskowych

Macierze dyskowe – techniki macierzowe: RAID (1)

Page 18: Agenda

RAID0: ang. Striping Zwiększenie wydajności

(głównie zapisy)

Macierze dyskowe – techniki macierzowe: RAID (2)

RAID1: ang. Mirroring Redundancja danych (tolerowana

jest awaria 1 dysku z pary) Wydajne odczyty Duży koszt vs pojemność

Page 19: Agenda

Macierze dyskowe – techniki macierzowe: RAID (3)

RAID5: ang. striping + distributed parity Redundancja danych (tolerowana jest awaria 1 dysku) Wydajne odczyty, akceptowalna wydajność zapisów Optymalny kosztowo (mała nadmiarowość n+1)

Page 20: Agenda

Macierze dyskowe – techniki macierzowe: RAID (4)

RAID6: ang. striping + dual distributed parity Jeszcze większa redundancja danych (tolerowana jest awaria 2 dysków) Wydajne odczyty Optymalne kosztowy dla dużej liczby dysków (nadmiarowość n+2)

Page 21: Agenda

Macierze dyskowe – techniki macierzowe: RAID (5)

Aktywna kontrola dysków: Wykorzystanie informacji S.M.A.R.T Zbieranie i wizualizacja informacji nt. stanu dysków Ostrzeganie administratorów o przekroczeniu progów (np. liczby błędów) Automatyczne „odłączanie” dysków, dla których wykryto dużo błędów i

odbudowa RAID z użyciem nowego dysku (hot spare) Inne techniki, np.

tzw. ang. scrubbing tj. Próbne wykonywanie zapisów / odczytów na dyskach

w okresach mniejszej aktywności Jakość prognozowania uszkodzeń/stanu dysków zależna jest od:

logiki firmware macierzy – dobre macierze mają często zaawansowane techniki wsparcia tych funkcji przez napędy dyskowe i firmware w nich obecny

Page 22: Agenda

Konsolidacja pamięci masowej

Page 23: Agenda

Konsolidacja Pamięci Masowej

IBM 1440 IBM 1440 tania jednostka tania jednostka przetwarzania danych przetwarzania danych dla małych przedsiębiorstwdla małych przedsiębiorstw

lata ‘60lata ‘60

Kompter PC zdobywaKompter PC zdobywakażdą przestrzeń w każdą przestrzeń w przedsiębiostwachprzedsiębiostwach

lata ‘80lata ‘80XXI wiekXXI wiek

Data CenterData Center- konsolidacja serwerów konsolidacja serwerów - konsolidacja przestrzeni konsolidacja przestrzeni dyskowejdyskowej

lata ‘90lata ‘90

konsolidacjakonsolidacja klient - serwerklient - serwer

Page 24: Agenda

Konsolidacja Pamięci Masowej

• Problem– duża liczba serwerów każdy serwer potrzebuje przestrzeni dyskowej

– najprostsze rozwiązanie: serwer <–> macierz SCSI• ograniczenia

– pojemnościowe– wydajnościowe

• koszty

• Efektywne wykorzystanie zasobów dyskowych, czy taśmowych

– zapewnienie większej wydajności oraz elastyczności

• uproszczenie zarządzania dynamicznie rosnącą ilością danych

– wymierne oszczędności ekonomiczne • zmniejszenie TCO (Total Cost of Ownership)

• Zakup nowoczesnych urządzeń i zaawansowanych technologii możliwy dzięki współdzieleniu urządzeń w ramach heterogenicznych systemów komputerowych

• Konsolidacja dotyczy zarówno przestrzeni dyskowej jak i bibliotek taśmowych

Page 25: Agenda

NAS – urządzenia plikowe

LAN/WAN

NAS

Page 26: Agenda

NAS – urządzenia plikowe

• Stosujemy do współdzielenie zasobów dyskowych:– przystępna cena– zadowalająca wydajność– technologia trafia do domów – ceny od 500 zł

• Dostęp do zasobów przy użyciu protokołów:– NFS (Network File System) – CIFS (Common Internet File System)– WWW, ftp

• Realizacja na różne sposoby:– zastosowanie zwykłych serwerów, które pełnią rolę serwerów plików korzystając poprzez

SAN ze wspólnych zasobów dyskowych– „filery” z własnymi dyskami,– bramy SAN-NAS korzystające z zewnętrznych macierzy

• NetApp, BlueArc, OnStor, ……

• Dostępne rozwiązania dla wysokowydajnych usług plikowych:• klastry serwerów NFS pNFS• CXFS system plików sprzedawany przez SGI czyli RACKABLE• GPFS system plików sprzedawany przez IBM’a • lustre – wysokowydajny klastrowy system plików

sprawdza się dla dużych bloków (blok 1MB) działająca „proteza” zanim pojawi się pNFS

Page 27: Agenda

SAN – kolejny krok po NAS

LAN/WANiSCIS

LUN

SANFC

001001001010010010101001010101010101010101010101010100101011

Page 28: Agenda

SAN – kolejny krok po NAS

L A N

S A N

Serwery

S/390HPSun RS/6000 xSeries

Page 29: Agenda

SAN

• SAN to dedykowana sieć, której zadaniem jest:– łączyć urządzenia w sieci „każdy z każdym”– urządzenia:

• serwery/stacje robocze• pamięci masowe:

– macierze dyskowe, – biblioteki taśmowe – biblioteki optyczne (na wymarciu)

– zapewnić wydajną transmisję danych pomiędzy urządzeniami pracującymi w sieci:

• Wydajność dzięki:– Zoptymalizowanemu protokołowi (FCP)– Sieci transportowej o małym opóźnieniu

• Pięć razy S:– Servers– SAN Fabric– Storage– Software– Services

L A N

S A N

Serwery

S/390HPSun RS/6000 xSeries

Page 30: Agenda

SAN – urządzenia blokowe

• Technologia SAN (Storage Area Network):– odciąża sieci korporacyjne (LAN)– wykorzystuje protokół Fibre Channel Protocol (FCP), – zasoby dyskowe są widziane przez system operacyjny jako „lokalne”,

bez względu na to gdzie się fizycznie znajdują– umożliwia wydajniejszy backup danych (snapshot, LAN-free backup)– umożliwia replikacji danych z macierzy produkcyjnej na macierz zapasową

w centrum zapasowym (mirroring)– wirtualizacja zasobów

• fizyczne napędy dyskowe -> struktury RAID• struktury RAID -> wolumeny• łączenie „resztówek”• ...

• Technologia NAS (Network Attached Storage)– pozwala współdzielić ten sam system plików (wolumen) między wieloma

systemami – klientami UNIX, Windows – protokoły NFS, pNFS, CIFS– dostęp realizowany poprzez tradycyjną sieć LAN/WAN

Page 31: Agenda

SAN - infrastruktura

• Macierze dyskowe– modularne

• półka kontrolerów + półki z dyskami: OEM LSI: IBM, SUN, SGI

– monolityczne • duża liczba kontrolerów (procesorów IO), portów,

redundancja połączeń

• Biblioteki taśmowe/magnetooptyczne

• Przełączniki FC / urządzenia typu Director– problemy przy aktualizacji firmware przełączników– problemy z budową „fabric” dla wielu przełączników

• Karty HBA (Host Bus Adapter)

• System nadzoru i zarządzania

Page 32: Agenda

SAN – zalety/wady

• Zalety: – Elastyczność: dostęp do zasobów i możliwość dowolnej ich konfiguracji

bez konieczności zmian w fizycznej strukturze urządzeń i okablowaniu

– Separacja zasobów:

• na poziomie macierzy - LUN masking– interfejsy serwerów reprezentowane są w macierzy

poprzez unikalne numery WWN– numerowi WWN przypisany jest wolumen logiczny w macierzy

(utworzony w ramach grupy RAID), co umożliwia współdzielenie portów macierzy przez różne serwery, bez ryzyka przejęcia "cudzych" zasobów

• na poziomie przełączników - podział na strefy (WWN zoning, port zoning)– ograniczenie ruchu pomiędzy wybrane porty przełącznika FC– Funkcjonalność podobna do VLAN w sieciach Ethernet

• na poziomie kart HBA serwera - persistent binding. – definicja zasobów widzianych przez interfejsy HBA serwera

• Wady:– wysoka cena wdrożenia– problemy przy rozbudowie/aktualizacji oprogramowania– dawniej występowały problemy przy wdrożeniach w środowisku

heterogenicznym (np. brak wsparcia dla rzadkich serwerów np. SGI, Cray)

Page 33: Agenda

Fibre Channel

• Na początku był HIPPI, łączył superkomputery przy pomocy 50 parowych przewodów na krótką odległość, więc trzeba było to uprościć.

• FC jest protokołem hybrydowym – kanałowo-sieciowym– Kanałowym:

ponieważ potrafi zestawić kanały z zamkniętym i przewidywalnym mechanizmem transmisji pomiędzy ograniczoną liczbą urządzeń. Raz ustanowiony kanał potrzebuje bardzo niewielkiego nakładu pracy na obsługę transferów, co skutkuje ich wysoką efektywnością. Protokoły kanałowe są z tego powodu bardzo chętnie wykorzystywane do łączenia macierzy dyskowych, napędów taśmowych z serwerami.

– Sieciowymponieważ potrafi obsłużyć bardziej skomplikowane struktury połączeń urządzeń, ustalać trasy pomiędzy nimi, a więc podejmować większą liczbę decyzji. W sieciach duża część tych decyzji jest wykonywana programowo co spowalnia ich pracę. W Fibre Channel ilość decyzji jest ograniczona i realizowana w dużej mierze na poziomie sprzętowym

• Fizyczny transport odbywa się poprzez – łącza światłowodowe – miedziane

• Typy połączeń:– Pętla arbitrażowa (arbitrated loop) – sieć szeregowa z przełącznikami

w różnych topologiach mesh, core-edge oraz mieszanych.

• Możliwość łączenia urządzeń oddalonych o ponad 100 kilometrów (w trybie synchronicznym)

FC-Arbitrated Loop

FC-Switched Fabric

Page 34: Agenda

FC a inne protokoły

Page 35: Agenda

iSCSI

• Protokół przesyłania danych w sieci IP w oparciu o protokół SCSI:– wykorzystuje transportowanie standardowych komend SCSI – przenosi je za pomocą protokołu TCP/IP (zazwyczaj po sieci Ethernet)

• Zalety:– Łatwość implementacji:

• używamy NIC a nie HBA• interfejs SCSI służy do wymiany danych, bez ograniczenia na odległość od macierzy• protokół iSCSI kapsułkuje i transferuje polecenia zapisu odczytu danych• protokół iSCSI komunikuje się bezpośrednio z protokołem SCSI obsługiwanych przez system

operacyjny

– niskie koszty rozbudowy (sterowniki bezpłatne)• Linux-iSCSI Project• tgtadm - Linux SCSI Target Administration Utility

• Wady:– zbyt wolne dla niektórych rozwiązań (zalecane używanie Jumbo Frames)– znaczne obciążenie CPU klientów

Page 36: Agenda

Podsumowanie (1)• Dysk twardy:

– Ciągły rozwój technologii:• Rosnąca pojemność (4.4 MB / 1956 -> 3 TB / 2010)• Postępy dot. wydajności (nie tak szybkie jak CPU, ale są...)• Pojawia się „wszędzie” – serwery, laptopy, telewizory..., samochody

– Ale ... ograniczenia:• Wydajność (200MB/s), pojemność (3 TB), niezawodność (MTBF itp.)

• Macierze dyskowe:– Pokonują ograniczenia pojedynczych dysków twardych:

• Wydajność: akomodacja wydajności poszczególnych dysków• Niezawodność: maskowanie błędów/awarii• Skalowalność: wydajność, pojemność

• Sieci SAN/NAS:– Dalsza konsolidacja zasobów pozwala na:

• Elastyczność zarządzania• Dalsze skalowanie wydajności i pojemności zasobów (poza ograniczenia macierzy)

Page 37: Agenda

Podsumowanie (2)• Nowoczesne systemy dyskowe i sieci pamięci masowych:

– Zalety: • Stosowane w dużej skali pozwalają na zbudowanie, wydajnego, pojemnego i

niezawodnego systemu przechowywania danych• Efekt skali pozwala na:

– relatywne zmniejszenie jednostkowych kosztów przechowywania,– optymalną realizację technik takich jak:

» replikacja danych,» maskowanie błędów, itp..» wydajność operacji

– efektywne kosztowo oferowanie usług:» kopii zapasowych » archiwizacji

– Trudności:• Wymagają know-how i doświadczenia• Wymagają sporych nakładów inwestycyjnych i na utrzymanie

– Wniosek:• Warto korzystać z dużych systemów, w których „ktoś”

bierze na siebie w/w trudności• Użytkownik korzysta z „wysokiej jakości” przestrzeni przechowywania

za rozsądne pieniądze (lub za darmo )

Page 38: Agenda

Pytania ?

Dziękujemy za uwagęDziękujemy za uwagę

http://royal.pingdom.com

Page 39: Agenda