Nowoczesne systemy dyskowe i sieci pamięci masowych · Dyski nie rozwijają się tak szybko jak...

Nowoczesne systemy dyskowe i sieci pamięci masowych

Warsztaty „Usługa powszechnej archiwizacji”

Rafał Mikołajczak, PCSS Maciej Brzeźniak, PCSS

Agenda

• Pamięci dyskowe – wprowadzenie – Dyski twarde – uniwersalne medium przyszłości (?)

– Cechy i ograniczenia napędów dyskowych

– Macierze dyskowe – więcej niż Just Bunch of Disks (JBoD)

• Techniki konsolidacji pamięci masowej – SAN (FCP, iSCSI)

– NAS (CIFS, NFS, ftp, http…)

Dysk twardy uniwersalne medium przyszłości (?)

Źródło: Wikipedia: http://en.wikipedia.org/wiki/Hard_disk_drive

Dysk twardy – uniwersalne medium przyszłości? (1)

Krótka historia (pojemnośd)

1956: IBM 350 - disk storage unit:

Pierwszy „dysk twardy”

Pojemnośd: ok. 4.4 MB

1000 kg, talerze 24”, obudowa 140 x 172 x 74 *cm+

1980: Seagate ST4053 Pojemnośd: ok. 5 MB

talerze 5 1/4”

1986: Conner Peripherals CP340 Pojemnośd: ok. 40 MB

talerze 3.5”

1991: Zapis magnetorezystywny (IBM)

Przełamanie bariery pojemności 1 GB!

8 talerzy 3.5”, czas dostępu 7.5 ms

IBM 0664 „Corsair”

Źródło: IBM 350 disk storage unit,

http://www-03.ibm.com/ibm/history/exhibits/storage/storage_350.html


Krótka historia (pojemnośd)

2005: Perpendicular recording

Technologia zapisu „poprzecznie” do ścieżki

Znaczny wzrost gęstości zapisu!

2007: Hitachi (w 2003 wykupił IBM HDD Devision)

Pierwszy dysk 1 TB

5 talerzy 3.5”,

7200 RPM, czas dostępu: 8.7 ms,

2009: Western Digital / Seagate

Pierwszy dysk 2 TB: WD: 5400 obr./min., 2 talerze

Seagate: 7 200 obr./min, seek <8,5 ms

2010: Seagate zapowiada pierwszy dysk 3 TB:

SSD....

SSD – realna sytuacja

Krótka historia SSD: 1970 & 1980: Pierwsze prace nad SSD (IBM, Cray, Amdahl)

1995 – pierwsze SSD oparte o pamięci flash (Texas Memory Systems, CERAM)

2003 – pierwsze dyski 1TB SSD – (2 szafy rack, 5kW mocy, 2mln IOPS, Texas Memory Systems)

2009 – pamięci flash osiągają tą samą gęstośd zapisu co dyski twarde... np. 1TB w dysku 3,5” SATA (Foremay Jaguar Series)

2010 – pamięci SSD:

4 TB na karcie PCIE, 1.5-1.6GB/s (Foremay EC188)

Wiele linii i typów SSD: wydajnośd,

pojemnośd,

niezawodnośd,

Ceny: rozpiętośd 1-200x w zależności od parametrów

1 TB - OCZ Technology 3.5” SATAII: $4,076.99 (amazon.com) Sustained write: 220MB/s (dysk „do PC”)

146 GB – dysk do macierzy IBM DS8000, List price: 57,722$ Brak danych dot. wydajności

za drogie jako medium do kopii zapasowych/archiwizacji Na podstawie:

SSD Market History –

Charting the 30 Year Rise of the Solid State Disk Market

(http://www.storagesearch.com/chartingtheriseofssds.html)


Wzrost pojemności dysków twardych w komputerach osobistych.

Źródło: Wikipedia: http://en.wikipedia.org/wiki/Hard_disk_drive

+ Dysk 3TB Seagate,

3-4Q2010

Dysk twardy – ograniczenia dysków twardych (1)

Prawo Moore’a – wzrost liczby tranzystorów w procesorach komputerów.

Źródło: Wikipedia: http://en.wikipedia.org/wiki/Moore%27s_law

Dyski nie rozwijają się tak szybko jak procesory

liczba tranzystorów w podwaja się co 24 miesiące (trend wykładniczy)

Dyski nie rozwijają się tak szybko jak procesory

ewolucja napędów „desktopowych” i serwerowych (2001-2007)

Read access time: 12.3-14.4 ms Read access time: 5.5-5.9 ms

Ewolucja napędów "desktopowych" - 7200 obr/min (2001-2007)

0

100

200

300

400

500

600

700

800

900

1000

2001 2002 2003 2004 2005 2006 2007

rok

Max. Transfer rate GB/ platter Capacity [GB]

Ewolucja napędów "serwerowych" - 15 000 obr/min (2002-2007)

0

50

100

150

200

250

300

2002 2003 2004 2005 2006 2007

rok

Max. Transfer rate GB/ platter Capacity [GB]


Dyski są urządzeniami mechanicznymi czyli podlegają prawom fizyki...

Czas dostępu jest ograniczony koniecznością przesuwania głowic

Transfer jest ograniczony gęstością zapisu i prędkością obrotową talerzy


Dyski są urządzeniami mechanicznymi:

co oznacz, że niestety psują się... => Czas życia dysku: 5-10 lat – w zależności od obciążenia MTBF:

Jest często „zawyżany” Typowe wartości:

300 000 h – dyski do stacji roboczych

1 000 000 h – dyski do serwerów i macierzy dyskowych

S.M.A.R.T.: ma ograniczoną skutecznośd

Dyski podlegają m.in.: Wibracjom Zmianom temperatury Włączaniu/wyłączaniu

częsta przyczyna awarii


MTBF – fakty a mity:

MTBF - Mean Time Between Failures - średni czas między awariami

Co mówi MTBF?, np. 300 000 h (34 lata)? Jest miarą statystyczną

określa prawdopodobieostwo awarii dysku w dużej populacji napędów Nic nie mówi o niezawodności pojedynczego dysku!!!

Np. MTBF=300 000 h mówi, że:

w dużej populacji dysków, połowa dysków ulegnie awarii po pierwszych 300 000 h użytkowania

w populacji 100 dysków średnio 2,92 dysku „zepsuje” się w ciągu roku

Jak obliczany jest MTBF?

Często jest zawyżany! Najczęściej na podstawie dysków,

które trafiają w trybie serwisowym do producentów, z których ok. 20-30% po testach określana jest jako „brak błędów” – co nie oznacza, że w praktyce wytrzymałyby obciążenie produkcyjne

Awaryjnośd w praktyce jest ok. 3-5x większa niż wynikałoby to z kalkulacji opartych na MTBF (patrz prace Google *)

Za: http://storagemojo.com/2007/02/19/googles-disk-failure-experience/


SMART – ograniczenia skuteczności: SMART:

Self-Monitoring, Analysis, and Reporting Technology Monitoruje wiele parametrów dysków twardych, m.in.:

Liczniki błędów: błędy CRC/odczytu/zapisu, błędne sektory, błędy pozycjonowania głowic, itp.

Parametry fizyczne pracy dysku: temperatura, wibracje, stabilnośd głowic

Praktyczna skutecznośd SMART: m.in. prace Google z 2007 *) dot. dużych

populacji dysków twardych pokazały, że:

O ile wiele dysków, dla których SMART sygnalizował problemy (np. tzw. surface scan errors lub bad sectors) uległo awarii w ciągu 60 dni

o tyle wiele dysków, które uległy awarii nie wykazywało żadnych błędów SMART

=> wystąpienie błędu SMART jest ostrzeżeniem => niewystąpienie błędu SMART nie powinno usypiad

naszej czujności!

*) Failure Trends in a Large Disk Drive Population, 5th USENIX Conference on File and Storage, Technologies (FAST’07), February 2007, San Jose, CA, USA


Dysk twardy – ograniczenia - podsumowanie

Wiele dysków

Pojemnośd: zależy od liczby dysków

Wydajnośd: nie ograniczona wydajnością pojedynczego dysku

Potencjalnie zwiększona niezawodnośd: redundancja

1 dysk:

Pojemnośd: Do 2TB / dysk (3TB/ 2010)

Wydajnośd: Do 140 MB/sek

Czas życia dysku: 5-10 lat MTBF: XXX godzin

S.M.A.R.T.: nie na 100% skuteczny

Bad sector’y: na każdym dysku

=>

Just Bunch of Disks (JBoD)

Macierze dyskowe

coś więcej niż Just Bunch of Disks (JBoD)

Źródło: IBM

Macierze dyskowe

Wiele dysków (JBoD)

Pojemnośd: nie ograniczona pojemnośd pojedynczego dysku

Wydajnośd: skalowalna

Potencjalnie zwiększona niezawodnośd: redundancja

Kontroler macierzowy

Macierze dyskowe:

Pojemnośd: nie ograniczona pojemnośd pojedynczego dysku

Wydajnośd: skalowalna

Niezawodnośd: zwiększona awarie „maskowane” dzięki

większej liczbie dysków

redundancja

dodatkowe techniki macierzowe: RAID

analiza informacji S.M.A.R.T.

aktywna kontrola mediów

‘autorskie’ algorytmy

RAID: ang. Redundant Array of Independent Disks

Technika zwiększenia wydajności lub niezawodności za pomocą kombinacji napędów dyskowych

Macierze dyskowe – techniki macierzowe: RAID (1)

RAID0: ang. Striping

Zwiększenie wydajności (głównie zapisy)


RAID1: ang. Mirroring

Redundancja danych (tolerowana jest awaria 1 dysku z pary)

Wydajne odczyty

Duży koszt vs pojemnośd


RAID5: ang. striping + distributed parity

Redundancja danych (tolerowana jest awaria 1 dysku)

Wydajne odczyty, akceptowalna wydajnośd zapisów

Optymalny kosztowo (mała nadmiarowośd n+1)


RAID6: ang. striping + dual distributed parity

Jeszcze większa redundancja danych (tolerowana jest awaria 2 dysków)

Wydajne odczyty

Optymalne kosztowy dla dużej liczby dysków (nadmiarowośd n+2)


Aktywna kontrola dysków: Wykorzystanie informacji S.M.A.R.T

Zbieranie i wizualizacja informacji nt. stanu dysków

Ostrzeganie administratorów o przekroczeniu progów (np. liczby błędów)

Automatyczne „odłączanie” dysków, dla których wykryto dużo błędów i odbudowa RAID z użyciem nowego dysku (hot spare)

Inne techniki, np.

tzw. ang. scrubbing

tj. Próbne wykonywanie zapisów / odczytów na dyskach w okresach mniejszej aktywności

Jakośd prognozowania uszkodzeo/stanu dysków zależna jest od:

logiki firmware macierzy – dobre macierze mają często zaawansowane techniki

wsparcia tych funkcji przez napędy dyskowe i firmware w nich obecny

Inne techniki macierzowe

Konsolidacja pamięci masowej

Konsolidacja Pamięci Masowej

IBM 1440

tania jednostka

przetwarzania danych

dla małych przedsiębiorstw

lata ‘60

Kompter PC zdobywa

każdą przestrzeń w

przedsiębiostwach

lata ‘80 XXI wiek

Data Center

- konsolidacja serwerów

- konsolidacja przestrzeni

dyskowej

lata ‘90

konsolidacja

klient - serwer

Konsolidacja Pamięci Masowej

• Problem

– duża liczba serwerów każdy serwer potrzebuje przestrzeni dyskowej

– najprostsze rozwiązanie: serwer <–> macierz SCSI

• ograniczenia

– pojemnościowe

– wydajnościowe

• koszty

• Efektywne wykorzystanie zasobów dyskowych,

czy taśmowych – zapewnienie większej wydajności oraz elastyczności

• uproszczenie zarządzania dynamicznie rosnącą ilością danych

– wymierne oszczędności ekonomiczne

• zmniejszenie TCO (Total Cost of Ownership)

• Zakup nowoczesnych urządzeń i zaawansowanych technologii

możliwy dzięki współdzieleniu urządzeń w ramach heterogenicznych

systemów komputerowych

• Konsolidacja dotyczy zarówno przestrzeni dyskowej jak i bibliotek

taśmowych

NAS – urządzenia plikowe

LAN/WAN

NAS

NAS – urządzenia plikowe

• Stosujemy do współdzielenie zasobów dyskowych: – przystępna cena – zadowalająca wydajnośd – technologia trafia do domów – ceny od 500 zł

• Dostęp do zasobów przy użyciu protokołów: – NFS (Network File System) – CIFS (Common Internet File System) – WWW, ftp

• Realizacja na różne sposoby: – zastosowanie zwykłych serwerów, które pełnią rolę serwerów plików korzystając poprzez

SAN ze wspólnych zasobów dyskowych – „filery” z własnymi dyskami, – bramy SAN-NAS korzystające z zewnętrznych macierzy

• NetApp, BlueArc, OnStor, ……

• Dostępne rozwiązania dla wysokowydajnych usług plikowych: • klastry serwerów NFS pNFS • CXFS system plików sprzedawany przez SGI czyli RACKABLE • GPFS system plików sprzedawany przez IBM’a • lustre – wysokowydajny klastrowy system plików

sprawdza się dla dużych bloków (blok 1MB) działająca „proteza” zanim pojawi się pNFS

SAN – kolejny krok po NAS

LAN/WAN

iSCIS

LUN

SAN

FC

0010010010

1001001010

1001010101

0101010101

0101010101

0100101011

SAN – kolejny krok po NAS

L A N

S A N

Serwery

S/390 HP Sun RS/6000 xSeries

SAN

• SAN to dedykowana sied, której zadaniem jest: – łączyd urządzenia w sieci „każdy z każdym” – urządzenia:

• serwery/stacje robocze • pamięci masowe:

– macierze dyskowe, – biblioteki taśmowe – biblioteki optyczne (na wymarciu)

– zapewnid wydajną transmisję danych pomiędzy urządzeniami pracującymi w sieci:

• Wydajnośd dzięki: – Zoptymalizowanemu protokołowi (FCP) – Sieci transportowej o małym opóźnieniu

• Pięd razy S: – Servers – SAN Fabric – Storage – Software – Services

L A N

S A N

Serwery

S/390 HP Sun RS/6000 xSeries

SAN – urządzenia blokowe

• Technologia SAN (Storage Area Network): – odciąża sieci korporacyjne (LAN) – wykorzystuje protokół Fibre Channel Protocol (FCP), – zasoby dyskowe są widziane przez system operacyjny jako „lokalne”,

bez względu na to gdzie się fizycznie znajdują – umożliwia wydajniejszy backup danych (snapshot, LAN-free backup) – umożliwia replikacji danych z macierzy produkcyjnej na macierz zapasową

w centrum zapasowym (mirroring) – wirtualizacja zasobów

• fizyczne napędy dyskowe -> struktury RAID • struktury RAID -> wolumeny • łączenie „resztówek” • ...

• Technologia NAS (Network Attached Storage) – pozwala współdzielid ten sam system plików (wolumen) między wieloma

systemami – klientami UNIX, Windows – protokoły NFS, pNFS, CIFS – dostęp realizowany poprzez tradycyjną sied LAN/WAN

SAN - infrastruktura

• Macierze dyskowe – modularne

• półka kontrolerów + półki z dyskami: OEM LSI: IBM, SUN, SGI

– monolityczne • duża liczba kontrolerów (procesorów IO), portów,

redundancja połączeo

• Biblioteki taśmowe/magnetooptyczne

• Przełączniki FC / urządzenia typu Director

– problemy przy aktualizacji firmware przełączników – problemy z budową „fabric” dla wielu przełączników

• Karty HBA (Host Bus Adapter)

• System nadzoru i zarządzania

SAN – zalety/wady

• Zalety: – Elastycznośd: dostęp do zasobów i możliwośd dowolnej ich konfiguracji

bez konieczności zmian w fizycznej strukturze urządzeo i okablowaniu

– Separacja zasobów:

• na poziomie macierzy - LUN masking – interfejsy serwerów reprezentowane są w macierzy

poprzez unikalne numery WWN – numerowi WWN przypisany jest wolumen logiczny w macierzy

(utworzony w ramach grupy RAID), co umożliwia współdzielenie portów macierzy przez różne serwery, bez ryzyka przejęcia "cudzych" zasobów

• na poziomie przełączników - podział na strefy (WWN zoning, port zoning) – ograniczenie ruchu pomiędzy wybrane porty przełącznika FC – Funkcjonalnośd podobna do VLAN w sieciach Ethernet

• na poziomie kart HBA serwera - persistent binding. – definicja zasobów widzianych przez interfejsy HBA serwera

• Wady: – wysoka cena wdrożenia – problemy przy rozbudowie/aktualizacji oprogramowania – dawniej występowały problemy przy wdrożeniach w środowisku

heterogenicznym (np. brak wsparcia dla rzadkich serwerów np. SGI, Cray)

Fibre Channel

• Na początku był HIPPI, łączył superkomputery przy pomocy 50 parowych przewodów na krótką odległośd, więc trzeba było to uprościd.

• FC jest protokołem hybrydowym – kanałowo-sieciowym – Kanałowym:

ponieważ potrafi zestawid kanały z zamkniętym i przewidywalnym mechanizmem transmisji pomiędzy ograniczoną liczbą urządzeo. Raz ustanowiony kanał potrzebuje bardzo niewielkiego nakładu pracy na obsługę transferów, co skutkuje ich wysoką efektywnością. Protokoły kanałowe są z tego powodu bardzo chętnie wykorzystywane do łączenia macierzy dyskowych, napędów taśmowych z serwerami.

– Sieciowym ponieważ potrafi obsłużyd bardziej skomplikowane struktury połączeo urządzeo, ustalad trasy pomiędzy nimi, a więc podejmowad większą liczbę decyzji. W sieciach duża częśd tych decyzji jest wykonywana programowo co spowalnia ich pracę. W Fibre Channel ilośd decyzji jest ograniczona i realizowana w dużej mierze na poziomie sprzętowym

• Fizyczny transport odbywa się poprzez – łącza światłowodowe – miedziane

• Typy połączeo: – Pętla arbitrażowa (arbitrated loop) – sied szeregowa z przełącznikami

w różnych topologiach mesh, core-edge oraz mieszanych.

• Możliwośd łączenia urządzeo oddalonych o ponad 100 kilometrów (w trybie synchronicznym)

FC-Arbitrated Loop

FC-Switched Fabric

FC a inne protokoły

iSCSI

• Protokół przesyłania danych w sieci IP w oparciu o protokół SCSI: – wykorzystuje transportowanie standardowych komend SCSI – przenosi je za pomocą protokołu TCP/IP (zazwyczaj po sieci Ethernet)

• Zalety:

– Łatwośd implementacji: • używamy NIC a nie HBA • interfejs SCSI służy do wymiany danych, bez ograniczenia na odległośd od macierzy • protokół iSCSI kapsułkuje i transferuje polecenia zapisu odczytu danych • protokół iSCSI komunikuje się bezpośrednio z protokołem SCSI obsługiwanych przez system

operacyjny

– niskie koszty rozbudowy (sterowniki bezpłatne)

• Linux-iSCSI Project • tgtadm - Linux SCSI Target Administration Utility

• Wady:

– zbyt wolne dla niektórych rozwiązao (zalecane używanie Jumbo Frames) – znaczne obciążenie CPU klientów

Podsumowanie (1)

• Dysk twardy: – Ciągły rozwój technologii:

• Rosnąca pojemnośd (4.4 MB / 1956 -> 3 TB / 2010) • Postępy dot. wydajności (nie tak szybkie jak CPU, ale są...) • Pojawia się „wszędzie” – serwery, laptopy, telewizory..., samochody

– Ale ... ograniczenia: • Wydajnośd (200MB/s), pojemnośd (3 TB), niezawodnośd (MTBF itp.)

• Macierze dyskowe: – Pokonują ograniczenia pojedynczych dysków twardych:

• Wydajnośd: akomodacja wydajności poszczególnych dysków • Niezawodnośd: maskowanie błędów/awarii • Skalowalnośd: wydajnośd, pojemnośd

• Sieci SAN/NAS:

– Dalsza konsolidacja zasobów pozwala na: • Elastycznośd zarządzania • Dalsze skalowanie wydajności i pojemności zasobów (poza ograniczenia macierzy)

Podsumowanie (2)

• Nowoczesne systemy dyskowe i sieci pamięci masowych: – Zalety:

• Stosowane w dużej skali pozwalają na zbudowanie, wydajnego, pojemnego i niezawodnego systemu przechowywania danych

• Efekt skali pozwala na: – relatywne zmniejszenie jednostkowych kosztów przechowywania, – optymalną realizację technik takich jak:

» replikacja danych, » maskowanie błędów, itp.. » wydajnośd operacji

– efektywne kosztowo oferowanie usług: » kopii zapasowych » archiwizacji

– Trudności: • Wymagają know-how i doświadczenia • Wymagają sporych nakładów inwestycyjnych i na utrzymanie

– Wniosek: • Warto korzystad z dużych systemów, w których „ktoś”

bierze na siebie w/w trudności • Użytkownik korzysta z „wysokiej jakości” przestrzeni przechowywania

za rozsądne pieniądze (lub za darmo )

Pytania ?

Dziękujemy za uwagę

http://royal.pingdom.com

Nowoczesne systemy dyskowe i sieci pamięci masowych · Dyski nie rozwijają się tak szybko jak...

Documents

Transcript of Nowoczesne systemy dyskowe i sieci pamięci masowych · Dyski nie rozwijają się tak szybko jak...