Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440...

Post on 19-Apr-2020

2 views 0 download

Transcript of Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440...

Nowoczesne systemy przechowywania danych

Stanisław Jankowski

Dysk twardy

uniwersalne medium przyszłości (?)

Źródło: Wikipedia: http://en.wikipedia.org/wiki/Hard_disk_drive

Dysk twardy

2005

2007

2008

2009

Źródło: http://www.tomshardware.com/reviews/sas-hard-drive,2566.html

Dyski nie rozwijają się tak szybko jak procesory

Dysk twardy

Read access time: 12.3-14.4 ms Read access time: 5.5-5.9 ms

Ewolucja napędów "desktopowych" - 7200 obr/min (2001-2007)

0

100

200

300

400

500

600

700

800

900

1000

2001 2002 2003 2004 2005 2006 2007

rok

Max. Transfer rate GB/ platter Capacity [GB]

Ewolucja napędów "serwerowych" - 15 000 obr/min (2002-2007)

0

50

100

150

200

250

300

2002 2003 2004 2005 2006 2007

rok

Max. Transfer rate GB/ platter Capacity [GB]

Dyski nie rozwijają się tak szybko jak procesory

Konsolidacja Pamięci Masowej

IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw

lata ‘60

Komputer PC zdobywa każdą przestrzeń w przedsiębiostwach

lata ‘80 XXI wiek

Data Center - konsolidacja serwerów - konsolidacja przestrzeni dyskowej

lata ‘90

konsolidacja klient - serwer

• Dostęp do zasobów przy użyciu protokołów: – NFS (Network File System)

– CIFS (Common Internet File System)

– WWW, ftp

– DLNA (klientem Telewizor LCD)

• Realizacja na różne sposoby: – zastosowanie zwykłych serwerów, które pełnią rolę serwerów plików korzystając

poprzez SAN ze wspólnych zasobów dyskowych

– „filery” (JBOD + serwer ) z własnymi dyskami,

– bramy SAN-NAS korzystające z zewnętrznych macierzy

• NetApp, BlueArc, OnStor

• Dostępne rozwiązania dla wysokowydajnych usług plikowych: • klastry serwerów NFS pNFS

• CXFS system plików sprzedawany przez SGI czyli RACKABLE

• GPFS system plików sprzedawany przez IBM’a

• lustre – wysokowydajny klastrowy system plików sprawdza się dla dużych bloków (blok 1MB)

działająca „proteza” zanim pojawi się pNFS

NAS – urządzenia plikowe

SAN

• dedykowana sieć

– łączy urządzenia w sieci „każdy z każdym”

– protokoły blokowe

– zapewnia wydajną transmisję

danych pomiędzy urządzeniami

pracującymi w sieci

L A N

S A N

Serwery

S/390 HP

Sun RS/6000 xSeries

SAN - infrastruktura • Macierze dyskowe

– modularne • półka kontrolerów + półki z dyskami:

OEM LSI: IBM, SUN, SGI

– monolityczne • duża liczba kontrolerów (procesorów IO), portów,

redundancja połączeń

• Biblioteki taśmowe/magnetooptyczne

• Przełączniki FC / urządzenia typu Director

• Karty HBA (Host Bus Adapter)

• System nadzoru i zarządzania

SAN – zalety/wady

• Zalety:

– Elastyczność: dostęp do zasobów i możliwość dowolnej ich konfiguracji

bez konieczności zmian w fizycznej strukturze urządzeń i okablowaniu

– Separacja zasobów:

• na poziomie macierzy - LUN masking – interfejsy serwerów reprezentowane są w macierzy

poprzez unikalne numery WWN

– numerowi WWN przypisany jest wolumen logiczny w macierzy

(utworzony w ramach grupy RAID),

co umożliwia współdzielenie portów macierzy przez różne serwery,

bez ryzyka przejęcia "cudzych" zasobów

• na poziomie przełączników - podział na strefy (WWN zoning, port zoning) – ograniczenie ruchu pomiędzy wybrane porty przełącznika FC

– Funkcjonalność podobna do VLAN w sieciach Ethernet

• na poziomie kart HBA serwera - persistent binding. – definicja zasobów widzianych przez interfejsy HBA serwera

• Wady: – wysoka cena wdrożenia

– problemy przy rozbudowie/aktualizacji oprogramowania

Fibre Channel • Na początku był HIPPI, łączył superkomputery przy pomocy 50 parowych przewodów

na krótką odległość, więc trzeba było to uprościć.

• FC jest protokołem hybrydowym – kanałowo-sieciowym – Kanałowym:

ponieważ potrafi zestawić kanały z zamkniętym i przewidywalnym mechanizmem transmisji pomiędzy

ograniczoną liczbą urządzeń. Raz ustanowiony kanał potrzebuje bardzo niewielkiego nakładu pracy na

obsługę transferów, co skutkuje ich wysoką efektywnością. Protokoły kanałowe są z tego powodu bardzo

chętnie wykorzystywane do łączenia macierzy dyskowych, napędów taśmowych z serwerami.

– Sieciowym ponieważ potrafi obsłużyć bardziej skomplikowane struktury połączeń urządzeń, ustalać trasy pomiędzy

nimi, a więc podejmować większą liczbę decyzji. W sieciach duża część tych decyzji jest wykonywana

programowo co spowalnia ich pracę. W Fibre Channel ilość decyzji jest ograniczona i realizowana w dużej

mierze na poziomie sprzętowym

• Fizyczny transport odbywa się poprzez – łącza światłowodowe

– miedziane

• Typy połączeń: – Pętla arbitrażowa (arbitrated loop)

– sieć szeregowa z przełącznikami

w różnych topologiach mesh, core-edge oraz mieszanych.

• Możliwość łączenia urządzeń oddalonych o ponad 100 kilometrów (w trybie synchr.)

FC-Arbitrated Loop

FC-Switched Fabric

FC a inne protokoły

iSCSI • Protokół przesyłania danych w sieci IP w oparciu o protokół

SCSI: – wykorzystuje transportowanie standardowych komend SCSI

– przenosi je za pomocą protokołu TCP/IP (zazwyczaj po sieci Ethernet)

• Zalety: – Łatwość implementacji:

• używamy NIC a nie HBA

• interfejs SCSI służy do wymiany danych, bez ograniczenia na odległość od macierzy

• protokół iSCSI kapsułkuje i transferuje polecenia zapisu odczytu danych

• protokół iSCSI komunikuje się bezpośrednio z protokołem SCSI obsługiwanych przez

system operacyjny

– niskie koszty rozbudowy (sterowniki bezpłatne)

• Linux-iSCSI Project

• tgtadm - Linux SCSI Target Administration Utility

• Wady: – zbyt wolne dla niektórych rozwiązań (zalecane używanie Jumbo Frames)

– znaczne obciążenie CPU klientów

Czym są urządzenia taśmowe

Kasety do napędów dzielą się na dwa rodzaje – z dwoma szpulami i z

jedną szpulą:

Obecnie w zastosowaniach profesjonalnych stosuje się najczęściej taśmy z

jedną szpulą: LTO, SDLT, natomiast w pozostałych taśmy z dwoma

szpulami: DAT72, QIC.

Czym są urządzenia taśmowe

Przykładowy system prowadzenia taśmy:

Ułożenie ścieżek Helical scan

Line serpentine

Czym różnią się od dysków? Urządzenia taśmowe: Twarde dyski

•Szeregowy dostęp do danych

•Wymienne nośniki

•Długi czas przechowywania danych

(30 lat)

•Wydajne algorytmy korekcji błędów

WH Error: 10-17 SW Error: 10-27

•Duża odporność na uszkodzenia

nośnika

•Bardzo szybki transfer liniowy

– ok. 280MB/s (LTO-5 Comp.)

•Potencjalnie bardzo długi czas

oczekiwania na określowny fragment

danych

•Kodowanie: RLL, MPRL, NPML

•Brak systemu plików (wyjątek LTFS)

•RAIT

•Blokowy dostęp do danych

•Niewymienne nośniki

•Nieznany maksymalny czas

przechowywania

•Słabsze algorytmy korekcji

•Mała odporność na uszkodzenia

mechaniczne

•Transfer liniowy na poziomie

120MB/s

•Stosunkowo krótki czas

oczekiwania

na określony fragment danych

•Kodowanie RLL

•Ściśle zdefinowane systemy

plików

Podstawowe parametry nośnika Taśma LTO-5:

Gwarantowany czas przechowywania archiwum 15..30 lat

Pojemność 1500GB / 3000GB (2:1)

Maksymalna liczba montowań taśmy: 5000

Maksymalna liczba przebiegów głowicy 1 000 000 co daje ok. 260 pełnych

zapisów / odczytów nośnika.

Cartridge Memory: jeśli występuje pozwala odczytać ważne informacje o

taśmie: Liczbę montowań, Liczbę przebiegów głowicy, Ewentualne problemy,

Bar Code

Odporność na uszkodzenia – wycięcie 3,2cm taśmy lub całkowite zniszczenie

1 ścieżki

1280 ścieżek, 16 zapisywanych w tym samym czasie, 80 przebiegów dla

całkowitego zapisu

Po zapisie od razu weryfikacja głowicą czytającą

Podstawowe parametry napędu LTO-5: (przykładowo Quantum LTO-5 FH)

•Pojemność nośników: 1500GB, 3000GB (2:1) 4500GB (3:1 IBM)

•Interface FC-8

•Szybkość transferu: 140MB/s, 280MB/s (2:1)

•Czas potrzebny na utworzenie pełnego archiwum: 90 minut (2:1)

Dostępność WORM-a: TAK

•Szyfrowanie sprzętowe: 256bit AES

•Pamięć cache: 256MB

Przyszłość technologii LTO:

Kiedy i dlaczego używamy technologii taśmowych

Stosujemy:

•Archiwa długoterminowe

•Bezpieczeństwo danych nie modyfikowanych (WORM)

•Trwałość mechaniczna: dysk pracuje przez cały czas taśma tylko chwilę

•Przechowywanie dużych pojemności

•Kopie bezpieczeństwa

•Szybkość dostępu do danych jest drugorzędna

•Wymagane mocne kody korekcyjne

Nie stosujemy:

•Szybki lub losowy dostęp do danych

•Dane często ulegają zmianie

•Krótki czas, życia danych

•Dane małoistotne

Biblioteka IBM TS3500

4 szafy, 16 napędów LTO, 3326 slotów, 1 robot

– Oferowana pojemność bez kompresji: 2,66 PB

– Szybkość zapisu / odczytu: 1,92 GB/s

– Orientacyjna cena wraz kompletem kaset 279 000 USD

– Maksymalne zasilanie: 1,6 kW

– Zajmowana powierzchnia 12,52 m2

Biblioteka IBM TS3500

Biblioteka IBM TS3500

Biblioteka z taśmami

HSM – ang. Hierarchical Storage

Management

Parametry użytkowe i cechy systemu HSM Przykładowa realizacja HSM w PCSS Poziomy hierarchii HSM

DS5300 – 1 macierz zawiera 2 kontrolery i 272 dyski 750 GB SATA

– Pamięć cache: 8 GB

– Porty FC: 8 x 8 Gbps

– Pojemność brutto: 204 TB (pojemność netto w

RAID-6 ok. 185 TB)

– Max. wydajność: 4,7 GB/s

– SPC1-IOPS: 58 158 IOPS

– Orientacyjna cena : 265 000 USD

– Max. Zasilanie: 9,86 kW

– Zajmowana powierzchnia: 3,50 m2

DS5020, DS5300

Switch FC 10-Gbit

SSD

uniwersalne medium przyszłości (?)…

RAMSAN 620

RAMSAN 620

RAMSAN 620 – 1 macierz zawiera 20 kart pamięci SSD NAND 265GB

– Porty FC: 2 x 4 Gbps

– Pojemność brutto: 5 TB (dostępny RAID 5)

– Max. wydajność: 3 GB/s

– Stałe opóźnienie: 80 milisekund

– SPC1-IOPS: 250 000 IOPS !!!

– Orientacyjna cena : 287 000 USD

– Max. Zasilanie: 230 W !!!

– Zajmowana powierzchnia: 2U !!!

Pytania ?

Dziękuję za uwagę

http://royal.pingdom.com