Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440...

34
Nowoczesne systemy przechowywania danych Stanisław Jankowski

Transcript of Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440...

Page 1: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Nowoczesne systemy przechowywania danych

Stanisław Jankowski

Page 2: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Dysk twardy

uniwersalne medium przyszłości (?)

Źródło: Wikipedia: http://en.wikipedia.org/wiki/Hard_disk_drive

Page 3: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Dysk twardy

2005

2007

2008

2009

Źródło: http://www.tomshardware.com/reviews/sas-hard-drive,2566.html

Dyski nie rozwijają się tak szybko jak procesory

Page 4: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Dysk twardy

Read access time: 12.3-14.4 ms Read access time: 5.5-5.9 ms

Ewolucja napędów "desktopowych" - 7200 obr/min (2001-2007)

0

100

200

300

400

500

600

700

800

900

1000

2001 2002 2003 2004 2005 2006 2007

rok

Max. Transfer rate GB/ platter Capacity [GB]

Ewolucja napędów "serwerowych" - 15 000 obr/min (2002-2007)

0

50

100

150

200

250

300

2002 2003 2004 2005 2006 2007

rok

Max. Transfer rate GB/ platter Capacity [GB]

Dyski nie rozwijają się tak szybko jak procesory

Page 5: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Konsolidacja Pamięci Masowej

IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw

lata ‘60

Komputer PC zdobywa każdą przestrzeń w przedsiębiostwach

lata ‘80 XXI wiek

Data Center - konsolidacja serwerów - konsolidacja przestrzeni dyskowej

lata ‘90

konsolidacja klient - serwer

Page 6: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

• Dostęp do zasobów przy użyciu protokołów: – NFS (Network File System)

– CIFS (Common Internet File System)

– WWW, ftp

– DLNA (klientem Telewizor LCD)

• Realizacja na różne sposoby: – zastosowanie zwykłych serwerów, które pełnią rolę serwerów plików korzystając

poprzez SAN ze wspólnych zasobów dyskowych

– „filery” (JBOD + serwer ) z własnymi dyskami,

– bramy SAN-NAS korzystające z zewnętrznych macierzy

• NetApp, BlueArc, OnStor

• Dostępne rozwiązania dla wysokowydajnych usług plikowych: • klastry serwerów NFS pNFS

• CXFS system plików sprzedawany przez SGI czyli RACKABLE

• GPFS system plików sprzedawany przez IBM’a

• lustre – wysokowydajny klastrowy system plików sprawdza się dla dużych bloków (blok 1MB)

działająca „proteza” zanim pojawi się pNFS

NAS – urządzenia plikowe

Page 7: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

SAN

• dedykowana sieć

– łączy urządzenia w sieci „każdy z każdym”

– protokoły blokowe

– zapewnia wydajną transmisję

danych pomiędzy urządzeniami

pracującymi w sieci

L A N

S A N

Serwery

S/390 HP

Sun RS/6000 xSeries

Page 8: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

SAN - infrastruktura • Macierze dyskowe

– modularne • półka kontrolerów + półki z dyskami:

OEM LSI: IBM, SUN, SGI

– monolityczne • duża liczba kontrolerów (procesorów IO), portów,

redundancja połączeń

• Biblioteki taśmowe/magnetooptyczne

• Przełączniki FC / urządzenia typu Director

• Karty HBA (Host Bus Adapter)

• System nadzoru i zarządzania

Page 9: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

SAN – zalety/wady

• Zalety:

– Elastyczność: dostęp do zasobów i możliwość dowolnej ich konfiguracji

bez konieczności zmian w fizycznej strukturze urządzeń i okablowaniu

– Separacja zasobów:

• na poziomie macierzy - LUN masking – interfejsy serwerów reprezentowane są w macierzy

poprzez unikalne numery WWN

– numerowi WWN przypisany jest wolumen logiczny w macierzy

(utworzony w ramach grupy RAID),

co umożliwia współdzielenie portów macierzy przez różne serwery,

bez ryzyka przejęcia "cudzych" zasobów

• na poziomie przełączników - podział na strefy (WWN zoning, port zoning) – ograniczenie ruchu pomiędzy wybrane porty przełącznika FC

– Funkcjonalność podobna do VLAN w sieciach Ethernet

• na poziomie kart HBA serwera - persistent binding. – definicja zasobów widzianych przez interfejsy HBA serwera

• Wady: – wysoka cena wdrożenia

– problemy przy rozbudowie/aktualizacji oprogramowania

Page 10: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Fibre Channel • Na początku był HIPPI, łączył superkomputery przy pomocy 50 parowych przewodów

na krótką odległość, więc trzeba było to uprościć.

• FC jest protokołem hybrydowym – kanałowo-sieciowym – Kanałowym:

ponieważ potrafi zestawić kanały z zamkniętym i przewidywalnym mechanizmem transmisji pomiędzy

ograniczoną liczbą urządzeń. Raz ustanowiony kanał potrzebuje bardzo niewielkiego nakładu pracy na

obsługę transferów, co skutkuje ich wysoką efektywnością. Protokoły kanałowe są z tego powodu bardzo

chętnie wykorzystywane do łączenia macierzy dyskowych, napędów taśmowych z serwerami.

– Sieciowym ponieważ potrafi obsłużyć bardziej skomplikowane struktury połączeń urządzeń, ustalać trasy pomiędzy

nimi, a więc podejmować większą liczbę decyzji. W sieciach duża część tych decyzji jest wykonywana

programowo co spowalnia ich pracę. W Fibre Channel ilość decyzji jest ograniczona i realizowana w dużej

mierze na poziomie sprzętowym

• Fizyczny transport odbywa się poprzez – łącza światłowodowe

– miedziane

• Typy połączeń: – Pętla arbitrażowa (arbitrated loop)

– sieć szeregowa z przełącznikami

w różnych topologiach mesh, core-edge oraz mieszanych.

• Możliwość łączenia urządzeń oddalonych o ponad 100 kilometrów (w trybie synchr.)

FC-Arbitrated Loop

FC-Switched Fabric

Page 11: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

FC a inne protokoły

Page 12: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

iSCSI • Protokół przesyłania danych w sieci IP w oparciu o protokół

SCSI: – wykorzystuje transportowanie standardowych komend SCSI

– przenosi je za pomocą protokołu TCP/IP (zazwyczaj po sieci Ethernet)

• Zalety: – Łatwość implementacji:

• używamy NIC a nie HBA

• interfejs SCSI służy do wymiany danych, bez ograniczenia na odległość od macierzy

• protokół iSCSI kapsułkuje i transferuje polecenia zapisu odczytu danych

• protokół iSCSI komunikuje się bezpośrednio z protokołem SCSI obsługiwanych przez

system operacyjny

– niskie koszty rozbudowy (sterowniki bezpłatne)

• Linux-iSCSI Project

• tgtadm - Linux SCSI Target Administration Utility

• Wady: – zbyt wolne dla niektórych rozwiązań (zalecane używanie Jumbo Frames)

– znaczne obciążenie CPU klientów

Page 13: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Czym są urządzenia taśmowe

Kasety do napędów dzielą się na dwa rodzaje – z dwoma szpulami i z

jedną szpulą:

Obecnie w zastosowaniach profesjonalnych stosuje się najczęściej taśmy z

jedną szpulą: LTO, SDLT, natomiast w pozostałych taśmy z dwoma

szpulami: DAT72, QIC.

Page 14: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Czym są urządzenia taśmowe

Przykładowy system prowadzenia taśmy:

Page 15: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Ułożenie ścieżek Helical scan

Line serpentine

Page 16: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Czym różnią się od dysków? Urządzenia taśmowe: Twarde dyski

•Szeregowy dostęp do danych

•Wymienne nośniki

•Długi czas przechowywania danych

(30 lat)

•Wydajne algorytmy korekcji błędów

WH Error: 10-17 SW Error: 10-27

•Duża odporność na uszkodzenia

nośnika

•Bardzo szybki transfer liniowy

– ok. 280MB/s (LTO-5 Comp.)

•Potencjalnie bardzo długi czas

oczekiwania na określowny fragment

danych

•Kodowanie: RLL, MPRL, NPML

•Brak systemu plików (wyjątek LTFS)

•RAIT

•Blokowy dostęp do danych

•Niewymienne nośniki

•Nieznany maksymalny czas

przechowywania

•Słabsze algorytmy korekcji

•Mała odporność na uszkodzenia

mechaniczne

•Transfer liniowy na poziomie

120MB/s

•Stosunkowo krótki czas

oczekiwania

na określony fragment danych

•Kodowanie RLL

•Ściśle zdefinowane systemy

plików

Page 17: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Podstawowe parametry nośnika Taśma LTO-5:

Gwarantowany czas przechowywania archiwum 15..30 lat

Pojemność 1500GB / 3000GB (2:1)

Maksymalna liczba montowań taśmy: 5000

Maksymalna liczba przebiegów głowicy 1 000 000 co daje ok. 260 pełnych

zapisów / odczytów nośnika.

Cartridge Memory: jeśli występuje pozwala odczytać ważne informacje o

taśmie: Liczbę montowań, Liczbę przebiegów głowicy, Ewentualne problemy,

Bar Code

Odporność na uszkodzenia – wycięcie 3,2cm taśmy lub całkowite zniszczenie

1 ścieżki

1280 ścieżek, 16 zapisywanych w tym samym czasie, 80 przebiegów dla

całkowitego zapisu

Po zapisie od razu weryfikacja głowicą czytającą

Page 18: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Podstawowe parametry napędu LTO-5: (przykładowo Quantum LTO-5 FH)

•Pojemność nośników: 1500GB, 3000GB (2:1) 4500GB (3:1 IBM)

•Interface FC-8

•Szybkość transferu: 140MB/s, 280MB/s (2:1)

•Czas potrzebny na utworzenie pełnego archiwum: 90 minut (2:1)

Dostępność WORM-a: TAK

•Szyfrowanie sprzętowe: 256bit AES

•Pamięć cache: 256MB

Page 19: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Przyszłość technologii LTO:

Page 20: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Kiedy i dlaczego używamy technologii taśmowych

Stosujemy:

•Archiwa długoterminowe

•Bezpieczeństwo danych nie modyfikowanych (WORM)

•Trwałość mechaniczna: dysk pracuje przez cały czas taśma tylko chwilę

•Przechowywanie dużych pojemności

•Kopie bezpieczeństwa

•Szybkość dostępu do danych jest drugorzędna

•Wymagane mocne kody korekcyjne

Nie stosujemy:

•Szybki lub losowy dostęp do danych

•Dane często ulegają zmianie

•Krótki czas, życia danych

•Dane małoistotne

Page 21: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Biblioteka IBM TS3500

4 szafy, 16 napędów LTO, 3326 slotów, 1 robot

– Oferowana pojemność bez kompresji: 2,66 PB

– Szybkość zapisu / odczytu: 1,92 GB/s

– Orientacyjna cena wraz kompletem kaset 279 000 USD

– Maksymalne zasilanie: 1,6 kW

– Zajmowana powierzchnia 12,52 m2

Page 22: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Biblioteka IBM TS3500

Page 23: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Biblioteka IBM TS3500

Page 24: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Biblioteka z taśmami

Page 25: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

HSM – ang. Hierarchical Storage

Management

Parametry użytkowe i cechy systemu HSM Przykładowa realizacja HSM w PCSS Poziomy hierarchii HSM

Page 26: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

DS5300 – 1 macierz zawiera 2 kontrolery i 272 dyski 750 GB SATA

– Pamięć cache: 8 GB

– Porty FC: 8 x 8 Gbps

– Pojemność brutto: 204 TB (pojemność netto w

RAID-6 ok. 185 TB)

– Max. wydajność: 4,7 GB/s

– SPC1-IOPS: 58 158 IOPS

– Orientacyjna cena : 265 000 USD

– Max. Zasilanie: 9,86 kW

– Zajmowana powierzchnia: 3,50 m2

Page 27: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

DS5020, DS5300

Page 28: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Switch FC 10-Gbit

Page 29: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

SSD

uniwersalne medium przyszłości (?)…

Page 30: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

RAMSAN 620

Page 31: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

RAMSAN 620

Page 32: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

RAMSAN 620 – 1 macierz zawiera 20 kart pamięci SSD NAND 265GB

– Porty FC: 2 x 4 Gbps

– Pojemność brutto: 5 TB (dostępny RAID 5)

– Max. wydajność: 3 GB/s

– Stałe opóźnienie: 80 milisekund

– SPC1-IOPS: 250 000 IOPS !!!

– Orientacyjna cena : 287 000 USD

– Max. Zasilanie: 230 W !!!

– Zajmowana powierzchnia: 2U !!!

Page 34: Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw lata ‘60 Komputer

Pytania ?

Dziękuję za uwagę

http://royal.pingdom.com