Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440...
Transcript of Nowoczesne systemy przechowywania danychputwiki.informatyka.org/images/2/2d/Storage.pdf · IBM 1440...
Nowoczesne systemy przechowywania danych
Stanisław Jankowski
Dysk twardy
uniwersalne medium przyszłości (?)
Źródło: Wikipedia: http://en.wikipedia.org/wiki/Hard_disk_drive
Dysk twardy
2005
2007
2008
2009
Źródło: http://www.tomshardware.com/reviews/sas-hard-drive,2566.html
Dyski nie rozwijają się tak szybko jak procesory
Dysk twardy
Read access time: 12.3-14.4 ms Read access time: 5.5-5.9 ms
Ewolucja napędów "desktopowych" - 7200 obr/min (2001-2007)
0
100
200
300
400
500
600
700
800
900
1000
2001 2002 2003 2004 2005 2006 2007
rok
Max. Transfer rate GB/ platter Capacity [GB]
Ewolucja napędów "serwerowych" - 15 000 obr/min (2002-2007)
0
50
100
150
200
250
300
2002 2003 2004 2005 2006 2007
rok
Max. Transfer rate GB/ platter Capacity [GB]
Dyski nie rozwijają się tak szybko jak procesory
Konsolidacja Pamięci Masowej
IBM 1440 tania jednostka przetwarzania danych dla małych przedsiębiorstw
lata ‘60
Komputer PC zdobywa każdą przestrzeń w przedsiębiostwach
lata ‘80 XXI wiek
Data Center - konsolidacja serwerów - konsolidacja przestrzeni dyskowej
lata ‘90
konsolidacja klient - serwer
• Dostęp do zasobów przy użyciu protokołów: – NFS (Network File System)
– CIFS (Common Internet File System)
– WWW, ftp
– DLNA (klientem Telewizor LCD)
• Realizacja na różne sposoby: – zastosowanie zwykłych serwerów, które pełnią rolę serwerów plików korzystając
poprzez SAN ze wspólnych zasobów dyskowych
– „filery” (JBOD + serwer ) z własnymi dyskami,
– bramy SAN-NAS korzystające z zewnętrznych macierzy
• NetApp, BlueArc, OnStor
• Dostępne rozwiązania dla wysokowydajnych usług plikowych: • klastry serwerów NFS pNFS
• CXFS system plików sprzedawany przez SGI czyli RACKABLE
• GPFS system plików sprzedawany przez IBM’a
• lustre – wysokowydajny klastrowy system plików sprawdza się dla dużych bloków (blok 1MB)
działająca „proteza” zanim pojawi się pNFS
NAS – urządzenia plikowe
SAN
• dedykowana sieć
– łączy urządzenia w sieci „każdy z każdym”
– protokoły blokowe
– zapewnia wydajną transmisję
danych pomiędzy urządzeniami
pracującymi w sieci
L A N
S A N
Serwery
S/390 HP
Sun RS/6000 xSeries
SAN - infrastruktura • Macierze dyskowe
– modularne • półka kontrolerów + półki z dyskami:
OEM LSI: IBM, SUN, SGI
– monolityczne • duża liczba kontrolerów (procesorów IO), portów,
redundancja połączeń
• Biblioteki taśmowe/magnetooptyczne
• Przełączniki FC / urządzenia typu Director
• Karty HBA (Host Bus Adapter)
• System nadzoru i zarządzania
SAN – zalety/wady
• Zalety:
– Elastyczność: dostęp do zasobów i możliwość dowolnej ich konfiguracji
bez konieczności zmian w fizycznej strukturze urządzeń i okablowaniu
– Separacja zasobów:
• na poziomie macierzy - LUN masking – interfejsy serwerów reprezentowane są w macierzy
poprzez unikalne numery WWN
– numerowi WWN przypisany jest wolumen logiczny w macierzy
(utworzony w ramach grupy RAID),
co umożliwia współdzielenie portów macierzy przez różne serwery,
bez ryzyka przejęcia "cudzych" zasobów
• na poziomie przełączników - podział na strefy (WWN zoning, port zoning) – ograniczenie ruchu pomiędzy wybrane porty przełącznika FC
– Funkcjonalność podobna do VLAN w sieciach Ethernet
• na poziomie kart HBA serwera - persistent binding. – definicja zasobów widzianych przez interfejsy HBA serwera
• Wady: – wysoka cena wdrożenia
– problemy przy rozbudowie/aktualizacji oprogramowania
Fibre Channel • Na początku był HIPPI, łączył superkomputery przy pomocy 50 parowych przewodów
na krótką odległość, więc trzeba było to uprościć.
• FC jest protokołem hybrydowym – kanałowo-sieciowym – Kanałowym:
ponieważ potrafi zestawić kanały z zamkniętym i przewidywalnym mechanizmem transmisji pomiędzy
ograniczoną liczbą urządzeń. Raz ustanowiony kanał potrzebuje bardzo niewielkiego nakładu pracy na
obsługę transferów, co skutkuje ich wysoką efektywnością. Protokoły kanałowe są z tego powodu bardzo
chętnie wykorzystywane do łączenia macierzy dyskowych, napędów taśmowych z serwerami.
– Sieciowym ponieważ potrafi obsłużyć bardziej skomplikowane struktury połączeń urządzeń, ustalać trasy pomiędzy
nimi, a więc podejmować większą liczbę decyzji. W sieciach duża część tych decyzji jest wykonywana
programowo co spowalnia ich pracę. W Fibre Channel ilość decyzji jest ograniczona i realizowana w dużej
mierze na poziomie sprzętowym
• Fizyczny transport odbywa się poprzez – łącza światłowodowe
– miedziane
• Typy połączeń: – Pętla arbitrażowa (arbitrated loop)
– sieć szeregowa z przełącznikami
w różnych topologiach mesh, core-edge oraz mieszanych.
• Możliwość łączenia urządzeń oddalonych o ponad 100 kilometrów (w trybie synchr.)
FC-Arbitrated Loop
FC-Switched Fabric
FC a inne protokoły
iSCSI • Protokół przesyłania danych w sieci IP w oparciu o protokół
SCSI: – wykorzystuje transportowanie standardowych komend SCSI
– przenosi je za pomocą protokołu TCP/IP (zazwyczaj po sieci Ethernet)
• Zalety: – Łatwość implementacji:
• używamy NIC a nie HBA
• interfejs SCSI służy do wymiany danych, bez ograniczenia na odległość od macierzy
• protokół iSCSI kapsułkuje i transferuje polecenia zapisu odczytu danych
• protokół iSCSI komunikuje się bezpośrednio z protokołem SCSI obsługiwanych przez
system operacyjny
– niskie koszty rozbudowy (sterowniki bezpłatne)
• Linux-iSCSI Project
• tgtadm - Linux SCSI Target Administration Utility
• Wady: – zbyt wolne dla niektórych rozwiązań (zalecane używanie Jumbo Frames)
– znaczne obciążenie CPU klientów
Czym są urządzenia taśmowe
Kasety do napędów dzielą się na dwa rodzaje – z dwoma szpulami i z
jedną szpulą:
Obecnie w zastosowaniach profesjonalnych stosuje się najczęściej taśmy z
jedną szpulą: LTO, SDLT, natomiast w pozostałych taśmy z dwoma
szpulami: DAT72, QIC.
Czym są urządzenia taśmowe
Przykładowy system prowadzenia taśmy:
Ułożenie ścieżek Helical scan
Line serpentine
Czym różnią się od dysków? Urządzenia taśmowe: Twarde dyski
•Szeregowy dostęp do danych
•Wymienne nośniki
•Długi czas przechowywania danych
(30 lat)
•Wydajne algorytmy korekcji błędów
WH Error: 10-17 SW Error: 10-27
•Duża odporność na uszkodzenia
nośnika
•Bardzo szybki transfer liniowy
– ok. 280MB/s (LTO-5 Comp.)
•Potencjalnie bardzo długi czas
oczekiwania na określowny fragment
danych
•Kodowanie: RLL, MPRL, NPML
•Brak systemu plików (wyjątek LTFS)
•RAIT
•Blokowy dostęp do danych
•Niewymienne nośniki
•Nieznany maksymalny czas
przechowywania
•Słabsze algorytmy korekcji
•Mała odporność na uszkodzenia
mechaniczne
•Transfer liniowy na poziomie
120MB/s
•Stosunkowo krótki czas
oczekiwania
na określony fragment danych
•Kodowanie RLL
•Ściśle zdefinowane systemy
plików
Podstawowe parametry nośnika Taśma LTO-5:
Gwarantowany czas przechowywania archiwum 15..30 lat
Pojemność 1500GB / 3000GB (2:1)
Maksymalna liczba montowań taśmy: 5000
Maksymalna liczba przebiegów głowicy 1 000 000 co daje ok. 260 pełnych
zapisów / odczytów nośnika.
Cartridge Memory: jeśli występuje pozwala odczytać ważne informacje o
taśmie: Liczbę montowań, Liczbę przebiegów głowicy, Ewentualne problemy,
Bar Code
Odporność na uszkodzenia – wycięcie 3,2cm taśmy lub całkowite zniszczenie
1 ścieżki
1280 ścieżek, 16 zapisywanych w tym samym czasie, 80 przebiegów dla
całkowitego zapisu
Po zapisie od razu weryfikacja głowicą czytającą
Podstawowe parametry napędu LTO-5: (przykładowo Quantum LTO-5 FH)
•Pojemność nośników: 1500GB, 3000GB (2:1) 4500GB (3:1 IBM)
•Interface FC-8
•Szybkość transferu: 140MB/s, 280MB/s (2:1)
•Czas potrzebny na utworzenie pełnego archiwum: 90 minut (2:1)
Dostępność WORM-a: TAK
•Szyfrowanie sprzętowe: 256bit AES
•Pamięć cache: 256MB
Przyszłość technologii LTO:
Kiedy i dlaczego używamy technologii taśmowych
Stosujemy:
•Archiwa długoterminowe
•Bezpieczeństwo danych nie modyfikowanych (WORM)
•Trwałość mechaniczna: dysk pracuje przez cały czas taśma tylko chwilę
•Przechowywanie dużych pojemności
•Kopie bezpieczeństwa
•Szybkość dostępu do danych jest drugorzędna
•Wymagane mocne kody korekcyjne
Nie stosujemy:
•Szybki lub losowy dostęp do danych
•Dane często ulegają zmianie
•Krótki czas, życia danych
•Dane małoistotne
Biblioteka IBM TS3500
4 szafy, 16 napędów LTO, 3326 slotów, 1 robot
– Oferowana pojemność bez kompresji: 2,66 PB
– Szybkość zapisu / odczytu: 1,92 GB/s
– Orientacyjna cena wraz kompletem kaset 279 000 USD
– Maksymalne zasilanie: 1,6 kW
– Zajmowana powierzchnia 12,52 m2
Biblioteka IBM TS3500
Biblioteka IBM TS3500
Biblioteka z taśmami
HSM – ang. Hierarchical Storage
Management
Parametry użytkowe i cechy systemu HSM Przykładowa realizacja HSM w PCSS Poziomy hierarchii HSM
DS5300 – 1 macierz zawiera 2 kontrolery i 272 dyski 750 GB SATA
– Pamięć cache: 8 GB
– Porty FC: 8 x 8 Gbps
– Pojemność brutto: 204 TB (pojemność netto w
RAID-6 ok. 185 TB)
– Max. wydajność: 4,7 GB/s
– SPC1-IOPS: 58 158 IOPS
– Orientacyjna cena : 265 000 USD
– Max. Zasilanie: 9,86 kW
– Zajmowana powierzchnia: 3,50 m2
DS5020, DS5300
Switch FC 10-Gbit
SSD
uniwersalne medium przyszłości (?)…
RAMSAN 620
RAMSAN 620
RAMSAN 620 – 1 macierz zawiera 20 kart pamięci SSD NAND 265GB
– Porty FC: 2 x 4 Gbps
– Pojemność brutto: 5 TB (dostępny RAID 5)
– Max. wydajność: 3 GB/s
– Stałe opóźnienie: 80 milisekund
– SPC1-IOPS: 250 000 IOPS !!!
– Orientacyjna cena : 287 000 USD
– Max. Zasilanie: 230 W !!!
– Zajmowana powierzchnia: 2U !!!
Linki:
• http://www.storageperformance.org/home/
• http://www.lto.org/
• http://www.fujitsu.com/global/services/computing/storage/eternus/produ
cts/tape/
• http://www.terena.org/activities/tf-storage/
• http://www.ramsan.com/
• http://www-03.ibm.com/systems/storage/
Pytania ?
Dziękuję za uwagę
http://royal.pingdom.com