Badanie skalowalności HBase
Click here to load reader
-
Upload
wojciech-langiewicz -
Category
Business
-
view
161 -
download
1
Transcript of Badanie skalowalności HBase
Badanie skalowalności systemu HBase
Zygmunt Mazur, Wojciech Langiewicz
Plan prezentacji
• Czym jest HBase i NoSQL?• Podstawy architektury• Przykłady zastosowania• Przeprowadzone testy i wyniki• Podsumowanie
Skalowalność
• Zdolność do zwiększania wydajności systemu wraz ze zwiększaniem jego zasobów (np. sprzętowych)
• Liniowa skalowalność – zwiększając ilość zasobów systemu X razy, zwiększamy także X razy jego wydajność
• Większość RDBMS nie posiada tej cechy• HBase jest skalowalny do nawet setek
serwerów
Czym jest HBase
• Nierelacyjna baza danych (NoSQL)• Otwarto-źródłowa implementacja BigTable• Dostęp w czasie rzeczywistym do
ogromnych ilości danych• Przechowywanie miliardów wierszy i
milionów kolumn
NoSQL
• Brak schematu danych• Brak JOIN'ów, brak SQL• np.: bazy klucz/wartość, bazy
dokumentowe, bazy grafowe• Bardziej wyspecjalizowane niż RDBMS
Google BigTable
• Od 2004 roku używana przez większość usług Google, m.in.: Google Reader, Gmail, YouTube, Google Maps
• HBase jest implementacją architektury BigTable tworzoną przez fundację Apache
Podstawy architektury
• Rozproszenie • Redundancja• Wielowymiarowe klucze• Dane wersjonowane znacznikiem czasu
Wizualizacja danych
Przykłady zastosowania – historia zmian danych użytkownika
• Przechowywanie historii zmian np. adresu e-mail, hasła, danych osobowych
• Wykorzystywanie natywnych dla HBase mechanizmów wersjonowania
• Umożliwia bezpieczny backup i odtworzenie danych
Przeprowadzone testy
• Testy przeprowadzono standardowym narzędziem dołączonym do HBase
• Zawierają testy użyte przez Google do oceny BigTable
• Standardowe testy umożliwiają porównywanie BigTable oraz HBase na przestrzeni czasu
Wyniki testu – czas sumaryczny
2 4 6 8 10 120
5000000
10000000
15000000
20000000
25000000
30000000
35000000
40000000
45000000
50000000
0
0,5
1
1,5
2
2,5
3
3,5
4
randomRead
rowCount milliseconds scalabilitynumber of servers
tota
l tim
e
scal
abili
ty
Wyniki testu – czas/serwer
2 4 6 8 10 120
2000000
4000000
6000000
8000000
10000000
12000000
14000000
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
randomRead
rowCount milliseconds per server scalabilitynumber of servers
mili
seco
nds
per
serv
er
scal
abili
ty
Podsumowanie
1. Nowe, specjalistyczne rozwiązania
2. Dzięki skalowalności nadają się do przetwarzania dużych ilości danych
3. HBase z powodzeniem używane przez: Facebook, Twitter, Yahoo!, Filmweb
Dziękuję za uwagę