Systemy zarządzania bazami danych 3. Indeksy

Oryginał: Hector Garcia-Molina

3. Indeksy 1

Systemy zarządzania bazami danych

3. Indeksy

3. Indeksy 2

wartość

• Indeksy konwencjonalne• B-drzewa i B+drzewa• Haszowanie

Indeksowanie i haszowanie

wartość

rekord(y)

3. Indeksy 3

Plik uporządkowany

3. Indeksy 4

Plik uporządkowany

Indeks gęsty

10203040

50607080

90100110120

3. Indeksy 5

Plik uporządkowany

Indeks rzadki

10305070

90110130150

170190210230

3. Indeksy 6

Plik uporządkowany

2. poziomu

10305070

90110130150

170190210230

170250

330410490570

Rzadki indeks

3. Indeksy 7

Pytanko

• Czy ma sens gęsty indeks drugiego poziomu?

3. Indeksy 8

Wskaźniki do rekordów• Wskaźnik do bloku (w indeksie rzadkim)

jest mniejszy niż wskaźnik do rekorduWdB

• Jeśli plik jest fizycznie ciągły, możemy wyliczać wskaźniki (i ich nie zapisywać)

3. Indeksy 9

Załóżmy, że bloki mają 1KB

rekordu o kluczu K3 szukamy w bloku o offsecie (3-1)1024 = 2048 bajtów

3. Indeksy 10

Kompromis: indeks gęsty czy rzadki?

• Rzadki– Mniej miejsca na indeks– Więcej indeksu mieści się w RAM

• Gęsty– Możemy sprawdzić, czy jest taki rekord

bez zaglądania do pliku– Możliwe użycie strategii „tylko-indeks”

3. Indeksy 11

Pojęcia

• Uporządkowany plik indeksowy • Klucz wyszukiwania (nie zawsze klucz!)• Indeks główny (na polu porządkującym)• Indeks niegłówny (drugorzędny)• Indeks gęsty lub rzadki• Indeks pogrupowany lub niepogrupowany• Indeks wewnętrzny lub zewnętrzny • Indeks wielopoziomowy

3. Indeksy 12

Powtarzalne klucze

3. Indeksy 13

10101020

20303030

10101020

20303030

Powtarzalne klucze

• Czy indeks gęsty to jedyna możliwość?

3. Indeksy 14

10203040

Powtarzalne klucze

• Indeks gęsty, czy lepszy pomysł?

3. Indeksy 15

10102030

0Powtarzalne klucze

• A może jednak rzadki? Oto pierwszy pomysł:

3. Indeksy 16

10203030

Możema być40?

Powtarzalne klucze

• Rzadki: tylko pierwszy nowy klucz z bloku

3. Indeksy 17

Powtarzalne klucze, indeks główny• Indeks może wskazywać tylko

pierwsze wystąpienie każdej wartości klucza

Plik Indeks

3. Indeksy 18

Usuwanie z indeksu rzadkiego

10305070

90110130150

3. Indeksy 19

10305070

90110130150

– usuń rekord 40

3. Indeksy 20

10305070

90110130150

– usuń rekord 30

3. Indeksy 21

10305070

90110130150

– usuń rekordy 30 i 40

3. Indeksy 22

Usuwanie z indeksu gęstego

10203040

50607080

3. Indeksy 23

Usuwanie z indeksu gęstego

10203040

50607080

– usuń rekord 30

3. Indeksy 24

Wstawienie, indeks rzadki

10304060

3. Indeksy 25

10304060

– wstaw rekord 34

• dziś mamy szczęście! wolne miejsce jest tam gdzie go potrzebujemy

3. Indeksy 26

10304060

– wstaw rekord 15

• Tu: natychmiastowa reorganizacja• Inne opcje:

– Dodać blok nadmiarowy– Poprawić indeks

3. Indeksy 27

10304060

– wstaw rekord 25

Lista bloków nadmiarowych(reorganizacji później...)

3. Indeksy 28

Wstawienie, indeks gęsty

• Podobnie

• Zwykle jednak bardziej kosztowne

3. Indeksy 29

Indeksy drugorzędne

3. Indeksy 30

• Indeks rzadki

302080

Chyba nie zadziała?

3. Indeksy 31

• Indeks gęsty10203040

506070...

105090...

rzadkiwyższypoziom

3. Indeksy 32

• Najniższy poziom musi być gęsty• Wszystkie pozostałe są rzadkie• Wskaźniki są wskaźnikami na

rekordy– Nie: wskaźniki blokowe– Nie: wyliczane

3. Indeksy 33

Klucze powtarzalne i indeks drugorzędny

3. Indeksy 34

10101020

20304040

4040...

Pierwszy pomysł...

Problem:Nadmierny narzut• miejsce na dysku• czas wyszukiwania

3. Indeksy 35

Inny pomysł...

Problem:Indeks zawiera rekordy rozmiaru zmiennego

3. Indeksy 36

10203040

5060...

Trzeci pomysł: lista rekordów o tej samej wartości klucza?

Problemy:• Dodatkowe pole w rekordzie• Liniowe przeszukiwanie listy rekordów

3. Indeksy 37

10203040

5060...

kubełki

3. Indeksy 38

Pomysł z kubełkami jest dobry

• Po pierwsze rekordy indeksy stałej długości

• Przykładowy schemat

Indeksy RekordyName: główny EMP

(name,dept,floor,...)

Dept: drugorzędnyFloor: drugorzędny

3. Indeksy 39

Znajdź pracowników z działu Toy i 2.

piętra: (‘Toy’ = Dept) ^ (floor = 2 )

Indeks na Dept Plik EMP Indeks na floor

Oblicz przecięcie obu kubełków, żeby znaleźć pasujących pracowników

3. Indeksy 40

Ten pomysł jest stosowany do wydobywania informacji z tekstu (IR)

Dokumenty

...the cat is fat ...

...was raining cats and dogs...

...Fido the dog ...

Listy odwrócone

3. Indeksy 41

Zapytania IR (Information Retrieval)• Znajdź dokumenty zawierające “cat” i “dog”• Znajdź dokumenty zawierające “cat” lub

“dog”• Znajdź dokumenty zawierające “cat” ale bez

“dog”• Znajdź dokumenty zawierające “cat” w

tytule• Znajdź dokumenty zawierające “cat” i “dog”

w odległości co najwyżej 5 słów

3. Indeksy 42

Więcej danych na liście odwróconej

cat Tytuł 5

Tytuł 100

Autor 10

Streszczenie57

Tytuł 12

miejsce

nr znaku

wskaźn

3. Indeksy 43

Hasło = pozycja listy odwróconej• Reprezentuje wystąpienie słowa w

dokumencie

Długość listy: 1 Słowa rzadkie (liczba haseł) lub błędy ortograficzne

106 Słowa często używane

• Rozmiar hasła: 10-15 bitów (po kompresji)

3. Indeksy 44

Zagadnienia IR

• Słowa ignorowane• Skracanie słów• Wyrazy bliskoznaczne• Fleksja (zwłaszcza w polskim: liczne

pułapki)– Po normalizacji słów okazało się że najczęściej

w Panu Tadeuszu występuje słowo „oda” (od)• Błędy ortograficzne• Pełne teksty czy Streszczenia• Model wektorowy

3. Indeksy 45

Model przestrzeni wektorowej

s1 s2 s3 s4 s5 s6 s7 …Dokument= <1 0 0 1 1 0 0 …>

Zapytanie = <0 0 1 1 0 0 0 …>

Koniunkcja= ... + 1 + … = punktacja

3. Indeksy 46

Usprawnienia IR• Model wektorowy przypomina listy

bitmapowe• Różne sposoby ważenia punktacji i

normalizacji, np.– Dopasowanie słowa częstego nie jest

tak znaczące (wartościowe) jak słowa rzadkiego

• Implementacja: Google, Altavista, ...

3. Indeksy 47

Indeksy konwencjonalne

• Zalety– Proste– Indeks jest plikiem uporządkowanym

wygodnym przy pełnych przeglądach

• Wady– Wstawienia są kosztowe lub– Tracimy fizyczne uporządkowanie lub

równowagę

3. Indeksy 48

ciągła alokacja

wolne miejsce

102030

405060

708090

39313536

323834

Bloki nadmiarowe(nieciągłe)

Przykład gnicia indeksu konwencjonalnego

3. Indeksy 49

Lekarstwo

• Nowy rodzaj indeksu• Rezygnujemy z ciągłej alokacji stron

indeksu• Staramy się by się sam równoważył• Rodzaje drzew równoważących się: AVL,

czerwono-czarne, B-drzewa• W bazach danych B-drzewa, w właściwie

B+drzewa

3. Indeksy 50

Korzeń

Przykład B+drzewa n=3

3 5 11

3. Indeksy 51

Przykładowy węzeł wewnętrzny

do kluczy do kluczy do kluczy do kluczy

< 57 57 k<81 81k<95 95

3. Indeksy 52

Z pewnego nie-liścia

do następnego

w kolejności

liścia

Przykładowy liść

3. Indeksy 53

Rozmiar węzłów

• Rozmiar stały– jeśli klucze stałego rozmiaru...

• n wartości kluczy • n+1 wskaźników

– Liść: n wskaźników na rekordy i fastryga

– Nie-liść: n+1 wskaźników na niższy poziom

3. Indeksy 54

Węzły nie mogą być zbyt puste

• Zapełnienie co najmniej 50%– Teoretycznie...– Praktycznie w zasadzie tak, ale nie do

końca

• Zapełnienie co najmniej – Nie-liść: (n+1)/2 wskaźników – Liść: (n+1)/2 wskaźników na

3. Indeksy 55

ZapełnionyMinimalny

Nie-liść

Liść

3 5 11

3. Indeksy 56

Reguły B+drzew

1. Wszystkie liście są na tym samym poziomie (drzewo zrównoważone)

2. Wskaźniki w liściach wskazują rekordy (z wyjątkiem fastrygi)

3. Indeksy 57

3. Liczba wskaźników i kluczy

• Stopień drzewa = n

Nie-liść(nie-korzeń) n+1 n (n+1)/2 (n+1)/2- 1

Liść(nie-korzeń) n+1 n

Korzeń n+1 n 1 1

Max Max Min Min wsk. klu. wsk.dane klu.

(n+1)/2 (n+1)/2

3. Indeksy 58

Wstawienie do B+drzewa

(a) Przypadek najłatwiejszy– Gdy w liściu jest wolne miejsce

(b) Przepełnienie liścia(c) Przepełnienie węzła

wewnętrznego(d) Nowy korzeń

3. Indeksy 59

(a) Wstaw klucz = 32 n=33 5 11

3. Indeksy 60

(b) Wstaw klucz = 7 n=3

3 5 11

3. Indeksy 61

(c) Wstaw klucz = 160 n=3

3. Indeksy 62

(d) Wstaw 45 – nowy korzeń n=3

1 2 3 10

30Nowy korzeń

3. Indeksy 63

Usunięcie z B+drzewa

(a)Przypadek najłatwiejszy(b)Scal się z sąsiadem (bliźniakiem)(c) Poprzerzucaj klucze(d)Przypadki (b) lub (c) w nie-liściu

3. Indeksy 64

(b) Scalenie z sąsiadem– Usuń 50

3. Indeksy 65

(c) Poprzerzucaj klucze– Usuń 50

3. Indeksy 66

(d) Scalenie nie-liści– Usuń 37

Nowy korzeń

3. Indeksy 67

Usunięcia z B+drzew w praktyce

• Zwykle nie dokonuje się scalania– Jest zbyt kosztowne i nie warto tego

robić– I tak trzeba co jakiś czas

przebudować indeksy ze względu na błędy w SZBD

3. Indeksy 68

B+drzewa a indeksy konwencjonalne

• Na podstawie[1] Held i Stonebraker “B-Trees Re-examined”, Communications of ACM, Feb. 1978

3. Indeksy 69

Wnioski z [1]

• W B+drzewach trudniej obsługiwać współbieżność

• B+drzewa zużywają więcej przestrzeni• Założenia analizy

– blok = 512 bajtów– klucz = wskaźnik = 4 bajty– 4 rekordy w bloku

3. Indeksy 70

1 blok indeksu statycznego

127 kluczy

(127+1)4 = 512 bajtów-> wskaźniki wyliczane (offsety) do 127

bloków

1 blokdanych

3. Indeksy 71

1 blok B+drzewa

63 klucze

63x(4+4)+8 = 512 bajtów-> wskaźniki są konieczne do 63

bo B+drzewo nie jest ciągłe bloków

1 blokdanych

3. Indeksy 72

Porównanie rozmiarów [1]Porównanie rozmiarów [1]

Indeks statyczny B+drzewoliczba liczbabloków wysokość bloków

wysokość2 -> 127 2 2 -> 63 2128 -> 16,129 3 64 -> 3968 316,130 -> 2,048,383 4 3969 -> 250,047 4

250,048 -> 15,752,961 5

3. Indeksy 73

Wyniki analizy [1]• W przypadku pliku 8000-blokowego

po 32 000 wstawieniachpo 16 000 wyszukiwaniach

Oszczedzamy tyle czasu, że starczy go na ręczną reorganizację

Wniosek z [1] Statyczne indeksy lepsze

3. Indeksy 74

[2] M. Stonebraker, “Retrospective on a database system,” TODS, June 1980

Wniosek z [2] B+drzewa są lepsze!

• DBA nie wie, kiedy reorganizować• DBA nie wie, jak bardzo zapełnić

strony indeksu po reorganizacji

3. Indeksy 75

• Zarządzanie buforami– B+drzewo ma stałą wymaganą

wielkość bufora (liczbę bloków)– Indeks statyczny musi być może

doczytać kilka stron nadmiarowych (co wymaga większej i zmiennej liczby niezbędnych buforów)

Wnioski z [2] B+drzewa są lepsze

3. Indeksy 76

Zarządzanie buforami

• Czy LRU to dobra strategia zarządzania buforami?– Oczywiście nie!– Korzeń musi być przyszpilony w

pamięci...– I być może nizsze poziomy też– Czyli MRU!

3. Indeksy 77

Najlepszy stopień B+drzewa?

n to liczba kluczy w węzle

3. Indeksy 78

Przykładowe założenia(1) Czas potrzebny na odczyt węzła z

dysku (70+0.05n) ms(2) Gdy węzeł jest w pamieci, korzystamy z

wyszukiwania binarnego (a + b LOG2 n) ms

Dla pewnych stałych a,b; Zakładamy, że a << 70

(3) Założmy, że B+drzewo jest zapełnione liczba węzłów do przejrzenia to LOGnN gdzie N = liczba rekordów

3. Indeksy 79

Minimalizujemy funkcję: f(n) = czas poszukiwania rekordu

nopt n

3. Indeksy 80

Znajdź nopt => pochodna f’(n) = 0• nopt = kilkaset

• W praktyce koszt odczytu bloku nie zależy od n, bo węzeł = blok

• Ignorujemy koszt CPU

• Minimalizujemy więc LOGnN

• Czyli? • Upychamy w bloku tyle kluczy, ile

wlezie• I tak wychodzi kilkaset

3. Indeksy 81

A gdyby zwykłe Bdrzewo? [ bez + ] • Unikamy duplikacji kluczy• Wskaźniki do rekordów są też w

węzłach wewnętrznych

3. Indeksy 82

do rekordu do rekordu do rekordu do K1 z K2 z K3

do kluczy do kluczy do kluczy do kluczy

< K1 K1<x<K2 K2<x<K3 >K3

K1 W1 K2 W2 K3 W3

3. Indeksy 83

Przykład Bdrzewa n=2

Fastryga jest terazbezużyteczna!

3. Indeksy 84

Uwaga o wstawieniach• Wstawiamy rekord z kluczem 25

30 n=3

liść

– 20 –

• Potem:

3. Indeksy 85

Statystyka Bdrzew

MAX MINWsk. Wsk. Klu. Wsk. Wsk. Kluczewęz. rek. węz. rek.

Nie-liśćNie-korzeń n+1 n n (n+1)/2 (n+1)/2-1

(n+1)/2-1LiśćNie-korzeń 1 n n 1 (n+1)/2

(n+1)/2

KorzeńNie-liść n+1 n n 2 1 1

KorzeńLiść 1 n n 1 1 1

3. Indeksy 86

Wady i zalety Bdrzewa pozwalają na szybsze

wyszukiwanie niż B+drzewa

W Bdrzewach liście i nie-liście są różnych rozmiarów

W Bdrzewach usuwanie trudniejsze

B+drzewa lepsze!

3. Indeksy 87

Ale...

• Jeśli bloki są stałego rozmiaru (a tak jest w przypadku wielu dysków):

• To wyszukiwanie w B+drzewach jest w istocie lepsze.

3. Indeksy 88

Przykład

• Wskaźnik: 4 bajty• Klucz 4 bajty• Blok 100 bajtów (dla prostoty)• Pełne dwupoziomowe drzewo

3. Indeksy 89

Korzeń ma 8 kluczy + 8 wskaźników na rekordy+ 9 wskaźników na synów

= 8x4 + 8x4 + 9x4 = 100 bajtów

Bdrzewo:

Każdy z 9 synów: 12 wsk. na rek. +12 kluczy= 12x(4+4) + 4 = 100 bajtów

2-poziomowe Bdrzewo ma maksymalnie12x9 + 8 = 116 rekordów

3. Indeksy 90

Korzeń ma 12 kluczy + 0 wskaźników na rekordy + 13 wskaźników na synów

= 12x4 + 0x4 + 13x4 = 100 bajtów

B+drzewo:

Każdy z 13 synów: 12 wsk. na rek. +12 kluczy= 12x(4+4) + 4 = 100 bajtów

2-poziomowe B+drzewo ma maksymalnie13x12 = 156 rekordów

3. Indeksy 91

Zatem?

ooooooooooooo ooooooooo 156 rekordów 108 rekordów

Razem = 116

8 rekordów

• Wniosek– W przypadku bloków stałego rozmiaru,– B+drzewa są lepsze, bo są bardziej

krzaczaste

Systemy zarządzania bazami danych 3. Indeksy

Documents

Transcript of Systemy zarządzania bazami danych 3. Indeksy

Oracle9i. Administrowanie bazami danych od podstaw

Relacyjne bazy danych - kiaps.ar.krakow.pl · do zarządzania służą tzw. SZRBD -systemy zarządzania relacyjnymi bazami danych. Systemy zarządzania relacyjnymi bazami danych –SZRBD

INDEKSY Wydział Obsługi Klienta · 2020. 12. 22. · POZBUD 2,030 -7,73% 112 744 BOOMBIT 16,20 -7,32% 119 262 ZAGRANICA INDEKSY Kurs Zmiana DJIA 30216,45 +0,12% NASDAQ 12742,52

bibliografia 2003 2004 indeksy - dlibra.mbpkk.pldlibra.mbpkk.pl/Content/150/Bibliobrafia_2003_2004.pdf · rocznikiem przygotowanym i opracowanym przez Miejską Bibliotekę Publiczną

INDEKSY I SORTOWANIE ZEWNĘTRZNE

Internetowe Bazy Danych - roman.ptak.staff.iiar.pwr.wroc.plroman.ptak.staff.iiar.pwr.wroc.pl/IBD_wyklad_2017_nr4.pdf · Obiektowe Systemy Zarządzania Bazami Danych (OSZBD) Wstęp

Giełda. Podstawy inwestowania. Wydanie II rozszerzone · Ryzyko finansowe i operacyjne przedsiębiorstwa ... Puls GPW — indeksy giełdowe ... Instrumenty pochodne ...

Drägerware Workshop Software 5000/7000 - draeger.com · Systemy zarządzania bazami danych bazują na standardach umożliwiających jednorod-ne zarządzanie. Drägerware współpracuje

Indeksy GPW Benchmark · 2020. 3. 4. · Indeksy GPW Benchmark Luty 2020 Strona 7 Aktualne informacje dotyczące indeksów dostępne są na stronie internetowej GPW enchmark ( –

Arkusz zawiera informacje prawnie Nazwa kwalifikacji ......Nazwa kwalifikacji: Tworzenie aplikacji internetowych i baz danych oraz administrowanie bazami Oznaczenie kwalifikacji: E.14

Archiwalia Janiny i Tadeusza Kotarbinskich - Indeksy

Technologie Zasilania i Odświeżania Hurtowni Danych · –Dwie bazy danych (różne systemy zarządzania bazami danych) •Cel: przeprowadzenie analizy danych o wypożyczeniachw

Specyfikacja instrumentów pochodnych CFD · 2020. 11. 12. · Specyfikacja instrumentów pochodnych CFD- Forex, Indeksy, Towary, Kryptowaluty Forex Instrument Nominalna wartość

PHP 3 narzędzie do komunikacji z bazami danych z poziomu stron WWW oraz

Systemy zarządzania bazami danych 2. Układ danych na dysku

PROGRAM NAUCZANIApliki.koweziu.edu.pl/programy/przedmiotowe/Technik_informacji... · postugiwaC sig prograrnami i bazami danych: dBase, Mikro CDSIISIS, MAC, obstugiwaC wybrane bazy

Departament Zarządzania Funduszami i Projektami Unijnymi, Wydział Zarządzania RPO

Inteligentny system hybrydowy - repozytorium.put.poznan.plrepozytorium.put.poznan.pl/Content/273963/Natalia_Kubiak_Inteli... · Systemy zarządzania bazami danych, wykorzystywane

Integracja liquibase ze stroną internetową dla zarządzania bazami danych[автосохраненный]

Analiza dynamiki -indeksy