Algorytmy i struktury danych do przetwarzania...

Algorytmy i struktury danychdo przetwarzania tekstów

czyli moje zainteresowania naukowe

Tomasz Kociumakakociumaka@mimuw.edu.pl

Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego

Wręczenie Nagrody im. Witolda LipskiegoWarszawa, 4 października 2018

Tomasz Kociumaka Algorytmy i struktury danych do przetwarzania tekstów 1/22

Wprowadzenie

Teksty

Słowo — skończony ciąg symboli z ustalonego zbioru (alfabetu)

000100000101101100111100111101100111011110000101011111101000100111011010111000001111011010110110100011010000111010000001011010010100111111011000101101101001000001100110111011011110101101000111101000100101100000000000

GTGGACCTCCCTGCAGGCCCTGGCTGAAGCAGCTTCCCCCTCCACTCTCTATCCTATTCCTCTTTTATTCATAGAATATATCACTGAATTTAACTCATGTATGTTTGTAAAAACATTTATTGTGTGGTACCCCGCGGGAATGCAGGTGCCATGAGAGTGTCCTCATCTGTCTTTTCCATCACTGTACCACAGCACCTAAAAACACATAGGTATGTT

Fundacja Rozwoju Informatyki, przy współpracy z Polskim Stowarzyszeniemdla Maszyn Liczących (Polish Chapter of ACM) i Polskim TowarzystwemInformatycznym, z inicjatywy grupy polskich informatyków pracujących zagranicą ustanawia nagrodę dla młodych polskich naukowców za dorobekw dziedzinie informatyki i jej zastosowań.

83 56 92 24 79 83 76 49 53 4 87 76 66 42 79 3 16 11 81 7 20 55 93 75 4 2951 30 35 38 32 5 79 92 53 30 9 65 5 86 28 5 95 93 30 77 52 27 75 80 38 3811 63 67 87 76 41 11 78 7 67 58 6 66 30 80 73 47 79 61 51 76 69 29 83 55

Wprowadzenie

Teksty

Słowo — skończony ciąg symboli z ustalonego zbioru (alfabetu)

000100000101101100111100111101100111011110000101011111101000100111011010111000001111011010110110100011010000111010000001011010010100111111011000101101101001000001100110111011011110101101000111101000100101100000000000

GTGGACCTCCCTGCAGGCCCTGGCTGAAGCAGCTTCCCCCTCCACTCTCTATCCTATTCCTCTTTTATTCATAGAATATATCACTGAATTTAACTCATGTATGTTTGTAAAAACATTTATTGTGTGGTACCCCGCGGGAATGCAGGTGCCATGAGAGTGTCCTCATCTGTCTTTTCCATCACTGTACCACAGCACCTAAAAACACATAGGTATGTT

Fundacja Rozwoju Informatyki, przy współpracy z Polskim Stowarzyszeniemdla Maszyn Liczących (Polish Chapter of ACM) i Polskim TowarzystwemInformatycznym, z inicjatywy grupy polskich informatyków pracujących zagranicą ustanawia nagrodę dla młodych polskich naukowców za dorobekw dziedzinie informatyki i jej zastosowań.

83 56 92 24 79 83 76 49 53 4 87 76 66 42 79 3 16 11 81 7 20 55 93 75 4 2951 30 35 38 32 5 79 92 53 30 9 65 5 86 28 5 95 93 30 77 52 27 75 80 38 3811 63 67 87 76 41 11 78 7 67 58 6 66 30 80 73 47 79 61 51 76 69 29 83 55

Wprowadzenie

Wyszukiwanie wzorca: algorytmy i struktury danych

Problem

Znajdź fragmenty tekstu T (dł. n) pasujące do wzorca P (dł. m).

10110011110011111011100111100001T

1100111P

Dwie klasyczne wersje problemu:

algorytm

wystąpienia

konstrukcja

struktura danychT

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytm

wystąpienia

konstrukcja

struktura danychT

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytm

wystąpienia

konstrukcja

struktura danychT

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytm

wystąpienia

konstrukcja

struktura danychT

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytm

wystąpienia

konstrukcja

struktura danychT

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytm

wystąpienia

konstrukcja

struktura danychT

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytm

wystąpienia

konstrukcja

struktura danychT

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytmczas O(n)

wystąpienia

konstrukcja

struktura danychT

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytmczas O(n)

wystąpienia

konstrukcja

struktura danychT

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytmczas O(n)

wystąpienia

konstrukcja

struktura danychT

zapytania

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytmczas O(n)

wystąpienia

konstrukcja

struktura danychT

zapytaniaP

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytmczas O(n)

wystąpienia

konstrukcja

struktura danychT

zapytaniaP

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytmczas O(n)

wystąpienia

konstrukcja

struktura danychT

zapytaniaczas O(m + occ)

rozmiar O(n)

wystąpienia

Wprowadzenie

Problem

10110011110011111011100111100001T

1100111P

algorytmczas O(n)

wystąpienia

konstrukcjaczas O(n)*

struktura danychT

zapytaniaczas O(m + occ)

rozmiar O(n)

wystąpienia

Wybrane kierunki moich badań

Struktury danych do zapytań wewnętrznych

Utrzymywanie dynamicznych kolekcji słów

Przetwarzanie tekstów w małej pamięci roboczej

Zapytania wewnętrzne

1 Statyczny tekst T długości n.

2 Zapytania dotyczące fragmentów T [i ..j ] tekstu T .Każdy fragment T [i ..j ] reprezentowany przez skrajne pozycje i oraz j .

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Podstawowe zapytania:Czy T [i ..j ] pasuje do T [i ′..j ′]?

T [3..9] = T [20..28]

, T [3..15] 6= T [20..32].

Jaki jest najdłuższy wspólny prefiks T [i ..j ] oraz T [i ′..j ′]?lcp(T [3..15],T [20..32]) = 10.

Czy T [i ..j ] jest leksykograficznie mniejszy niż T [i ′..j ′]?T [3..15] > T [20..32].

Motywacja: Podproblemy wielu algorytmów i struktur danych.

1 Statyczny tekst T długości n.2 Zapytania dotyczące fragmentów T [i ..j ] tekstu T .

Każdy fragment T [i ..j ] reprezentowany przez skrajne pozycje i oraz j .

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..9] = T [20..28]

, T [3..15] 6= T [20..32].

3 9 20 28

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..9] = T [20..28]

, T [3..15] 6= T [20..32].

3 9 20 28

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..9] = T [20..28]

, T [3..15] 6= T [20..32].

3 15 20 32

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..9] = T [20..28], T [3..15] 6= T [20..32].

3 15 20 32

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..9] = T [20..28], T [3..15] 6= T [20..32].

3 15 20 32

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..9] = T [20..28], T [3..15] 6= T [20..32].

3 15 20 32

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..9] = T [20..28], T [3..15] 6= T [20..32].

Motywacja: Podproblemy wielu algorytmów i struktur danych.Tomasz Kociumaka Algorytmy i struktury danych do przetwarzania tekstów 5/22

Wewnętrzne wyszukiwanie wzorcaK, Radoszewski, Rytter, Waleń (SODA 2015)

Zapytania

Znajdź wystąpienia fragmentu x zawarte we fragmencie y .

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Wystąpienia x = T [20..26] w y = T [1..17] to: T [3..9] oraz T [9..15]

Czas zapytania O(|y |/|x |)Rozmiar O(n)

Czas konstrukcji O(n)

Zapytania

1 17 20 26xy1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Wystąpienia x = T [20..26] w y = T [1..17] to:

T [3..9] oraz T [9..15]

Zapytania

1 17 20 263 9 15

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Wystąpienia x = T [20..26] w y = T [1..17] to: T [3..9] oraz T [9..15].

Zapytania

1 17 20 263 9 15

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Wystąpienia x = T [20..26] w y = T [1..17] to: T [3..9] oraz T [9..15].

Najmniejszy i największy leksykograficznie sufiks podsłówBabenko, Gawrychowski, K, Starikovskaya (CPM 2014), K (CPM 2016)

Zapytania

Wyznacz najmniejszy oraz największy leksykograficznie sufiks fragmentu x .

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Najmniejszy leksykograficznie sufiks T [3..15] to 00111 = T [11..15].Największy leksykograficznie sufiks T [3..15] to 111100111 = T [7..15].

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Najmniejszy leksykograficznie sufiks T [3..15] to

00111 = T [11..15].Największy leksykograficznie sufiks T [3..15] to 111100111 = T [7..15].

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Najmniejszy leksykograficznie sufiks T [3..15] to

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Najmniejszy leksykograficznie sufiks T [3..15] to 0

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

= T [11..15].Największy leksykograficznie sufiks T [3..15] to 111100111 = T [7..15].

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Najmniejszy leksykograficznie sufiks T [3..15] to 00111 = T [11..15].

Największy leksykograficznie sufiks T [3..15] to 111100111 = T [7..15].

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Najmniejszy leksykograficznie sufiks T [3..15] to 00111 = T [11..15].Największy leksykograficznie sufiks T [3..15] to

111100111 = T [7..15].

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Najmniejszy leksykograficznie sufiks T [3..15] to 00111 = T [11..15].Największy leksykograficznie sufiks T [3..15] to

111100111 = T [7..15].

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Najmniejszy leksykograficznie sufiks T [3..15] to 00111 = T [11..15].Największy leksykograficznie sufiks T [3..15] to 1

11100111 = T [7..15].

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

1100111 = T [7..15].

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

100111 = T [7..15].

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

00111 = T [7..15].

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Czas zapytania O(1)

Rozmiar O(n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Czas zapytania O(1)

Rozmiar O(n)

Selekcja sufiksów podsłówBabenko, Gawrychowski, K, Starikovskaya (SODA 2015)

Zapytania

Wyznacz k-ty najmniejszy leksykograficznie sufiks fragmentu x .

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [11..15]=00111T [5..15]=00111100111T [12..15]=0111T [6..15]=0111100111

T [15..15]=1T [10..15]=100111T [4..15]=100111100111T [14..15]=11T [9..15]=1100111

T [3..15]=1100111100111T [13..15]=111T [8..15]=11100111T [7..15]=111100111

Czas zapytania O(log |x |)Rozmiar O(n)

Czas konstrukcji O(n√

log n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [11..15]=00111T [5..15]=00111100111T [12..15]=0111T [6..15]=0111100111

T [15..15]=1T [10..15]=100111T [4..15]=100111100111T [14..15]=11T [9..15]=1100111

T [3..15]=1100111100111T [13..15]=111T [8..15]=11100111T [7..15]=111100111

log n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [11..15]=00111T [5..15]=00111100111T [12..15]=0111T [6..15]=0111100111

T [15..15]=1T [10..15]=100111T [4..15]=100111100111T [14..15]=11T [9..15]=1100111

T [3..15]=1100111100111T [13..15]=111T [8..15]=11100111T [7..15]=111100111

log n)

Zapytania

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [11..15]=00111T [5..15]=00111100111T [12..15]=0111T [6..15]=0111100111

T [15..15]=1T [10..15]=100111T [4..15]=100111100111T [14..15]=11T [9..15]=1100111

T [3..15]=1100111100111T [13..15]=111T [8..15]=11100111T [7..15]=111100111

log n)

Kompresja podsłówBabenko, Gawrychowski, K, Starikovskaya; K, Radoszewski, Rytter, Waleń (SODA 2015)

Zapytania (Cormode i Muthukrishnan, SODA 2005)

Wyznacz skompresowaną postać podsłowa występującego jako fragment x .

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Zastosowania technik stworzonych do prostszych zapytań wewnętrznychWewnętrzne wyszukiwanie wzorca:

kompresja przy użyciu algorytmu Lempela-Ziva LZ77 (np. zip, gzip).

Selekcja sufiksów:kompresja przy użyciu transformaty Burrowsa-Wheelera (np. bzip2).

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..15] =?

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..15] =?

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..15] =? [1..1]

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..15] =? [1..1] dekompresja 1100111100111

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

T [3..15] =? [1..1] dekompresja 1100111100111

Najdłuższy wspólny prefiks podsłówKlasyczna struktura danych:

Czas zapytania O(1)

Rozmiar O(n)

Nowy wynik (alfabet rozmiaru σ):

Czas zapytania O(1)

Rozmiar O(n/ logσ n)

Czas konstrukcji O(n/ logσ n)

Czy można lepiej?

NIE! (dla dużych alfabetów)

TAK! (dla małych alfabetów)

Standardowy model obliczeń (word RAM):

Słowa maszynowe po w = Ω(log n) bitów (w praktyce w = 64)

Operacje bitowe i arytmetyczne w czasie stałym

10110011110011111011100111100001

Czas zapytania O(1)

Rozmiar O(n)

Czas zapytania O(1)

Czy można lepiej?

10110011110011111011100111100001

Czas zapytania O(1)

Rozmiar O(n)

Czas zapytania O(1)

Czy można lepiej?

10110011110011111011100111100001

Czas zapytania O(1)

Rozmiar O(n)

Czas zapytania O(1)

Czy można lepiej?

10110011110011111011100111100001

Czas zapytania O(1)

Rozmiar O(n)

Czas zapytania O(1)

Czy można lepiej?

10110011110011111011100111100001

Czas zapytania O(1)

Rozmiar O(n)

Czas zapytania O(1)

Czy można lepiej?

10110011110011111011100111100001

Model dynamicznych kolekcji słówMehlhorn, Sundar, Uhrig (SODA 1994); Alstrup, Brodal, Rauhe (SODA 2000)

Utrzymujemy kolekcję W niepustych słów, wspierając operacje:

make string(w): Wstaw w do W.

concat(w1,w2): Dla w1,w2 ∈ W, wstaw w1w2 do W.

split(w , k): Dla w ∈ W, wstaw w [1..k] oraz w [k + 1..|w |] do W.

equal(w1,w2): Czy słowa w1,w2 ∈ W są równe?

LCP(w1,w2): Jaki jest najdłuższy wspólny prefiks w1,w2 ∈ W?

compare(w1,w2): Porównaj leksykograficznie w1 oraz w2 ∈ W.

make string(01) = 1

W: 011

make string(01) = 1

W: 011

concat(1, 1) = 2

W: 011

split(2, 1) = (3, 4)

W: 011

equal(1, 3) = false

W: 011

split(4, 2) = (5, 6)

W: 011

concat(6, 3) = 7

W: 011

equal(5, 7) = true

W: 011

concat(7, 1) = 8

W: 011

LCP(4, 8) = 2

W: 011

compare(4, 8) = ‘>’

WynikiGawrychowski, Karczmarz, K, Łącki, Sankowski (SODA 2018)

Alstrup i in. Nowe wynikimake string O(|w | log n) O(|w |+ log n) o(|w | log n)concat O(log n log∗ n) O(log n) o(log n)split O(log n log∗ n) O(log n) o(log n)equal O(1) O(1) o(log n)compare O(1) O(1) -LCP O(log n) O(1) -Randomizacja Las Vegas Las Vegas Monte CarloCzas pesymistyczny pesymistyczny amortyzowany

Oznaczenia:n — łączna długość słów w kolekcji Wlog∗ n — logarytm iterowany: mink : log log · · · log︸︷︷︸

k razy

n < 1.

Dostęp tylko do odczytu

Model:

Dane wejściowe dostępne przez wyrocznię.

Złożoność pamięciowa obejmuje tylko pamięć roboczą.

Wyszukiwanie wzorca (Galil i Seiferas, STOC 1981):

Czas O(n)

Pamięć robocza O(1)

Model:

Czas O(n)

Model:

Czas O(n)

Model:

Czas O(n)

Model:

Czas O(n)

Model:

Czas O(n)

Model:

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Czas O(n)

Model:

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Czas O(n)

Sortowanie wskazanych sufiksówGawrychowski, K (SODA 2017)

Rzadka tablica sufiksowa

Posortuj leksykograficznie sufiksy T [ij ..n] dla danych pozycji i1, . . . , ib.

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

31 0118 01110011110000123 011110000127 10000110 1001111101110011110000120 110011110000115 11101110011110000113 11111011100111100001

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 11313 20201818 2727 31311010 1515 2323

31 0118 01110011110000123 011110000127 10000110 1001111101110011110000120 110011110000115 11101110011110000113 11111011100111100001

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 11313 20201818 2727 31311010 1515 2323

31 0118 01110011110000123 011110000127 10000110 1001111101110011110000120 110011110000115 11101110011110000113 11111011100111100001

Czas Pamięć Randomizacja

Bille i in. (ICALP 2013) O(n log2 b) O(b) Monte Carlo

Bille i in. (ICALP 2013) O((n + b2) log2 b) O(b) Las Vegas

I i in. (STACS 2014) O(n) O(b log b) Monte Carlo

I i in. (STACS 2014) O(n log b) O(b) Las Vegas

Nowy wynik O(n) O(b) Monte Carlo

Nowy wynik O(n√

log b) O(b) Las Vegas

Algorytmy strumieniowe

Model:

Jednokrotny, sekwencyjny odczyt danych wejściowych.Złożoność pamięciowa obejmuje tylko pamięć roboczą.Przetwarzanie danych w czasie rzeczywistym:

Odpowiedź dla znanej części przed wczytaniem kolejnego symbolu.

Wyszukiwanie wzorca:W strumieniu wzorzec poprzedza tekst.Wystąpienie T [i ..j ] wzorca P raportowane przed wczytaniem T [j + 1].

Porat i Porat, FOCS 2009; Breslauer i Galil, CPM 2011:Czas na symbol O(1)Pamięć robocza O(logm)Randomizacja typu Monte Carlo

Model:Jednokrotny, sekwencyjny odczyt danych wejściowych.Złożoność pamięciowa obejmuje tylko pamięć roboczą.

Przetwarzanie danych w czasie rzeczywistym:Odpowiedź dla znanej części przed wczytaniem kolejnego symbolu.

1 0 14

1 0 1 15

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 11 0 1 132

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Model:Jednokrotny, sekwencyjny odczyt danych wejściowych.Złożoność pamięciowa obejmuje tylko pamięć roboczą.Przetwarzanie danych w czasie rzeczywistym:

1 0 1 1 0 0 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 1 0 0 0 0 1

Wyszukiwanie wzorca z niezgodnościamiClifford, K, Porat (SODA 2019)

Problem

Znajdź fragmenty tekstu T różniące się od wzorca P na ¬ k pozycjach.

10110011110011111011100111100001T

0100111P

0100111

Problem

10110011110011111011100111100001T

0100111P

0100111

Problem

10110011110011111011100111100001T

0100111P

0100111

0110011

0100111

Problem

10110011110011111011100111100001T

0100111P

0100111

1100111

0100111

Problem

10110011110011111011100111100001T

0100111P

0100111

1100111

0100111

Problem

10110011110011111011100111100001T

0100111P

0100111

1110111

0100111

Problem

10110011110011111011100111100001T

0100111P

0100111

1100111

Problem

10110011110011111011100111100001T

0100111P

0100111

Czas na symbol Pamięć

Porat i Porat (FOCS 2009) O(k2) O(k3)

Clifford i in. (SODA 2016) O(√k) O(k2)

Golan i in. (ICALP 2018) O(k) O(k)

Nowy wynik O(√k) O(k)

Czas na symbol Pamięć

Porat i Porat (FOCS 2009) O(k2) O(k3)

Clifford i in. (SODA 2016) O(√k) O(k2)

Golan i in. (ICALP 2018) O(k) O(k)

Nowy wynik O(√k) O(k logm)

Podziękowania dla współautorów

Anna AdamaszekMai Alzamel

Maxim BabenkoGolnaz Badkobeh

Evangelos BampasHideo BannaiCarl Barton

Anudhyan BoralPanagiotis Charalampopoulos

Raphael CliffordMaxime Crochemore

Marek CyganJerzy Czyżowicz

Gabriele FiciJohannes Fischer

Tomas FlouriTravis Gagie

Michał GańczorzPaweł Gawrychowski

Leszek GąsieniecGarance Gourdel

Szymon GrabowskiFabrizio Grandoni

David IlcinkasCostas S. IliopoulosShunsuke Inenaga

Artur JeżAdam Karczmarz

Ralf KlasingIgnat KolesnichenkoDmitry Kosolobov

Marcin KubicaRitu KunduJakub Łącki

Alessio LangiuThierry Lecroq

Arnaud LefebvreChang Liu

Manal MohamedJakub PachockiDominik Pająk

Marcin Pilipczuk

Michał PilipczukSolon P. Pissis

Ely PoratElise Prieur-Gaston

Simon J. PuglisiJakub Radoszewski

Wojciech RytterPiotr SankowskiArseny M. Shur

William F. SmythTatiana Starikovskaya

Juliusz StraszyńskiShiho SugimotoBartosz Szreder

Wojciech TyczyńskiHjalte Wedel Vildhøj

Tomasz WaleńBartłomiej Wiśniewski

Michał WłodarczykWiktor Zuba

Podziękowania dla współautorów

Anna AdamaszekMai Alzamel

Maxim BabenkoGolnaz Badkobeh

Evangelos BampasHideo BannaiCarl Barton

Anudhyan BoralPanagiotis Charalampopoulos

Raphael CliffordMaxime Crochemore

Marek CyganJerzy Czyżowicz

Gabriele FiciJohannes Fischer

Tomas FlouriTravis Gagie

Michał GańczorzPaweł Gawrychowski

Leszek GąsieniecGarance Gourdel

Szymon GrabowskiFabrizio Grandoni

David IlcinkasCostas S. IliopoulosShunsuke Inenaga

Artur JeżAdam Karczmarz

Ralf KlasingIgnat KolesnichenkoDmitry Kosolobov

Marcin KubicaRitu KunduJakub Łącki

Alessio LangiuThierry Lecroq

Arnaud LefebvreChang Liu

Manal MohamedJakub PachockiDominik Pająk

Marcin Pilipczuk

Michał PilipczukSolon P. Pissis

Ely PoratElise Prieur-Gaston

Simon J. PuglisiJakub Radoszewski

Wojciech RytterPiotr SankowskiArseny M. Shur

William F. SmythTatiana Starikovskaya

Juliusz StraszyńskiShiho SugimotoBartosz Szreder

Wojciech TyczyńskiHjalte Wedel Vildhøj

Tomasz WaleńBartłomiej Wiśniewski

Michał WłodarczykWiktor Zuba

Pytania?

Dziękuję za uwagę!

Algorytmy i struktury danych do przetwarzania...

Documents

Transcript of Algorytmy i struktury danych do przetwarzania...

Algorytmy i Struktury Danych - carme.pld-linux.orgcarme.pld-linux.org/~evil/varia/informatyka/semestr_2/Algorytmy i... · Algorytmy i Struktury Danych Literatura S. Sengupta, C. Ph.

Algorytmy i Struktury danych - math.uni.lodz.plmath.uni.lodz.pl/~kowalcr/AlgorytmyIStruktury/Wyklad1.pdf · Algorytmy i Struktury danych Algorytmy i programowanie . dr Robert Kowalczyk,

Algorytmy, struktury danych i techniki programowania. Wydanie III

Algorytmy i struktury danych - is.umk.plnorbert/asd · Literatura L. Banachowski, K. Diks, W. Rytter. Algorytmy i struktury danych. Wydawnictwa Naukowo-Techniczne, Warszawa, 1996.

7 projektów, 2 tygodnie na każdy projekt, 0 10 punktów na ...kolos.math.uni.lodz.pl/~archive/Algorytmy i struktury danych 2... · Sedgewick Algorytmy w c++.Grafy ... -Przypomnienie-Drzewa

Algorytmy i Struktury Danych - riad.pk.edu.plriad.pk.edu.pl/~zk/AISD_W2.pdf · Wykład 2: Algorytmy grafowe I 1. Przeszukiwanie grafu w głąb. 2. Przeszukiwanie grafu wszerz. 3.

Algorytmy i Struktury Danych - (wybrane algorytmy grafowe)Algorytmy i Struktury Danych Spis tresci´ 1 Narzedzia:˛ Struktura Find-Union 2 Drzewa Rozpinajace˛ Podstawowe Deﬁnicje

ALGORYTMY I STRUKTURY DANYCH - tarapata.strefa.pltarapata.strefa.pl/p_algorytmy_i_struktury_danych/download/aisd... · rekurencyjnych – przykład C/C++ Adres powrotu do systemu

Algorytmy + struktury danych = abstrakcyjne typy danychwydawnictwo.btc.pl/pdf/oferta_ · Algorytmy + struktury danych = abstrakcyjne typy danych Algorytmika jest dziedziną wiedzy,

ALGORYTMY I STRUKTURY DANYCH

Algorytmy i Struktury Danych. - wozna.org · Drozdek A. C++. Algorytmy i struktury danych. Wydawnictwo Helion. Gliwice, 2004. Sedgewick R. Algorytmy w C++. Wydawnictwo RM. Warszawa,

algorytmy i struktury danych

Algorytmy i Sydow AlgorytmyiStrukturyDanychusers.pja.edu.pl/~msyd/wyka-pl/searching3-pl.pdf · Algorytmy i Struktury Danych (c) Marcin Sydow Dziel i rządź Wyszukiwanie Posortowanie

Algorytmy i struktury danychprac.im.pwr.wroc.pl/~szwabin/assets/algo/lectures/2.pdf · 2016. 10. 12. · Algorytmy i struktury danych Wykłady 2 i 3 Abstrakcyjne struktury danych

Algorytmy i struktury danychprac.im.pwr.edu.pl/~szwabin/assets/algo/lectures/8.pdf · 2016. 11. 24. · Algorytmy i struktury danych Wykład 8 - Drzewa i algorytmy ich przetwarzania

Algorytmy Struktury Danych i Technika Program Ow Ani A

Algorytmy stochastyczne, wyklad 01 Podstawowy algorytm ...piersaj/www/contents/teaching/as2013/as... · programowanie, algorytmy i struktury danych język programowania wysokiego

Algorytmy i Struktury Danych. - Wozna · Algorytmy i Struktury Danych. Drzewa poszukiwan binarnych.´ Bozena Woz´na-Szcze˙ sniak´ bwozna@gmail.com Jan Długosz University, Poland

Filtr Kalmana - Struktury i Algorytmy Sterowania Wyk ad 1 - 2 · Filtr Kalmana Struktury i Algorytmy Sterowania Wykład 1 - 2 prof. dr hab. inż. Mieczysław A. Brdyś mgr inż. Tomasz

Algorytmy i (c) Marcin Sydow Wstęp AlgorytmyiStrukturyDanych ...users.pja.edu.pl/~msyd/wyka-pl/complexity2-pl.pdf · 2018. 3. 25. · Algorytmy i Struktury Danych (c) Marcin Sydow