Masowe Przetwarzanie Danych a Bezpieczeństwo Ruchu Andrzej P. Wierzbicki Instytut Łączności –...

1

Masowe Przetwarzanie Danych a Bezpieczeństwo Ruchu

Andrzej P. WierzbickiInstytut Łączności – PIB

1. Wstęp: prawo Moore’a jako megatrend

2. Złożoność obliczeniowa jako ograniczenie poznawcze

3. Masowość danych a prawo Moore’a

4. Masowość danych a bezpieczeństwo ruchu

5. Wnioski i zalecenia

2

1. Wstęp: prawo Moore’a jako megatrend• Gordon E. Moore (Moore 1965) sformułował już niemal 50

lat temu prawo empiryczne, t.zw. prawo Moore’a, wynikłe z obserwacji rozwoju liczby elementów elektronicznych – np. tranzystorów – które można zmieścić na pojedynczym układzie scalonym przeciętnych rozmiarów, np. na calu kwadratowym: otóż liczba elementów upakowanych w układzie scalonym podwaja się co 18-24 miesięcy.

• Później okazało się to nie tylko prawdziwą obserwacją, ale podtrzymującą się przez ostatnie niemal 50 lat, w następującej wersji: liczba ta zwiększa się przeciętnie dziesięciokrotnie co każde 5 lat, lub stukrotnie co dekadę; stanowi to zatem dobrze obserwowany i udokumentowany megatrend.

• Jego powodem jest stały rozwój technologii produkcji układów scalonych. Chociaż można sądzić, że możliwości technologiczne techniki krzemowej wkrótce się wyczerpią, to wspomniane wyżej możliwości nowych tranzystorów, włącznie z możliwością nowych odkryć takich jak grafen, podtrzymają zapewne jeszcze prawo Moore’a przez następne kilka dekad.

3

1. Wstęp: prawo Moore’a jako megatrend, 2• Oznacza to możliwość zwiększenia liczby tranzystorów w

pojedynczym układzie scalonym, a tym samym mocy obliczeniowej komputerów, jeszcze 106-1010 razy.

• W analogiczny sposób zmienia się dostępna moc obliczeniowa komputerów, chociaż pojęcie mocy obliczeniowej nie jest w pełni precyzyjne (składa się na nią zarówno pojemność różnych typów pamięci w komputerze, jak i szybkość – liczba podstawowych operacji na sekundę – podstawowego procesora czy równolegle połączonych procesorów, itp.).

• Tym niemniej rozwija się ona – zarówno w sensie średniej mocy obliczeniowej typowego dzisiaj komputera osobistego, jak i w sensie łącznej mocy obliczeniowej dostępnej dzisiaj w sieci dla t.zw. obliczeń chmurowych, czyli właśnie obliczeń sieciowych bez specyfikacji wykorzystywanych komputerów – także w przybliżeniu zgodnie z prawem Moore’a. Wynika stąd wiele wniosków, które przedstawimy w dalszych punktach.

4

2. Złożoność obliczeniowa jako ograniczenie poznawcze

• Z jednej strony, niezwykle szybki rozwój możliwości sprzętowych komputerów wywołuje często naiwną wiarę, że załatwi on wszystko: po co uczyć się skomplikowanych metod matematycznych, rozwijać oprogramowanie i techniki obliczeniowe, skoro za dziesięć lat komputery będą i tak stokrotnie szybsze? Wiara ta jest bezpodstawna, a nawet groźna, z wielu powodów.

• Wynika to z wiedzy o złożoności obliczeniowej problemów do rozwiązania przez komputer. Teoria złożoności obliczeniowej to obszerny dział informatyki, sam w sobie dość złożony, przedstawię ją tu w największym tylko uproszczeniu.

• Otóż problemy do rozwiązania przez komputer charakteryzują się przez swój charakter czy typ, oraz przez swój wymiar.

5

2. Złożoność obliczeniowa jako ograniczenie poznawcze, 2

• Typ to, na przykład, problem routingu w sieci czyli problem znajdowania najkrótszej czy najtańszej ścieżki łączącej dwa punkty sieci, a problem podróżującego sprzedawcy w teorii systemów zaopatrzenia jest podobny do problemu routingu, ale wymaga, żeby po drodze odwiedzić szereg określonych z góry punktów sieci.

• Drugi ważny aspekt charakterystyki problemu to jego wymiar, określany jako albo ilość danych wejściowych do przetworzenia przy rozwiązywaniu problemu, albo też jako ilość zmiennych niezbędna do matematycznej charakterystyki problemu.

• Zasadniczym rezultatem teorii złożoności obliczeniowej jest stwierdzenie, że – za wyjątkiem problemów szczególnie prostego typu – zależność nakładu obliczeń od wymiaru jest nieliniowa, i to o stosunkowo łagodnym charakterze wielomianowym tylko dla problemów prostszych typów, zazwyczaj natomiast (dla problemów bardziej złożonych typów) nie-wielomianowa, czyli wykładnicza lub kombinatoryczna, bardzo szybko rosnąca z wymiarem problemu.

6


• Każdy przedstawiciel stosowanych nauk obliczeniowych – technik, biolog, genetyk, meteorolog, fizyk itp., który stosuje komputery do rozwiązywania złożonych symulacji czy optymalizacji badawczych lub konstrukcyjnych – wie doskonale z doświadczenia, że nie może stosować modelu rozważanego problemu wyrażającego najbardziej dokładną, pełną wiedzę swej dziedziny, musi stosować uproszczenia, bo inaczej nie uda mu się wykonać niezbędnych obliczeń w rozsądnym czasie.

• Nauki obliczeniowe są zatem także sztuką kompromisu pomiędzy możliwie największą dokładnością a rozsądnym czasem obliczeń; oczywiście kompromis ten modyfikuje się ze zwiększeniem możliwości obliczeniowych komputerów, ale zawsze pozostaje kompromisem.

7


• Wynika stąd także, że nie ma algorytmów uniwersalnych a jednocześnie skutecznych obliczeniowo: dla każdej dziedziny nauk obliczeniowych i dla każdego typu problemu obliczeniowego trzeba intensywnie pracować nad algorytmami specjalistycznymi, które ten typ problemu rozwiążą w możliwie najkrótszym czasie. Dotyczy to także obliczeń równoległych i chmurowych.

• I nie pomaga tu prawo Moore’a: to, że możliwości obliczeniowe komputerów rosną wykładniczo z czasem, nie pomaga jednak, gdyż nakład obliczeń też rośnie wykładniczo z wymiarem rozwiązywanych problemów.

• Oznacza to dodatkowo, że problem złożoności obliczeniowej ma ważkie implikacje epistemiczne, naukoznawcze. Z przytoczonej wyżej dyskusji wynika, że możliwości poznawcze człowieka ograniczone są nie tylko przez jego cechy podmiotowe, lecz także przez niedoskonałość narzędzi które stosuje w procesach poznawczych.

8

3. Masowość danych a prawo Moore’a• Z drugiej strony, rozwój pojemności pamięci

komputerowych zgodnie z prawem Moore’a stymuluje inny megatrend: masowe zwiększanie objętości przechowywanych i analizowanych danych, i to niemal w każdej dziedzinie badawczej czy społeczno-ekonomicznej. Łącznie, liczba dostępnych danych rośnie podobnie do prawa Moore’a, zwiększa się w przybliżeniu stukrotnie co dziesięciolecie. Co więcej, dane takie rosną szybko w wymiarowości: rośnie (być może, nieco tylko wolniej) liczba parametrów, których te dane dotyczą.

• Stąd też wzrost zapotrzebowania na moc obliczeniową faktycznie wyprzedza prawo Moore’a, co wywołuje często wręcz niemożliwość pomieszczenia wszystkich przetwarzanych danych w pamięci operacyjnej komputera, a więc konieczność przetwarzania strumieniowego: stosowania tylko takich algorytmów przetwarzania danych, które poradzą sobie z masą danych napływającą stopniowo, czy to w specjalnie zorganizowany sposób z określonej składnicy czy repozytorium danych (data warehouse), czy też w miarę ich pozyskiwania w czasie rzeczywistym.

9

3. Masowość danych a prawo Moore’a, 2• To właśnie zjawisko jest nazywane potocznie nadmiarem

danych lub masowością danych. Ze zjawiska tego wynika, że nie należy zbytnio ufać inteligencji komputerów czy ich oprogramowania, które rzekomo powinno sobie poradzić z każdym problemem. Potrzebna jest raczej inteligencja ludzi, programistów, którzy skonstruują specyficzne algorytmy radzące sobie ze wciąż nowymi typami problemów przy szybko rosnących ilościach i wymiarowości danych. Nie można przy tym wierzyć w uniwersalne algorytmy inteligentne – np. ewolucyjne, wzorujące się na uproszczonych zasadach ewolucji biologicznej – gdyż złożoność obliczeniowa właśnie takich algorytmów najsilniej zależy od wymiarowości danych.

• Pojawia się zatem szereg specjalnych metod inżynierii wiedzy, czyli wydobywania wiedzy z dużych zbiorów danych, data mining – czy to metodami statystycznymi, czy logicznymi i sztucznej inteligencji, czy też w oparciu o optymalizację i wielokryterialną teorię decyzji. Dane mogą być często pozornie niezwiązane ze sobą, ale pozwalające wykrywać różnorodne zależności pomiędzy nimi oraz prognozować różnorodne zdarzenia. Wiedza jest przy tym interpretowana dość wąsko, jako informacja zorganizowana w określonym celu.

10

4. Masowość danych a bezpieczeństwo ruchu• Zastosowania takich nowych podejść może mieć ogromne

znaczenie w logistyce, planowaniu ruchu oraz systemach bezpieczeństwa w transporcie drogowym i kolejowym. Na przykład, wiele referatów niedawnej konferencji IFIP Working Group on Advanced Analytics w Akwizgranie dotyczyło właśnie tych zagadnień; tematyka konferencji określona była jako: Integration of Modelling, Optimization, Data Analysis and Knowledge Management for Solving Real World Problems. Kilka referatów (np. Hu 2012) poświęcone było bezpieczeństwu ruchu w portach morskich; jednym z wniosków było stwierdzenie, że port dysponuje masowymi, strumieniowo napływającymi danymi (np. z satelitarnych namiarów pozycji statków i łodzi), a więc można konstruować algorytmy wykrywające sytuacje niebezpieczne bądź zbliżanie się jednostek nieznanych, w tym np. terrorystycznych.

• Na tym tle szczególnego znaczenia nabierają algorytmy wykrywania zdarzeń (zob. np. Granat et al. 2009). Modelowanie zdarzeń to tradycyjny obszar badawczy w informatyce, tu jednak chodzi o wykrywanie zdarzeń na podstawie masowych, strumieniowo napływających danych.

11

4. Masowość danych a bezpieczeństwo ruchu• Zdarzeniem może być np. awaria pojazdu wywołująca

zakłócenie ruchu, problemem jest rozpoznanie takiego zdarzenia np. ze strumienia danych z obserwacji ruchu wzdłuż inteligentnej drogi (t.j. drogi wyposażonej w sieć sensorów zbierających dane); istnieją już jednak specjalnie w tym celu konstruowane algorytmy wykrywania zdarzeń.

• Algorytmy takie, ze względu na wielką liczbę napływających danych, których całości nie pomieści typowa pamięć operacyjna, muszą mieć charakter nieklasyczny, dostosowany do przetwarzania strumieniowego, muszą wykorzystywać też moc obliczeniową równolegle lub chmurowo.

• Wszystko to oznacza, że możliwe są dzisiaj zupełnie nowe podejścia do wykorzystania danych o pozycjach i prędkościach pojazdów (czy to uzyskiwanych z systemu GPS, czy z sensorów inteligentnej drogi) wraz z danymi o stanie urządzeń zabezpieczenia ruchu do ich masowej i strumieniowej analizy, co może w decydującym stopniu wspomóc bezpieczeństwo ruchu.

12

5. Wnioski i zalecenia • Z tych nader ogólnych rozważań wynikają jednak dość

konkretne wnioski i zalecenia. • Po pierwsze, instytucje i organizacje związane z

bezpieczeństwem ruchu kolejowego i drogowego powinny tworzyć repozytoria (składnice, data warehouses) danych związanych z tym ruchem oraz stosować nowoczesne narzędzia ich analizy.

• Po drugie, ważnym kierunkiem badawczym są algorytmy strumieniowego lub chmurowego przetwarzania danych masowych, zwłaszcza przeznaczone do wykrywania zdarzeń mających związek z bezpieczeństwem ruchu; prace w tym kierunku należy zintensyfikować.

Masowe Przetwarzanie Danych a Bezpieczeństwo Ruchu Andrzej P. Wierzbicki Instytut Łączności –...

Documents

Transcript of Masowe Przetwarzanie Danych a Bezpieczeństwo Ruchu Andrzej P. Wierzbicki Instytut Łączności –...