Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i...

30
Ile w ilości jest jakości? Pięć lat inwentaryzacji usług Czyli dlaczego dążymy do 100% Departament Strategii i Analiz Rynku Telekomunikacyjnego Zespół Wydziału Analiz Hurtowych KFS 2014-11-18

Transcript of Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i...

Page 1: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Ile w ilości jest jakości?

Pięć lat inwentaryzacji usługCzyli dlaczego dążymy do 100%

Departament Strategii i Analiz Rynku Telekomunikacyjnego

Zespół Wydziału Analiz Hurtowych

KFS 2014-11-18

Page 2: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Agenda

� Zakres danych

� Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy

� Fakty i mity o inwentaryzacji

� Referencyjne zbiory danych geoadresowych

� Jakość danych wejściowych

� Proces kontroli, poprawy i wzbogacania danych

� Zastosowanie danych

Page 3: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

� Dane o ZAKOŃCZENIACH SIECI I USŁUGACH w ramach inwentaryzacji pokrycia istniejącą infrastrukturą telekomunikacyjną i publicznymi sieciami telekomunikacyjnymi zapewniającymi lub umożliwiającymi zapewnienie szerokopasmowego dostępu do Internetu oraz budynkami umożliwiającymi kolokację

� Kluczowe dane• Adresy i współrzędne geograficzne• Oferowane usługi na zakończeniu sieci• Maksymalna oferowana przepustowość• Liczba klientów z pakietem usług• Technologia dostępowa

Zakończenia i usługi w 2014 w liczbach

Podmioty 2 685

Zakończenia sieci 11 500 000

Usługi - liczba rekordów 8 900 000

Usługi - liczba klientów 15 400 000

Zakres danych

Page 4: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli od TXT poprzez XLS i XML i z powrotem do CSV

Problemy z przekazywaniem danych:

• Wykorzystywanie kilku kanałów równolegle i wysyłanie wielokrotnie różnych plików

• Nietrzymanie standardów nazewnictwa plików

Błędna struktura:

• Błędna struktura plików :

• zamiany kolumn, • wstawianie dodatkowych kolumn, • usuwanie wymaganych kolumn,• stosowanie różnych rozdzielaczy kolumn

niezgodnych ze specyfikacją lub brak rozdziału kolumn,

• Zmienna liczba kolumn lub ich kolejności dla poszczególnych wierszy.

Błędy struktury wewnętrznej zostały poprawione w przypadku ponad 2000

plików

2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)

Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy

Page 5: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli od TXT poprzez XLS i XML i z powrotem do CSV

Nieprawidłowe strony kodowe

• Stosowanie innych kodowań niż UTF-8.

• Stosowanie różnych stron kodowych w ramach tego samego pliku.

• Błędy w konwersji stron kodowych w trakcie przygotowywania danych, w efekcie polskie znaki diakrytyczne były zamieniane na: inne znaki lub litery łacińskie.

„Łódź” = „d”

Nieprawidłowe przypisanie identyfikatorów Teryt

• Błędne kody TERC• Błędne kody SIMC• Błędne kody ULIC

Wyniki zgodności danych PT z TERYT po czyszczeniu

• 99,71% dla SIMC

• 98,21% dla SIMC + ULIC

2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)

Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy

Page 6: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli od TXT poprzez XLS i XML i z powrotem do CSV

2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)

Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy

Błędy wykryte przez reguły poprawności

• Brak własności infrastruktury• Brak technologii dostępu• Brak pakietu usług• Brak informacji o przepustowości łącza • Nieprawidłowe prędkości• Brak liczby klientów w budynku

• Nieprawdziwe liczby klientów w budynku

Doświadczenia przeniesione do SIIS

• Wprowadzenie obowiązkowych identyfikatorów Teryt

• TERC dla gmin, • SIMC dla miejscowości ,• ULIC dla ulic,

• Wprowadzenie wymogu uzupełniania obowiązkowych pól

• Sprawdzanie zgodności pól słownikowych

Page 7: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

2011 SIIS 1.0

•Problemy z XML•Duże problemy z wydajnością•Dane w SIIS wprowadzane manualnie•Wiele kanałów dostarczenia danych powoduje niejednoznaczności (różne daty, różne zawartości)•Dane czyszczone offline w SDQ – systemie do czyszczenia danych

Czyli od TXT poprzez XLS i XML i z powrotem do CSV

2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)

2011 • SIIS 1.0• Problemy z generacją i

przetwarzaniem XML• Awaryjne przetwarzanie plików XLS• Dane czyszczone w systemie SDQ

Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy

Page 8: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli od TXT poprzez XLS i XML i z powrotem do CSV

2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)

2011 • SIIS 1.0• Problemy z generacją i

przetwarzaniem XML• Awaryjne przetwarzanie plików XLS• Dane czyszczone w systemie SDQ

2012 • Generator XML• Dopuszczenie plików CSV

Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy

2012 SIIS 2.0

•Czyszczenie danych w UKE•Zamiast nazw miejscowości podawane były nazwy miejscowości z placówką pocztową•Nadużywanie 99998

Page 9: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli od TXT poprzez XLS i XML i z powrotem do CSV

2013 SIIS 3.0

•Wprowadzenie modułu reguł poprawności danych w trakcie inwentaryzacji powoduje generację dużej liczby ostrzeżeń o błędach•Dogrywanie kolejnych wersji plików z danymi – w efekcie duplikacja danych w SIIS•Dane z poprzedniej inwentaryzacji nieaktualizowane przez przedsiębiorców•UKE wdraża system czyszczenia danych pozyskanych w trakcie inwentaryzacji•Problemy z danymi referencyjnymi punktów adresowych

GUS NOBC

GUGIK

34 0001 179 000

1 019 000

332 000

467 000

4 201 000

PESEL67 000

2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)

2011 • SIIS 1.0• Problemy z generacją i

przetwarzaniem XML• Awaryjne przetwarzanie plików XLS• Dane czyszczone w systemie SDQ

2012 • Generator XML• Dopuszczenie plików CSV

2013 • Moduł reguł poprawności• Problemy z duplikacją danych• Implementacja systemu do czyszczenia

danych w UKE DART

Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy

Page 10: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

2014 SIIS 4.0

•Ograniczenie kanałów komunikacji wyłącznie do SIIS znacząco niweluje poziom błędów•Wprowadzenie informacji podsumowującej•Atomowość ładowania danych•Reguły poprawności dają efekt w postaci lepszej jakości danych adresowych od PT•Nadal problem z wiarygodnością informacji od małych PT•Nadal zdarzają się duże błędy kluczowym PT•Znaczne błędy pomiędzy adresami a współrzędnymi geograficznymi

Czyli od TXT poprzez XLS i XML i z powrotem do CSV

2010 • Dane o usługach z nieobowiązkowym TERYT (pliki TXT, UTF-8 z „|”)

2011 • SIIS 1.0• Problemy z generacją i

przetwarzaniem XML• Awaryjne przetwarzanie plików XLS• Dane czyszczone w systemie SDQ

2012 • Generator XML• Dopuszczenie plików CSV

2013 • Moduł reguł poprawności• Problemy z duplikacja danych• Implementacja systemu do czyszczenia

danych w DART UKE

2014 • Nowe rozporządzenie• Ograniczenia kanałów komunikacji• Informacja podsumowująca• Wyraźne efekty reguł poprawności

Spojrzenie wstecz czyli skąd wyszliśmy i gdzie jesteśmy

Page 11: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli informacja z trzepaka bardziej wiarygodna niż instrukcja i rozporządzenie ☺

MIT FAKT

Można agregować wiele różnych elementów do jednego węzła

Do jednego węzła można agregować elementy sieci aktywnej w jednej wspólnej lokalizacji

Można agregować klientów do serwerowni, a stacje bazowe WIFI wskazać jako zakończenia sieci

Klienci i ich usługi muszą być wykazani na zakończeniach sieci, a więc w konkretnych punktach adresowych

Nie trzeba wykazywaćinfrastruktury dla sieci ETH i WiFi

Dla sieci ETH zbudowanej na kablach miedzianych gdy w domu klienta jest zainstalowane urządzenie operatora (np. switch) taki budynek musi być wykazany jako zasięg sieci ETH o ile pomiędzy routerem a switchem nie następuje zmiana medium np., z FO na Cu

Nie trzeba wykazywać punktów adresowych w których świadczone są usługi z wykorzystaniem sieci WiFi lub ETH

Inwentaryzacji podlegają wszystkie zakończenia sieci niezależnie od technologii dostępowej. W przypadku technologii mobilnej może być to adres korespondencyjny

UKE żąda przekazywania danych z dokładnością do lokalu mieszkalnego

Nigdy nie było takiego oczekiwania. Dane o zakończeniach sieci przekazujemy z dokładnością do punktu adresowego, a więc numeru porządkowego budynku

Fakty i mity o inwentaryzacji

Page 12: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli jest nieźle choć mogłoby być jeszcze lepiej

� TERYT (GUS)

• Jednoznaczny podziaładministracyjny RP

• Jednoznaczna identyfikacja miejscowości w Polsce

• Jednoznaczna identyfikacja ulicy

Nazwa miejscowości lub jej części

Liczba wystąpieńna terenie

RPStara Wieś 437

Podlesie 341Nowa Wieś 317

Piaski 275Góra 268

Kolonia 264Dół 231

Dąbrowa 214

Referencyjne dane o punktach adresowych

Krotnośćwystępowania nazwy w RP

Liczba miejscowości

podstawowych

Liczba miejscowości podstawowych i

części miejscowości1 28 893 46 4362 3 727 6 038

3-5 2 093 3 6856-10 543 1 118

11-20 218 50521-50 68 245

51-100 3 44powyżej 100 3 32

SIMC MIEJSCOWOŚĆ ULIC CECHA NAZWA_1 NAZWA_20952232 Wieliczka 09569 pl. Kościuszki0952232 Wieliczka 09578 os. Kościuszki Tadeusza0952232 Wieliczka 09582 ul. Kościuszki Tadeusza

0957985 Łódź-Górna 18651 pl. ReymontaWładysława Stanisława

0957985 Łódź-Górna 18648 ul. Reymonta Władysława0957985 Łódź-Górna 18647 park Reymonta im. Władysława0988595 Sulechów 38274 park Powstańców Wielkopolskich0988595 Sulechów 43311 rondo Powstańców Wielkopolskich0988595 Sulechów 17377 ul. Powstańców Wielkopolskich

Page 13: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli jest nieźle choć mogłoby być jeszcze lepiej

� TERYT (GUS)

• Jednoznaczny podziaładministracyjny RP

• Jednoznaczna identyfikacja miejscowości w Polsce

• Jednoznaczna identyfikacja ulicy

• Problemy

• Problemy z jakością danych

• Brak efektywnego śledzenia zmian nazw ulic (tylko dodaj usuń dla ulic)

Referencyjne dane o punktach adresowych

SIMCMIEJSCOWOŚĆ

ULIC Cecha Nazwa_1 Nazwa_20988684 Żary 27440 ul. Baczyńskiego K. K.0988684 Żary 34364 ul. Baczyńskiego K.

0977700 Gołdap 13085 os. Młodych0977700 Gołdap 32346 os. Osiedle Młodych

ULIC CECHA NAZWA_100008 pl. 1000-lecia39516 pl. Plac 1000-lecia45207 al. Aleje Jerozolimskie07487 al. Jerozolimskie07120 al. Jana Pawła II35344 al. Aleje Jana Pawła II37675 al. Aleja Jana Pawła II33262 ul. Aleja Jana Pawła II

SIMC MIEJSCOWOŚĆ ULIC ULICA0919298 Praga-Północ 30810 al. "Solidarności"0919298 Praga-Północ 40019 ul. Aleja "Solidarności"0919298 Praga-Północ 45206 Aleja "Solidarności"

Page 14: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli jest nieźle choć mogłoby być jeszcze lepiej

� PESEL (WSW)

• Lista punktów adresowych dla budynków mieszkalnych wraz z informacją o wiekowaniu mieszkańców

� NOBC (GUS)

• Lista punktów adresowych dla budynków mieszkalnych wraz z informacją o liczbie lokali mieszkalnych

• Brak współrzędnych geograficznych

Referencyjne dane o punktach adresowych

LP. Nazwa pola Opis pola

0 ID_Tech_Budynku numer techniczny budynku wspólny dla zbiorów danych ze stanami na dzień

1 WOJ symbol województwa2 POW symbol powiatu3 GMI symbol gminy4 RODZ symbol rodzaju gminy5 REJON numer rejonu statystycznego6 OBWOD numer obwodu spisowego w rejonie7 SYM_MIEJ identyfikator miejscowości8 NAZWA_MIEJ nazwa miejscowości 9 SYM_UL identyfikator ulicy

10 NAZWA_UL nazwa ulicy w pełnym brzmieniu11 CECHA określenie ulicy

12 NAZWA_1część nazwy ulicy począwszy od słowa, które decyduje o pozycji nazwy ulicy w układzie alfabetycznym, aż do końca nazwy

13 NAZWA_2 pozostała część nazwy ulicy lub pole puste14 DOD_A dodatkowa informacja ułatwiająca identyfikację budynku w terenie15 NR_DOMU numer porządkowy nieruchomości (nr domu)16 NRB_NIER numer budynku na nieruchomości

17 ID_NRB_NIERpole wypełnione tylko dla budynków na tej samej nieruchomości, jest to ID nieruchomości (z bazy NOBC) – to samo dla wszystkich budynków na tej nieruchomości

18 NR_BUD_WApole wypełnione tylko dla budynków wieloadresowych, jest to ID budynku wieloadresowego (z bazy NOBC) – to samo dla wszystkich adresów tego samego budynku

19 RODZ_Brodzaj budynku (1 – mieszkalny, 2 – niemieszkalny, 3 – z obiektem zbiorowego zakwaterowania, 0 – obiekt prowizoryczny)

20 L_MIESZK liczba mieszkań znajdujących się pod danym adresem budynku

21 L_MIESZK_ZAM liczba mieszkań zamieszkanych znajdujących się pod danym adresem budynku

22 L_MIESZK_NIEZAMliczba mieszkań niezamieszkanych, znajdujących się pod danym adresem budynku

23 STAN_NA

Page 15: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli było bardzo źle, jest źle ale kiedyś będzie lepiej

� GUGIK TBD

� GUGIK PRG

Referencyjne dane o punktach adresowych i GEO

Page 16: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Czyli jak bardzo jest źle z geokodwaniem adresów i dlaczego

� GUS NOBC

� GUGIK PRG

WOJEWÓDZTWO% PUNKTÓW ADRESOWYCH Z NOBC

POSIADAJĄCYCH BEZPOŚREDNI ODPOWIEDNIK W PRG GUGIK

02 DOLNOŚLĄSKIE 62%04 KUJAWSKO-POMORSKIE 82%06 LUBELSKIE 90%08 LUBUSKIE 82%10 ŁÓDZKIE 88%12 MAŁOPOLSKIE 71%14 MAZOWIECKIE 72%16 OPOLSKIE 25%18 PODKARPACKIE 79%20 PODLASKIE 88%22 POMORSKIE 74%24 ŚLĄSKIE 60%26 ŚWIĘTOKRZYSKIE 67%28 WARMIŃSKO-MAZURSKIE 81%30 WIELKOPOLSKIE 74%32 ZACHODNIOPOMORSKIE 85%

RAZEM 74%

GMINA% PUNKTÓW ADRESOWYCH Z NOBC

POSIADAJĄCYCH BEZPOŚREDNI ODPOWIEDNIK W PRG GUGIK

Opole 0%Konin 0%

Kędzierzyn-Koźle 0%Przemyśl 0%

Mińsk Mazowiecki 0%DobrzeńWielki 0%

Istebna 0%Dzierżoniów 0%

Komprachcice 0%Lipowa 0%

Łubniany 0%Kłodzko 0%Turawa 0%

Dąbrowa 0%Nowa Ruda 0%

Garwolin 0%

SIMC MIEJSC SYM_UL NAZWA_UL NR

0965016 Opole Ulica Budowlanych 150965016 Opole Ulica Major a ""Hubala"" 16D

0965016 OpoleUlica Kazimierza Wierzyńskiego

9

0965016 Opole Ulica Grudzicka 330948667 Konin 80948667 Konin 80948667 Konin 200948667 Konin 430948667 Konin 450948667 Konin 450948667 Konin 450948667 Konin 80948667 Konin 80948667 Konin 200948667 Konin 43

Referencyjne dane o punktach adresowych i GEO

% DOPASOWANIA NOBC DO PRG

LICZBA GMIN

LICZBA PUNKTÓW

ADRESOWYCH W NOBC

LICZBA PUNKTÓW ADRESOWYCH

DOPASOWANYCH Z PRG

0% - 10% 84 203 976 1 442

10% -20% 18 42 895 6 850

20% - 30% 26 60 533 15 717

30% - 40% 31 94 722 33 080

40%- 50% 51 145 538 67 669

50% - 60% 156 580 917 325 685

60% - 70% 281 846 951 550 490

70% - 80% 460 1 029 551 777 179

80% - 90% 848 1 825 125 1 557 798

90% - 100% 519 1 163 496 1 088 376

MIEJSCOWOŚĆ W DANYCH GUGIK

SIMCROZPIĘTOŚC W

KM

Horodło 0888787 902

Kąkolewnica 1064640 864

Świdnik 0957146 831

Pięćmorgi 0087461 775

Podzamcze 0867880 725

Łódź 0957650 687

Bełchatów 0967647 644

Kamieńsk 0541180 638

Brodno 0880739 492

Sułkowice 0952137 333

Page 17: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Przedsiębiorca SIIS UKE

Przygotowanie danych

Wstępna walidacja danych

Walidacja formalna

Wstępna walidacja poprawności

Proces kontroli, poprawy i wzbogacania danych w UKE

Czyli co robimy aby za ilością szła również jakość

Systemy PT

Generator

NDDO

Zgodność z rozporządze

-niem

Reguły poprawności

Raport z ładowania

Raport regułpoprawności

Standaryzacja

Mapowanie

Wzbogacanie

Analiza poprawności

Oznaczanie danych

niepoprawnych

Import do bazy

raportowej

Wezwania do PT

Wniosek o kontrolę PT

Proces kontroli, poprawy i wzbogacania danych

Page 18: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

� Wywołania reguł zaraz po załadowaniu plików i na żądanie użytkownika zamiast raz na dobę

� Poprawa wydajności reguł

� Eliminacja nadmiarowości raportowania ostrzeżeń

� Usunięcie niektórych reguł po analizie wyników

� Dodanie nowych reguł

� Zgrupowanie podobnych reguł do jednej o ile było to możliwe

� Ponad 30 reguł poprawności w 4 grupach

� Wprowadzamy bardziej aktywny model komunikacji w trakcie inwentaryzacji

Moduł RegułPoprawności

Page 19: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Największym problemem jakościowym jest poprawność adresów

Jakość danych wejściowych

Page 20: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Nazwy ulic operatorów – pojedynek marszałek kontra noblistka

Przykłady oryginalnej pisowni nazw ulic z danych operatorów

Al . Marszalka Pilsudzkiego Józefa Piłsudzskiego c. sklodowskiejN:MARIICURIE SKŁODOWSKIEJ

al. marszala pilsudskiego Józefa Piłsuskiego Curie Sdkłodowskiej N:MC SKŁODOWSKIEJal. marszalka pilsudskiego Maeszalka Pilsudskiego Curie Sklodowska N:M-C SkłodowskiejAl.Józefa Pilusdskiego Maraszalka Pilsudskkiego Curie Sklodowskiej Marii Plac N:SKLODOWSKIEJ-CURIEAl.M.J. Pilsudskiego Marsz . Pilsudskiego M C Skłodwskiej N:SKŁODOWSKIEHJ

Al.Marsz.Józefa Pilsudskego Marsz J Piłsudzkiego M Skłodowskiej - CurreNN-OSIEDLE M.C.SKŁODOWSKIEJ

Al.Marszalka J.Pilsudskiego Marsz Piłsudkiego M.C., Sklodowskiej NN-OSIEDLE SKŁODOWSKIEJAl.Marszalka Józefa Pilsudskiego

Marszalka Jozefa Marii Curii Sklodowskiej sklodowskiej

Al.Marszalka Pilsudskiego Marszalka Poilsudskiego Marii Cury Sklodowskiej Sklodowskiej Curie MariiAl.Pilduskiego Marszałka Józefa Piłsudskiego Marii Skladowskiej Curie Składowskiejaleja józefa pilsudskieg Marszałka Piłsudkiego marii sklowskiej curie SkłodowskaAleja Józefa Pilsudzkiego Marszałka Piłsudskiego N:C.SKŁODOWSKIEJ SkłodowskiejAleja Józefa Piłsudskiego Marszałka Piłsudzkiego N:CURI SKŁODOWSKIEJ Skłodowskiej - CurkieAleja Marszalka J. Pilsudskiego N:Al. J. PIŁSUDSKIEGO N:CURIE - SKŁODOWSKIEJ Skłodowskiej CirieBrzeziny Ul. Marsz.J.Pilsudzkiego

N:AL.M.PIŁSUDSKIEGO267 N:CURIE SKŁODOWSKA Skłodowskiej-Curie

Bulwary Marszalka PilsudskiegN:MARSZAŁKA PIŁSUDSKIEGO, AL

N:M C SKŁODOWSKIEJ Ul.C.Sklodowskiej

Bulwary Marszalka Pilsudskiego 22

N:PIŁSODSKIEGO N:M. SKŁODOWSKIEJ CURIE Ul.Marii Curie-Sklodoeskiej

duzy im.j.pilsudskiego N:PIŁSUCKIEGO N:M. SKŁODOWSKIEJ-CURIE Ul.Sklodowdkiej Curie

im. marsz. Józefa Piłsudskiego N:PIŁSUDDKIEGON:MARI SKŁODOWSKIEJ CURIE

Ul.Sklodowskiej

józefa pilssudskiego N:PIŁSUDKIEGO N:MARII C.SKŁODOWSKIEJ Ul.Sklodowskiej Curie

Mapowanie ulic z kodami 99998 na TERYT

Page 21: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Proces Jakości Danych

wyniki końcowe

Nazwa po standaryzacji

Liczba unikalnych nazw ulic

PIŁSUDSKIEGO 437CURIE-SKŁODOWSKIEJ 415WYSZYŃSKIEGO 269WOJSKA POLSKIEGO 216KOŚCIUSZKI 206JANA PAWŁA II 188SIKORSKIEGO 171DĄBROWSKIEGO 164GROTA ROWECKIEGO 147MICKIEWICZA 146SŁOWACKIEGO 133SOBIESKIEGO 128SIENKIEWICZA 126WESTERPLATTE 117ARMII KRAJOWEJ 113HALLERA 112KONSTYTUCJI 3 MAJA 107JAGIEŁŁY 107CHROBREGO 105KONOPNICKIEJ 99

� 26 algorytmów standaryzacji i dopasowania nazw ulic operatorów do nazw ulic słownikowych

• Kontekstowa poprawa nazw ulic i miejscowości

• Uwzględnienie zmian nazw ulic z lat poprzednich

• Zastosowanie algorytmów odległości edycyjnej Levenshteina i Jaro-Winklera – wyniki przybliżeń weryfikowane manualnie

� 17 algorytmów standaryzacji i dopasowania numerów porządkowych

� Ponad 1500 mapowań wartości „inne” na wartości słownikowe bazy raportowej

• Kontekstowe dopasowanie pakietów usług w obrębie technologii

� 99,84% zgodności na poziomie ulic

� 90,43% zgodności na poziomie budynków

Nazwa ulicy Nazwa TerytJaro-Winkler

Levenshtein

Dąbkowskiegoul. Jarosława Dąbrowskiego

64 50

Dąbkowskiegoul. Gen. Mieczysława Dąbkowskiego

38 42

Page 22: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Dane Orange znacząco wpływają na jakość wszystkich danych

Zgodność punktów adresowych zakończeń sieci z rejestrami państwowymi

Page 23: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Zgodność zakończeń sieci z referencyjną bazą punktów

adresowych dla województw

TERC Obszar % Przed % Po

Polska 79% 90%

02 dolnośląskie 82% 92%

04 kujawsko-pomorskie 83% 92%

06 lubelskie 83% 92%

08 lubuskie 81% 90%

10 łódzkie 80% 90%

12 małopolskie 79% 93%

14 mazowieckie 78% 91%

16 opolskie 72% 85%

18 podkarpackie 67% 92%

20 podlaskie 85% 93%

22 pomorskie 81% 91%

24 śląskie 77% 88%

26 świętokrzyskie 81% 91%

28 warmińsko-mazurskie 81% 93%

30 wielkopolskie 79% 86%

32 zachodniopomorskie 81% 93%

Zgodność punktów adresowych zakończeń sieci z rejestrami państwowymi

Page 24: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Wypełnienie pól INNE nie niesie niejednokrotnie żadnej użytecznej informacji� Mapowanie na wartości z bazy

raportowej� Wypełnienie pól INNE nie niesie

niejednokrotnie żadnej użytecznej informacji

� Weryfikacja kontekstowa poprawności i mapowanie

• Medium + technologia• Technologia + pakiet usług• Technologia + przepustowość• …..

Popularne wartości dla pola INNE dla pakietów

INNY inne - jakie?

INNY Inne usługi

INNY 1

INNY 0

Kategoria Liczba unikalnych wartości PRZED

czyszczeniem

Liczba unikalnych wartości PO do raportowania

Własność 39 9

Technologia 233 46

Pakiet usług 1128 92

Przepustowość 211 14

PRZYKŁADY BŁĘDÓWMEDIUM TECHNOLOGIA

RADIOWE ADSL2+

RADIOWE KABEL

RADIOWETAK - DLA MEDIUM ŚWIATŁOWODOWEGO, MIEDZIANEGO LUB RADIOWEGO

WSPÓŁOSIOWE MIEDZIANE EURODOSIS - WIFI

WSPÓŁOSIOWE MIEDZIANE WIFI - 2,4 GHZ

PAROWE MIEDZIANE ZALEZNIE OD POTRZEB KLIENTA

PAROWE MIEDZIANE NIE

ŚWIATŁOWODOWE WIFI 5 GHZ

ŚWIATŁOWODOWE ŚWIATŁOWODOWA I MIEDZIANA

INNE - JAKIE? INNA

UZUPEŁNIĆ INNA

ETHERNET, WLAN, FO INNA

MIEDZANE INNA

TECHNOLOGIA PAKIET

WIFI – 2,4 GHZ ATV

WIFI – 5 GHZ DTV_ATV

WIFI – 5 GHZ WIFI

WIFI – 2,4 GHZ DZIERŻAWA WŁÓKNA

WIFI – 2,4 GHZ DOSTĘP DO SIECI SZKOLNEJ I INTERNETU

WIFI INTERNET BEZPRZEWODOWY

Standaryzacja i mapowania na wartości raportowe

Page 25: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Widok stworzony z wykorzystaniem Google Maps podlega warunkom korzystania z usług Google.

Czyli błędne id miejscowości i nieprawdziwe dane o liczbie klientów na zakończeniu

Widok stworzony z wykorzystaniem Google Maps podlega warunkom korzystania z usług Google.

Przykłady zidentyfikowanych nieprawidłowości

Operatorzy

� Punkty adresowe

• Nieprawidłowe przypisanie ulicy z kodem 99998 do miejscowości, w której taka ulica nie istnieje. Ulica taka istnieje w miejscowościach przyległych na terenie tej samej gminy

• Błędne przypisanie SIMC miejscowości o identycznej nazwie (PNA, ulica, węzełdostępowy)

• Kod 99999 w miastach

• Nr porządkowe = „1,3,5,7,9,…

• Nieprawidłowa liczba klientów w punkcie adresowym

Page 26: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Miejscowo ść SIMCRozpi ętość w km wg

danych geo PT

Świnoujście 0979722 556

Darłowo 0949833 521

Szczecin 0977976 517

Sławno 0977410 506

Rzyszczewo 0750391 505

Tychowo 0750497 501

Nowogard 0979389 499

Suwałki 0977456 491

Mieroszyno 0170587 491

Kraków 0950463 487

Top 10 światowych metropolii według danych Geo PT

Czyli rozbieżności pomiędzy adresami a podanymi współrzędnymi Geo

� Światowe metropolie według Geo

� Punkty skupienia Geo operatorów np. :

• Punkt G1• 8 województw

• 15 powiatów

• 18 gmin i miejscowości

• Punkt G2• 863 adresy z 27 miejscowości i 6

powiatów w jednym miejscu

� Odległości pomiędzy adresami a danymi Geo

Przykłady zidentyfikowanych nieprawidłowości

Jeden z tajemniczych „Punktów

skupienia Geo”

Widok stworzony z wykorzystaniem Google Maps podlega warunkom korzystania z usług Google.

Województwo Powiat Gmina SIMC Miejscowo śćzachodniopomorskie

goleniowski Nowogard 979389Nowogard

wielkopolskie kępiński Kępno 936871Kępnomałopolskie krakowski Skawina 951876Skawinaśląskie Kraków Kraków 950463Kraków

podkarpackie leszczyńskiŚwięciechowa

377035Trzebiny

podlaskie mikołowskiŁaziska Górne

941139Łaziska Górne

mazowieckieropczycko-sędziszowski

Sędziszów Małopolski

974937Sędziszów Małopolski

dolnośląskie sławieński Sławno 750391RzyszczewoSuwałki Sławno 750497TychowoSzczecin Darłowo 949833DarłowoŚwinoujście Sławno 977410SławnoTychy Suwałki 977456Suwałkiwodzisławski Szczecin 977976Szczecinwołomiński Świnoujście 979722ŚwinoujścieWrocław Tychy 944534Tychy

Wodzisław Śląski

944853Wodzisław Śląski

Zielonka 921970ZielonkaWrocław 986283Wrocław

Województwo Powiat Gmina SIMC Miejscowo śćmałopolskie wadowicki Andrychów 924023 Andrychów

śląskieoświęcimski

Kęty 045089 Inwałd

nowotarski Nowy Targ 045221 Roczynysuski Osiek 045681 Sułkowice

żywieckiSucha Beskidzka

057247 Bulowice

bielski Wadowice 924365 KętyWieprz 057402 MalecCzernichów 057477 Nowa WieśKozy 057520 WitkowicePorąbka 961538 Nowy TargWilamowice 075660 Głębowice

063414 Osiek925287 Sucha Beskidzka926921 Wadowice075481 Gierałtowice075587 Gierałtowiczki075972 Wieprz051090 Międzybrodzie Bialskie058028 Kozy064371 Bujaków064431 Czaniec064661 Kobiernice064773 Porąbka076240 Hecznarowice076279 Pisarzowice926996 Wilamowice076523 Zasole Bielańskie

863 adresy na identycznych

współrzędnych

Page 27: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

1. Wyznaczenie obszarów dla działania 8.4

2. Analizy dostępności infrastruktury szerokopasmowej

3. Analizy udziałów różnych technologii dostępowych

4. Analizy konkurencyjności

5. Informacja publiczna

6. Analizy świadczenia usług dostępu do Internetu bez pobierania opłat dla gmin

Do czego służą zebrane dane?

Wykorzystanie danych

Page 28: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

1. Osiągniecie celów POPC

2. Informacja publiczna

3. Decyzje regulacyjne

4. Model interwencji w nowej perspektywie

5. Uzupełnienie i poprawa baz GUGIK/GUS

6. W planach realizacja portalu o dostępności usług szerokopasmowych

Do czego służą zebrane dane?

Wykorzystanie danych

Page 29: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

Wykorzystanie danychDostępność 30Mbps

Page 30: Ile w ilości jest jakości? Pięćlat inwentaryzacji usług...Kluczowe dane • Adresy i współrzędne geograficzne • Oferowane usługi na zakończeniu sieci • Maksymalna oferowana

90% poprawności dla Polski może oznaczać blisko 0% poprawności na terenie wielu

powiatów i setek gmin

� Wysiłek wkładany przez PT w zakresie podnoszenia jakości danych z roku na rok jest widoczny, ale widzimy dalej miejsce na poprawę

� Dane są coraz lepsze choć niektórzy duzi operatorzy się pogorszyli

� Będziemy dążyć do ściślejszej kontroli danych wejściowych

� Będziemy dążyć do eliminacji przypadków przekazywania nieprawdziwych danych

Podsumowanie