Praca zespołowa i sieci społeczne na Wikipedii

25
Praca zespołowa i sieci społeczne na Wikipedii Dr Adam Wierzbicki, Piotr Turek, Radosław Nielek, dr Albert Hupa, dr Anwitaman Datta Informatyka Społeczna

description

Prezentacja badania realizowanego przez dr Adama Wierzbickiego z Informatyki Społecznej i dr Alberta Hupę z IRCenter, przedstawiona podczas drugiego spotkania Social Impact, 30 czerwca 2010.

Transcript of Praca zespołowa i sieci społeczne na Wikipedii

Page 1: Praca zespołowa i sieci społeczne na Wikipedii

Praca zespołowa i sieci społeczne na Wikipedii

Dr Adam Wierzbicki, Piotr Turek, Radosław Nielek, dr Albert Hupa,

dr Anwitaman DattaInformatyka Społeczna

Page 2: Praca zespołowa i sieci społeczne na Wikipedii

Plan prezentacji

• Wprowadzenie: otwarte sieci innowacyjne

• Problem badawczy: analiza śladów zjawisk społecznych na Wikipedii

• Metoda badawcza: wielowymiarowe sieci społeczne

• Zespoły na Wikipedii

• Pierwsze wyniki i wnioski oraz kierunki dalszych prac

Page 3: Praca zespołowa i sieci społeczne na Wikipedii

Dlaczego Wikipedia?

• Wikinomia jako model gospodarki opartej na wiedzy– Uznawany za najbardziej przyszłościowy

• A jednak… czy jest coś bardziej kontrowersyjnego niż jakość Wikipedii?

• Dlatego warto się dowiedzieć: od czego zależy, czy zespół autorów na Wikipedii napisze dobry artykuł?– Czy możemy to ocenić, a może przewidywać?

• A także: co jest specjalnego w środowisku społecznym autorów Wikipedii?– Czy możemy tworzyć podobne środowiska w firmie? Jakie są

procesy społeczne zachodzące w takich środowiskach? Jak je kształtować i wykorzystywać do poprawy jakości wytworów?

Page 4: Praca zespołowa i sieci społeczne na Wikipedii

Sieci COIN

• Wikipedia to szczególny przypadek „Collaborative Innovation Network” (COIN)– Termin wynaleziony przez Petera Gloora z MIT– „a cyberteam of self-motivated people with collective vision,

enabled by Web to collaborate in achieving a common goal by sharing ideas, information and work”

• Inne przykłady:– Sieć deweloperów Linuksa (i opensource)– Autorzy treści w Web2.0– Inne projekty innowacyjne (także biznesowe)

• Własności COIN:– „Swarm creativity”– Częsta komunikacja pomijająca bariery organizacyjne– Tworzenie i wykorzystywanie sieci społecznych

Page 5: Praca zespołowa i sieci społeczne na Wikipedii

Inna sieć COIN

• Przykład sieci COIN deweloperów Linuksa• Granice pomiędzy społecznościami są płynne• Inne są role i normy członków różnych społeczności

Page 6: Praca zespołowa i sieci społeczne na Wikipedii

Dlaczego badamy sieci COIN?

• Na całym świecie firmy próbują tworzyć wirtualne zespoły– Wykorzystujące współpracę

w modelu Web2.0– Podkreślając otwartość, współpracę, równość

• Jednak jak mamy to robić dobrze?

Page 7: Praca zespołowa i sieci społeczne na Wikipedii

Wprowadzenie do Wikipedii

• Istotne cechy Wikipedii:– Otwartość (każdy może edytować)– Brak sztywnych hierarchicznych struktur (choć istnieją

role)– Brak centralnego nadzoru (choć istnieje jeden

„benevolent dictator” ;)• Cechy edycji artykułów:

– Każdy może edytować bez ograniczeń– Nie trzeba się rejestrować ani logować (choć można)– Aktywni członkowie społeczności mają swoje profile– Większość małych edycji jest robiona anonimowo

Page 8: Praca zespołowa i sieci społeczne na Wikipedii

Plan prezentacji

• Wprowadzenie: otwarte sieci innowacyjne

• Problem badawczy: analiza śladów zjawisk społecznych na Wikipedii

• Metoda badawcza: wielowymiarowe sieci społeczne

• Zespoły na Wikipedii

• Pierwsze wyniki i wnioski oraz kierunki dalszych prac

Page 9: Praca zespołowa i sieci społeczne na Wikipedii

Co badamy?

• Problem badawczy– Poszukiwanie śladów

zjawisk społecznych w historii edycji– Sformułowanie kryteriów oceny

zespołów autorów na Wikipedii

• Możliwe zastosowania:– Modelowanie i ocena pracy

otwartych zespołów– Rekomendacja autorów i recenzentów artykułów

• Proponowana metoda badawcza:– Użycie wielowymiarowych sieci społecznych jako modelu– Budowa sieci w oparciu o historię edycji– Sformułowanie kryteriów jakości zespołów w oparciu o sieci

Page 10: Praca zespołowa i sieci społeczne na Wikipedii

Historia edycji• Zbadaliśmy całą historię edycji polskiej Wikipedii

– Dobrze rozwinięta: ponad 650 000 artykułów– Można zanalizować całość (dla porównania:

angielska Wikipedia jest 30 razy większa)• Zbiór danych

– Zawiera każdą wersję każdej strony na polskiej Wikipedii

• Pełen tekst• Znacznik czasowy• Nazwa zarejestrowanego autora lub

adres IP anonimowego autora– Strony dzielą się na: artykuły,

strony dyskusji, strony specjalne itd.– Rozmiar zbioru: ponad 200 GB

nieskompresowanego tekstu

Page 11: Praca zespołowa i sieci społeczne na Wikipedii

Rozpoznawanie zmian

• Wprowadziliśmy własny binarny format dla historii edycji– Każde słowo reprezentowane przez indeks w słowniku (formy

gramatyczne są zachowane)– Możliwa jest reprezentacja różnicowa wersji stron]

• Redukcja rozmiaru o 99%

• Wyszukiwanie dowolnych fragmentów tekstu– Struktura danych DBF

• tworzona algorytmem Karp-Miller-Rosenberg– Musi być obliczona raz dla całej historii edycji

• Trwa to 48 godzin ;]– Pozwala na:

• Wyszukiwanie dowolnego ciągu słów w skończonym czasie• Wykrywanie operacji cut-and-paste, co pozwala na wykrycie

oryginalnego autora• Łatwe wykrywanie przywracania treści artykułu

Page 12: Praca zespołowa i sieci społeczne na Wikipedii

Kto jest autorem tekstu?

• Kto jest autorem słów „niemniej jednak”?• Analizujemy n-gramy słów

– n=8– Autorem każdego n-gramu są edytorzy, którzy

pierwszy raz wpisali ten n-gram w całej historii edycji– Krótsze wyrażenia nie są uwzględniane

• W końcu, każdy n-gram ma n autorów• Dzięki temu, możemy ustalić autora każdego

słowa występującego w każdej wersji każdego artykułu(strony)

Page 13: Praca zespołowa i sieci społeczne na Wikipedii

Plan prezentacji

• Wprowadzenie: otwarte sieci innowacyjne

• Problem badawczy: analiza śladów zjawisk społecznych na Wikipedii

• Metoda badawcza: wielowymiarowe sieci społeczne

• Zespoły na Wikipedii

• Pierwsze wyniki i wnioski oraz kierunki dalszych prac

Page 14: Praca zespołowa i sieci społeczne na Wikipedii

Wielowymiarowa sieć społeczna• Sieć społeczna autorów treści na Wikipedii

– Anonimowi autorzy i boty nie są uwzględniani– Krawędzie pomiędzy autorami (węzłami) mogą pochodzić z

różnych wymiarów sieci– Każda krawędź ma określoną siłę (specyficzną dla wymiaru)

• Sieć powstaje z historii edycji– Można wybrać moment czasowy utworzenia sieci– Siła krawędzi powstaje z edycji wszystkich stron w

dotychczasowej historii• Obecnie używamy 4 wymiarów

– Wymiar 1 (zaufanie)– Wymiar 2 (krytyka)– Wymiar 3 (znajomość)– Wymiar 4 (zainteresowania)

Page 15: Praca zespołowa i sieci społeczne na Wikipedii

Wymiary sieci• Wymiar 1

– Siła krawędzi to ilość słów autora A, które zostały przeniesione w inne miejsce przez autora B

– Interpretowany jako zaufanie• Wymiar 2

– Siła krawędzie to ilość słów autora A skasowanych przez autora B– Interpretowany jako krytyka– Poprzednia interpretacja: nieufność

• Wymiar 3– Siła krawędzi to ilość słów autora B wpisanych w pobliżu słów autora A

na stronach dyskusji– Interpretowany jako znajomość

• Wymiar 4– Graf dwudzielny łączący autorów z kategoriami semantycznymi– Siła krawędzi to ilość edycji autora w danej kategorii– Interpretowany jako zainteresowania– Poprzednia interpretacja: wiedza

Page 16: Praca zespołowa i sieci społeczne na Wikipedii

Plan prezentacji

• Wprowadzenie: otwarte sieci innowacyjne

• Problem badawczy: analiza śladów zjawisk społecznych na Wikipedii

• Metoda badawcza: wielowymiarowe sieci społeczne

• Zespoły na Wikipedii

• Pierwsze wyniki i wnioski oraz kierunki dalszych prac

Page 17: Praca zespołowa i sieci społeczne na Wikipedii

Zespoły na Wikipedii

• Zespół to podzbiór sieci społecznej• W historii edycji, zespół to zbiór autorów, którzy

współtworzyli artykuł– Których edycje są nadal częścią aktualnej wersji

artykułu• Założenie: jakość zespołu można ocenić po

jakości jego wytworu (artykułu)• Dlatego wykorzystujemy klasyfikację artykułów

na Wikipedii– Klasyfikacja wykonana przez czytelników– Artykuły „złote” (wyróżnione) i „dobre”– Pozostałe artykuły (po usunięciu artykułów „stub”)

uznajemy za „normalne”

Page 18: Praca zespołowa i sieci społeczne na Wikipedii

Kryteria jakości zespołów

• Oparte o wielowymiarową sieć

• Sumy lub średnie sił krawędzi pomiędzy członkami zespołu

• Dla wymiaru 4 (zainteresowania):– Średnie zainteresowanie członków zespołu

kategoriami opisującymi tworzony artykuł– Najsłabsze zainteresowanie (minmax) wśród

członków zespołu kategoriami artykułu

Page 19: Praca zespołowa i sieci społeczne na Wikipedii

Zbiór danych Wikiteams

• Około 300 „złotych” i „dobrych” zespołów• Około 200 000 normalnych zespołów• Informacje na temat zespołu:

– Rozmiar– Skład– Obliczone wartości kryteriów

• Informacje na temat artykułu:– Ilość edycji– Czas pierwszej i ostatniej edycji

• Informacje o autorach:– W ilu „złotych” i „dobrych” zespołach uczestniczył autor– Pozycja autora w każdej z sieci społecznych

Page 20: Praca zespołowa i sieci społeczne na Wikipedii

Plan prezentacji

• Wprowadzenie: otwarte sieci innowacyjne

• Problem badawczy: analiza śladów zjawisk społecznych na Wikipedii

• Metoda badawcza: wielowymiarowe sieci społeczne

• Zespoły na Wikipedii

• Pierwsze wyniki i wnioski oraz kierunki dalszych prac

Page 21: Praca zespołowa i sieci społeczne na Wikipedii

Porównanie dobrych i normalnych zespołów

0

100

200

300

400

500

600

700

800

trust

avge

trust

avgv

critic

ism a

vge

critic

ism a

vgv

acqu

aintanc

e avge

acqu

aintanc

e avgv

inter

ests a

vgav

g

inter

ests m

inmax

good teams normal teams

0%

20%

40%

60%

80%

100%

120%

140%

160%

trust

avge

trust

avgv

critic

ism a

vge

critic

ism a

vgv

acqu

aintanc

e avge

acqu

aintanc

e avgv

inter

ests a

vgav

g

inter

ests m

inmax

good teams normal teams

Page 22: Praca zespołowa i sieci społeczne na Wikipedii

Kapitał społeczny autorów

• Czy ilość dobrych zespołów, w których uczestniczył autor, jest związana z jego kapitałem społecznym?

• Tak. Stopień węzła w wymiarze 3 (znajomość) i 1 (zaufanie) dobrze prognozuje ilość dobrych zespołów autora.

• Dobrze jest mieć wiele kontaktów w sieciach 3 i 1, ale kontakty te nie powinny się ze sobą zbyt silnie łączyć.

Zmiennaobjaśniająca

R kwadratWspółczynnik w

modelu liniowym

Stopień w wymiarze 3 0,272 0,16

Stopień w wymiarze 1 0,43 1,34

CC w wymiarze 3 0,053 -2,93

CC w wymiarze 1 0,014 -1,18

Page 23: Praca zespołowa i sieci społeczne na Wikipedii

Pierwsze wnioski

• Najlepszą korelację z jakością zespołu mają kryteria znajomości (wymiar 3)

• Większość kryteriów jest istotna statystycznie• Możliwa jest klasyfikacja dobrych zespołów na

podstawie zaproponowanych kryteriów z dokładnością do 90%

• Zainteresowania autorów tematyką dobrego artykułu nie musi być wysokie– Dobre artykuły dotyczą tematów popularnych z innych

względów

• Kapitał społeczny autorów dobrze prognozuje ich udział w dobrych zespołach.

Page 24: Praca zespołowa i sieci społeczne na Wikipedii

Czego chcielibyśmy się dowiedzieć?

• Czy nasze interpretacje wymiarów są poprawne?– Badania jakościowe oraz sondaż wśród

aktywnych autorów polskiej Wikipedii zgromadzonych na Wikimanii w Gdańsku

• Jakie inne zjawiska społeczne mają istotny wpływ na jakość zespołu?

Page 25: Praca zespołowa i sieci społeczne na Wikipedii

Pytania?