Wprowadzenie do modelowania zjawisk społecznych i ... · WPROWADZENIE DO MODELOWANIA ZJAWISK SPO...
Transcript of Wprowadzenie do modelowania zjawisk społecznych i ... · WPROWADZENIE DO MODELOWANIA ZJAWISK SPO...
Copyright © StatSoft Polska 2014, [email protected]
5
WPROWADZENIE DO MODELOWANIA ZJAWISK SPOŁECZNYCH
I PRZYKŁADY ZASTOSOWAŃ W STATISTICA
Adam Sagan, Uniwersytet Ekonomiczny w Krakowie,
Katedra Analizy Rynku i Badań Marketingowych
Wykorzystanie podejścia modelowego w badaniach społecznych (badaniach socjolo-
gicznych, psychologicznych czy marketingowych) jest związane z zastosowaniem
różnorakich metod statystycznych i ekonometrycznych do opisu, wyjaśniania i predykcji
zjawisk społecznych. W badaniach społecznych można wyróżnić trzy typy modeli:
modele opisowe (deskryptywne), modele wyjaśniające (eksplanacyjne) i modele
predykcyjne.
Celem modeli opisowych jest poprawne odzwierciedlenie wewnętrznej struktury danych
pozwalającej na wyodrębnienie najistotniejszych regularności i zależności. Modele te
pozwalają na przedstawienie struktury danych w syntetyczny sposób, umożliwiają
optymalną redukcję danych (najczęściej kosztem utraconej informacji, niewyjaśnionej
wariancji czy bezwładności). Ważną rolę w modelach opisowych odgrywa dopasowanie
modelu (model fit), mówiące, jak dobrze model (np. zestaw zmiennych niezależnych)
odtwarza istniejące dane (obserwacje indywidualne, macierz wariancji–kowariancji,
macierz korelacji itp.). Do modeli opisowych należą modele eksploracyjnej analizy
danych, analiza głównych składowych, analiza log-liniowa czy konfirmacyjna analiza
czynnikowa.
Copyright © StatSoft Polska 2014, [email protected]
6
Modele eksplanacyjne są tworzone w celu poprawnego odzwierciedlenia zależności
przyczynowych. W modelach tych dużą rolę odgrywa ocena egzogeniczności (i endoge-
niczności) zmiennych, wyodrębnienie zależności warunkowych oraz kontrola anali-
zowanych relacji przyczynowo-skutkowych. Ważnym warunkiem oceny modelu jest
poprawna jego specyfikacja i ocena obciążenia (bias). Poprawne modele eksplanacyjne
powinny charakteryzować się zarówno wysoką mocą eksplanacyjną (niskim błędem
specyfikacji), jak i wysoką mocą predykcyjną (niskim błędem przewidywania). W mo-
delach tych występuje na ogół taka zależność, że im wyższy jest ich błąd specyfikacji
(np. błędna teoria leżąca u ich podstaw), tym niższa jest ich moc predykcyjna. Modele te
powinny się cechować również niskim prawdopodobieństwem falsyfikacji (odrzucenia).
Do tego typu modeli należą ekonometryczne modele wielorównaniowe o równaniach
współzależnych, modele strukturalne i ścieżkowe.
Trzecie z wyodrębnionych modeli to modele predykcyjne. Mają one na celu poprawne
przewidywanie przyszłych (lub nowych) obserwacji na podstawie danego modelu. Dużą
rolę odgrywa w nich wykorzystywanie prób uczących (budowa modelu) i prób
testowych (predykcja nowych obserwacji). Jakość przewidywania jest najczęściej
mierzona na podstawie różnorodnych metod tzw. walidacji krzyżowej (wielokrotny
podział prób na testowe i uczące). Modele predykcyjne powinny cechować się zarówno
wysokim poziomem konfirmacji, jak i wysoką trafnością przewidywania (moc
predykcyjna), a jednocześnie ich trafność wyjaśniania może być mniejsza (niska moc
eksplanacyjna). Moc i trafność predykcyjna jest oceniana na podstawie miar zmienności
losowej oszacowań z kolejnych prób w procedurach walidacyjnych (sampling variance).
Do tego typu modeli predykcyjnych należy większość podejść z obszaru data mining,
drzewa klasyfikacyjne i regresyjne, analiza reguł asocjacyjnych i sekwencyjnych, sieci
neuronowe itp.). Należy podkreślić, że generalnie modele charakteryzujące się dużym
błędem specyfikacji (niską mocą eksplanacyjną) mogą równocześnie mieć dużą moc
predykcyjną (bias–variance trade off). Jest to sytuacja występująca w przypadku
wykorzystywania dużej liczby skorelowanych (współliniowych) predyktorów oraz
szumów (błędów losowych) w danych. Oznacza to, że modele, które poprawnie
Copyright © StatSoft Polska 2014, [email protected]
7
przewidują rzeczywistość, mogą jednocześnie błędnie ją wyjaśniać i przedstawiać jej
nieprawdziwy obraz.
Jak w każdym obszarze analiz, próby wyjaśniania i opisu tych zjawisk wiążą się z roz-
wiązaniem problemu poprawnej specyfikacji modelu związanej z naturą zjawisk spo-
łecznych. Specyfika modelowania zjawisk społecznych wiąże się z: 1) subiektywnym
i jakościowym charakterem wskaźników wykorzystywanych w pomiarze (niemetryczny
charakter pomiaru mierzonych własności), 2) deklaratywną postacią danych
wynikających z odpowiedzi na pytania o opinie, postawy, nastawienia i subiektywną
wiedzę badanego (problem odtworzenia intencji badanego na podstawie odpowiedzi na
pozycje kwestionariusza), 3) nieobserwowalnym charakterem mierzonych cech
dotyczących wiedzy, opinii, postaw czy wartości respondentów (wprowadzanie do
analizy zmiennych ukrytych wynikających z nieobserwowalnych własności i założeń
teoretycznych badacza), 4) kontekstowością analizowanych zjawisk i wpływem
czynników sytuacyjnych w modelowanych zjawiskach (analiza chwilowych stanów
emocjonalnych i poznawczych jednostek) 5) hierarchicznością układów społecznych,
wynikających z przynależności respondentów do grup społecznych, instytucji, kręgów
kulturowych itp.
Wszystkie wspomniane czynniki powodują konieczność uwzględnienia dodatkowych
założeń w procesie budowy modelu i poświęcenia szczególnej uwagi problemowi
poprawnej specyfikacji modelu, uwzględnienia rzetelności narzędzi pomiaru i wyboru
właściwych metod analizy danych.
Niemetryczny charakter wskaźników w badaniach społecznych
Z punktu widzenia teorii pomiaru i klasyfikacji skal pomiarowych najbardziej popularną
klasyfikacją jest propozycja Stevensa, który dzieli skale pomiarowe na cztery pod-
stawowe typy: nominalny, porządkowy, przedziałowy i stosunkowy. W badaniach
społecznych z wykorzystaniem pytań informacyjnych i wskaźnikowych (otwartych
Copyright © StatSoft Polska 2014, [email protected]
8
i zamkniętych) oraz skal najczęściej pomiar jest wykonywany na poziomie skali
nominalnej (np. pytanie o płeć) i porządkowej (np. pytanie dotyczące rankingu marek
produktów). Rzadziej stosowane są pytania na poziomie przedziałowym lub stosun-
kowym (np. pytanie dotyczące dochodów w złotówkach lub wzrostu w centymetrach).
Specyficznym rodzajem narzędzi pomiaru w badaniach społecznych są skale postaw
i opinii, w których respondent ujawnia swoją postawę na skalach binarnych (tak nie)
lub wielopunktowych (najczęściej pięcio- lub siedmiopunktowych). Wykorzystywane są
również binarne wskaźniki mierzonych cech wynikające z określonych zachowań lub
stanu posiadania (np. posiadanie „willi z basenem” jako wskaźnika sukcesu
zawodowego).
Popularność tych typów skal i wskaźników powoduje, że często skale 5 lub 7-punktowe
są interpretowane jako przedziałowe (metryczne) i wykorzystywane w budowie modelu
jako dane ilościowe1. Są one podstawą budowy takich skal postaw, jak skale: Likerta,
Stapela czy Guttmana (w wersji politomicznej). Traktowanie skal typu Likerta jako
metrycznych powoduje jednak pewne problemy w modelowaniu zjawisk. Po pierwsze:
występuje tłumienie współczynnika korelacji Pearsona (jest on niższy niż dla
odpowiadającej im skali metrycznej). Po drugie: błędy standardowe w oszacowaniach
parametrów modelu są niedoszacowane (zbyt małe) w porównaniu do metrycznych
odpowiedników tych skal. Po trzecie: wskaźniki globalnego dopasowania modelu, jak
np. statystyka 2, są zbyt wysokie (efekt inflacji wskaźnika), co prowadzi do wyższego
prawdopodobieństwa odrzucania poprawnego modelu (szczególnie, gdy skale mają
mniej niż 5 kategorii i cechują się dużą skośnością). Obciążenie modelu jest znaczne,
gdy stosowane są binarne wskaźniki (jako metryczne) oraz wtedy, gdy występują efekty
1 Jednym z nieporozumień wynikających z traktowania skal ocen jako skal przedziałowych jest niepoprawna
interpretacja punktów na skali jako jednostek „równo oddalowych” od siebie (różnice między 1 - 2 - 3 – 4
a 5 są jednakowe). Skala przedziałowa powinna spełniać założenie, że równym przyrostom punktów na skali
ocen powinny towarzyszyć równe przyrosty mierzonych przez taką skalę własności (np. siły postaw czy
opinii), a nie tylko równych różnic między umownymi punktami skali.
Copyright © StatSoft Polska 2014, [email protected]
9
„sufitu” i „podłogi” zorientowane opozycyjnie (pseudoczynniki ekstremalnych
odpowiedzi).
Jednym z rozwiązań problemu stosowania niemetrycznych wskaźników w modelowaniu
zjawisk społecznych jest wykorzystanie teorii progów (thresholds). W podejściu tym
przyjmuje się założenie, że niemetryczny, jakościowy wskaźnik binarny lub polito-
miczny jako zmienna obserwowalna (manifest variable) jest jedynie niedoskonałym
przybliżeniem miernika ilościowego danej własności mającej rozkład normalny.
Wartość surowa danego wskaźnika jest transformowana na wartość metryczną
pomiarowego wskaźnika ukrytego (latent response variable), który stanowi następnie
właściwy wskaźnik mierzonej cechy ukrytej (latent variable), np. postawy. Współ-
czynniki korelacji między wartościami transformowanymi dla wskaźników binarnych
noszą nazwę korelacji tetrachorycznych, a dla wskaźników porządkowych korelacji
polichorycznych. W przypadku wskaźników binarnych relacja między wskaźnikami
surowymi a transformowanymi jest dana wzorem (1):
* dla ,0
* dla,1
y
yy
(1)
Jak wynika ze wzoru (1), jeżeli respondenci na skali wskazują 1 („tak”), to ich wartość
na ukrytej zmiennej pomiarowej jest wyższa od wartości progowej (proporcji
odpowiedzi po transformacji probit). Jeżeli natomiast wskazują 0 („nie”), to wartość ta
jest mniejsza lub równa wartości progowej (wartość progowa pełni rolę średniej dla
danych metrycznych). Zasada ta może być rozszerzona na wskaźniki politomiczne (np.
w skali 1-5) i wówczas ma ona postać:
ycy cgdy , 1c (2)
Copyright © StatSoft Polska 2014, [email protected]
10
W efekcie dla n kategorialnej skali ocen jest zawsze n-1 wartości progowych (dla
danych binarnych jest to jedna wartość). Rys. 1 i 2 przedstawiają macierze korelacji
tetrachorycznych (poprawnej) i korelacji Pearsona (niepoprawnej) dla tego samego
zbioru zmiennych.
Rys. 1. Korelacje tetrachoryczne.
Rys. 2. Korelacje Pearsona.
Copyright © StatSoft Polska 2014, [email protected]
11
Przedstawione na rys. 2 współczynniki korelacji Pearsona są generalnie niższe od
korelacji tetrachorycznych (efekt tłumienia związku). W macierzy korelacji tetracho-
rycznych elementy w wierszu „Means” oznaczają wartości progowe (tresholds).
Wariancje zmiennych są ustalone na poziomie jedności. Macierz korelacji tetra-
chorycznych może stanowić dane wejściowe do dalszych analiz z wykorzystaniem
binarnych wskaźników cech ukrytych2.
Zmienne ukryte w badaniach społecznych
Zmienne ukryte stanowią kluczowe pojęcie w modelowaniu zjawisk społecznych. Mo-
dele ze zmiennymi ukrytymi są jednym z podstawowych typów modeli w psychologii,
socjologii i badaniach marketingowych. Mogą one dotyczyć zarówno cech ukrytych,
czyli nieobserwowalnych dyspozycji i cech badanych jednostek (wiedza, kompetencje,
zdolności itp.), jak i konstruktów badacza związanych z przyjmowaną teorią (status
społeczny, alienacja, dysonans pozakupowy itp.).
Z punktu widzenia statystycznego zmienne ukryte można definiować jako zmienne
losowe, które nie mają empirycznych realizacji z próby i których rozkłady wynikają
z założeń teoretycznych badacza. Z punktu widzenia ich miejsca w modelu pomiarowym
są to zmienne w modelach, w których liczba zmiennych niezależnych jest większa niż
liczba zmiennych obserwowalnych. Są to również zmienne w systemie równań, jeżeli
nie można wykonać takiego przekształcenia równania, że wyrażamy taką zmienną jako
wyłącznie funkcję zmiennych obserwowalnych (wskaźników).
Najogólniej można wyodrębnić trzy podstawowe podejścia do definiowania i pomiaru
zmiennej ukrytej. W pierwszym klasycznym ujęciu zmienna ukryta jest identyfikowana
jako wariancja wspólna co najmniej trzech wskaźników mających podobne korelacje
2 Przedstawiona procedura uzyskiwania pomiarowych zmiennych ukrytych (y*) dotyczy tzw. parametryzacji
probitowej. Do innych typów parametryzacji należy logitowa (logistyczny rozkład reszt) i typu log-log
(rozkład Gumbela reszt w modelu).
Copyright © StatSoft Polska 2014, [email protected]
12
i wartości średnie (lub progowe). Są to tzw. równoległe wskaźniki refleksywne
(odzwierciedlające ukrytą własność mierzoną). Do tego typu wskaźników należą np.
pozycje (stwierdzenia) w skali Likerta, które powinny cechować się wysoką wzajemną
korelacją o podobnej sile i kierunku. Modelem pomiarowym tego typu zmiennej ukrytej
jest konfirmacyjna analiza czynnikowa:
y , (3)
gdzie:
y wskaźnik (zmienna obserwowalna),
ładunek czynnikowy,
zmienna ukryta (oszacowana wariancja wspólna),
błąd pomiaru (reszta w modelu pomiarowym).
W modelu tym liczba zmiennych niezależnych (3) jest większa od liczby zmiennych
obserwowalnych (1) oraz żadne przekształcenie nie prowadzi do wyrażenia zmiennej
jako liniowej kombinacji zmiennych obserwowalnych (ponieważ jest również zmien-
ną ukrytą w modelu). Model ten jest podstawowym modelem pomiaru w badaniach
społecznych.
W drugim podejściu zmienna ukryta jest mierzona również za pomocą refleksywnych,
lecz skumulowanych wskaźników (najczęściej binarnych). Tego rodzaju wskaźniki
stanowią pozycję skali Guttmana, zadania mierzące kompetencje lub zdolności, fakt
posiadania określonych dóbr jako wskaźniki statusu. Korelacja między tego typu
skumulowanymi pozycjami cechuje się wzorem simplex po uporządkowaniu pozycji
od „najtrudniejszej” (o niskim prawdopodobieństwie zgody) do „najłatwiejszej” (o
wysokim prawdopodobieństwie zgody) sąsiednie pozycje korelują silniej niż skrajne,
których korelacje mogą być nawet ujemne (wzór circumplex). Modelem pomiarowym
Copyright © StatSoft Polska 2014, [email protected]
13
tego typu zmiennej ukrytej jest konfirmacyjna analiza czynnikowa dla wskaźników
binarnych oparta na teorii reakcji na pozycje skalowe (IRT):
)(1
)(ln
yp
yp
(4)
W modelu tym logarytm szansy (logit) jest funkcją wartości progowych (), ładunków
czynnikowych () i zmiennej ukrytej (. Ten rodzaj parametryzacji (logitowa) jest
podstawą modeli pomiaru w teorii IRT, w której prawdopodobieństwo zgody z pozycją
jest funkcją poziomu trudności pozycji związanej z wartością progową () i jej mocy
dyskryminacyjnej mierzonej wysokością ładunków czynnikowych (). Ten rodzaj
zmiennych ukrytych jest popularny w edukacyjnych badaniach społecznych (analiza
kompetencji uczniów) i badaniach marketingowych (ocena efektów komunikacyjnych).
Trzeci typ zmiennych ukrytych to zmienne ukryte ze wskaźnikami formatywnymi.
Zmienne ukryte są traktowane jako liniowe kombinacje wskaźników uzupełnione
o część niewyjaśnionej wariancji zmiennych ukrytych przez wskaźniki (zakłócenia
w modelu).
y (5)
Bardzo podobnym do formatywnych zmiennych ukrytych typem zmiennych są składowe
(composites), znane z analizy głównych składowych, które traktowane są jako wyłącznie
liniowa kombinacja wskaźników (bez uwzględnienia reszt w modelu pomiaru): y .
Ten typ zmiennych ukrytych jest popularny zarówno w socjologii (np. status społeczny
jako kombinacja dochodu, wykształcenia i profesji), jak i marketingu (siła nabywcza
rynku jako kombinacja liczby ludności, ich dochodów i intensywności sieci dystrybucji).
Copyright © StatSoft Polska 2014, [email protected]
14
Konfirmacyjna analiza czynnikowa ze wskaźnikami niemetrycznymi
Ogólny model pomiarowy oparty na konfirmacyjnej analizie czynnikowej ze wskaź-
nikami niemetrycznymi i kowariantami można zapisać w następujący sposób:
Κxy* (6)
W modelu tym pomiarowa zmienna ukryta jest funkcją wartości progowej, ładunku
czynnikowego, kowarianty (zmiennej kontekstowej) i błędu pomiaru.
Po obliczeniu macierzy korelacji tetrachorycznych, macierz ta, pełniąca rolę danych
wejściowych, jest wprowadzana do modelu konfirmacyjnej analizy czynnikowej.
Wprawdzie podstawową metodą estymacji modelu czynnikowego jest metoda naj-
większej wiarygodności, jednakże w przypadku danych niemetrycznych wykorzysty-
wana jest metoda (diagonalnie) ważonych najmniejszych kwadratów. Oceny parametrów
estymowanego modelu dla macierzy z rys. 1 są przedstawione na rys. 3.
Rys. 3. Oceny parametrów modelu pomiarowego.
Copyright © StatSoft Polska 2014, [email protected]
15
Wynik otrzymany w programie STATISTICA (rys. 3) przedstawia ładunki czynnikowe
dla modelu pomiarowego zaufania transakcyjnego (ZT) i zachowań etycznych (ZE).
Ładunki czynnikowe wskazują na moc dyskryminacyjną pozycji skali i korelację
z ukrytymi wymiarami zaufania, natomiast parametry progów z rys. 1 wskazują na
poziom trudności poszczególnych binarnych wskaźników. W analizowanym przypadku
pozycja p6.1 jest najłatwiejsza (cechuje się najniższą wartością progową i najwyższym
prawdopodobieństwem zgody z pozycją skali), a pozycja p6.10 jest najtrudniejsza dla
respondentów (ma najwyższą wartość progową i najniższe prawdopodobieństwo zgody).
Czynniki sytuacyjne w modelach zjawisk społecznych
W badaniach społecznych zmienne ukryte mogą reprezentować dwie klasy nieobserwo-
walnych własności respondentów. Mogą to być względnie trwałe cechy ukryte (latent
traits) i kategorie teoretyczne badacza (postawy, preferencje, wartości, pozycje spo-
łeczne itp.) lub chwilowe, nietrwałe i sytuacyjnie określone stany, w których znajduje się
jednostka w chwili pomiaru (latent states), takie jak odczucie satysfakcji, nastrój nie-
pokoju, lęku, szczęścia itp. Są to względnie zmienne stany emocjonalne, wynikające
z czynników sytuacyjnych i interakcji międzyludzkich w danej chwili.
Analiza stanów ukrytych wymaga zastosowania danych wzdłużnych (panelowych),
które coraz częściej występują w badaniach społecznych. Modelowanie tego typu da-
nych musi uwzględniać ich dynamiczny charakter, a do tego typu modeli należą np.
modele krzywych rozwojowych (latent growth curves) i modele ukrytych łańcuchów
Markowa (hidden Markov models). Modele stanów-cech (latent state-trait models),
należące do rodziny ukrytych łańcuchów Markowa, są przykładem zastosowania konfir-
macyjnej analizy czynnikowej do danych panelowych w celu pomiaru zarówno
względnie trwałej cechy ukrytej, jak i zmieniających się w czasie ukrytych stanów.
Celem modelu stanów-cech jest dekompozycja całkowitej wariancji na jej część
związaną z trwałymi różnicami międzyosobowymi związanymi ze spójnymi i stabilnymi
Copyright © StatSoft Polska 2014, [email protected]
16
cechami osoby (T) oraz część proporcji wyjaśnianej przez specyficzne (S) i sytuacyjne
różnice międzyosobowe (specyficzność sytuacyjna):
ikikikikik STy (7)
Stabilne cechy ukryte są niezależne od sytuacji badania, a ich zmiany w czasie są mode-
lowane za pomocą modeli rozwojowych (latent growth curves). Stany ukryte stanowią
czasowe i niestabilne odchylenia od poziomów mierzonych cech ukrytych. Im wyższy
jest wskaźnik spójności, tym silniej głównym źródłem zmienności jest stabilna ukryta
cecha jednostki. Im wyższy jest wskaźnik specyficzności, tym silniej głównym źródłem
zmienności są czynniki sytuacyjne. Struktura modelu składającego się z jednej cechy
i dwóch stanów mierzonych w dwóch okresach (powtarzane pomiary) jest przedsta-
wiona na rys. 4.
T
y11
y21
y12
y22
S1
S2
1
2
3
4
11
21
12
22
Rys. 4. Model stanów-cech.
Copyright © StatSoft Polska 2014, [email protected]
17
Z punktu widzenia założeń modelu stany ukryte są niezależne od cechy ukrytej, ładunki
czynnikowe i wyrazy wolne są ustalone jako równe w przekroju stanów (inwariancja
pomiaru) oraz wariancje błędu są ustalone jako równe w przekroju stanów, za wyjątkiem
stanu pierwszego (efekt sokratejski wyższa wariancja błędu w pierwszej sytuacji
badania niż w kolejnych falach).
Oceny parametrów estymowanego modelu stanów-cech są przedstawione na rys. 5.
Model dotyczy analizy postrzeganej satysfakcji z usługi naprawczej stacji obsługi
samochodów w dwóch falach pomiaru: 1) po etapie przywitania i diagnozowania prob-
lemu oraz 2) po uregulowaniu płatności i podczas odbioru naprawionego samochodu.
Postrzegana jakość procesu usługowego (PQ) mierzona jest za pomocą dwóch
wskaźników w dwóch okresach (PQ11, PQ21, PQ12, PQ22), zmienna zależna (jakość
postrzegana-satysfakcja z efektu obsługi) jest mierzona za pomocą trzech wskaźników
w ostatniej fazie badań (S1, S2, S3).
Rys. 5. Wyniki estymacji modelu stanów-cech (część pomiarowa).
Copyright © StatSoft Polska 2014, [email protected]
18
Rys. 5 przedstawia strukturę ładunków czynnikowych dla stanów PQ1 i PQ2 oraz cechy
PQ postrzeganej jakości usługi. Odpowiednie ładunki w przekroju stanów są ustalone
jako równe. Ze struktury ładunków wynika, że postrzegana jakość usługi traktowana
jako cecha ukryta charakteryzuje się niespójną strukturą ładunków (dla wskaźników
PQ12 i PQ22 są one ujemne), co pośrednio wskazuje, że wskaźnik specyficzności może
dominować na wskaźnikiem spójności pomiaru. Stąd postrzegana jakość jest rozumiana
bardziej jako stan niż cecha ukryta.
Część strukturalna modelu prezentuje wpływ obu stanów oraz cechy potrzeganej jakości
procesu usługi na ogólną satysfakcję z efektu usługi.
Rys. 6. Wyniki dla części strukturalnej modelu.
Z rys. 6 wynika, że szczególnie pierwsza faza kontaktu (recepcja i diagnoza problemu)
ma wpływ na poziom satysfakcji z usługi. Zauważalny jest również dodatni wływu obu
stanów postrzeganej jakości procesu. Wpływ cech postrzeganej jakości procesu na
jakość efektu jest natomiast ujemny.
Modele ukrytych stanów-cech mają duże znaczenie w modelowaniu zjawisk dynamicz-
nych. Pozwalają one na identyfikację wpływu niestabilnych czynników sytuacyjnych na
zachowanie jednostek.
Copyright © StatSoft Polska 2014, [email protected]
19
Modelowanie w układach hierarchicznych
Zachowania ludzi zawsze mają miejsce w określonych układach instytucjonalnych mają-
cych często charakter hierarchiczny. Przykładem tego typu zachowań są zachowania
członków rodziny, uczniów w klasach szkolnych, pracowników w przedsiębiorstwach,
pacjentów w szpitalach itp. Mierzone własności jednostek zależą wówczas nie tylko od
ich innych własnych cech lub czynników, ale również od cech kształtujących społeczny
kontekst ich zachowań (np. cech gospodarstwa domowego, szkoły, przedsiębiorstwa czy
szpitala).
W najprostszym przypadku struktura regresyjnego modelu wielopoziomowego jest
przedstawiona w równaniach (8)(11). Pierwsze równanie regresji określa zależność
między zmienną zależną (y) a zmienną niezależną na poziomie indywidualnych obser-
wacji pierwszego poziomu:
igigggig rxbby 10 (8)
gdzie:
yig – wartość zmiennej zależnej dla obserwacji i w jednostce II poziomu g,
xig – wartość zmiennej niezależnej dla obserwacji i w jednostce II poziomu g,
b0g – wartość wyrazu wolnego w jednostkach II poziomu g,
b1g – współczynnik kierunkowy funkcji regresji,
rig – reszta modelu.
Zarówno wartości średnie zmiennej zależnej, jak i relacje między nimi mogą się zmie-
niać w przekroju jednostek II poziomu. Zmienność ta może być wywoływana różnymi
zmiennymi charakteryzującymi II poziom. Wyrazy wolne i współczynniki kierunkowe
są więc traktowane jako zmienne losowe, wyjaśniane jako funkcja zmiennych wyższego
poziomu:
Copyright © StatSoft Polska 2014, [email protected]
20
ggg uwccb 001000 , (9)
ggg uwccb 11110`1 (10)
gdzie:
wg – zmienna objaśniająca II poziomu,
c00 – średnia wyrazów wolnych w przekroju jednostek II poziomu,
c10 – średnia współczynników kierunkowych w przekroju II poziomu,
c01 – współczynnik kierunkowy funkcji regresji II poziomu wyjaśniający zmienność
wyrazów wolnych,
c11 – współczynnik kierunkowy funkcji regresji II poziomu wyjaśniający zmienność
współczynników kierunkowych,
u0g, u1g – reszty w modelu.
Ostateczny model ma postać:
igiggiggigggig rxuxwcxcuwccy 1111000100 (11)
Model wielopoziomowy wyraża zmienną zależną z poziomu indywidualnego jako fun-
kcję zmiennej niezależnej z poziomu indywidualnego (xig), zmiennej niezależnej
z poziomu grupowego (wg) oraz międzypoziomowej interakcji między zmiennymi
(xig, wg).
W estymacji wielopoziomowych modeli czynnikowych i strukturalnych ze zmiennymi
ukrytymi (ze wskaźnikami metrycznymi i kategorialnymi) wykorzystuje się zasadę
dekompozycji macierzy kowariancji na macierz wewnątrzklasową i zewnątrzklasową.
Wynika ona z dekompozycji całkowitej zmienności obserwacji yig respondenta i znaj-
dującego się w klasie (grupie) g na zmienność międzygrupową (międzyskupiskową yB)
Copyright © StatSoft Polska 2014, [email protected]
21
oraz zmienność wewnątrzgrupową (wewnątrzskupiskową yw = yig - yg). Obie te składowe
są wzajemnie ortogonalne i spełniają warunek addytywności.
YT = YB + YW (12)
Ten rodzaj dekompozycji jest wykorzystywany do obliczenia międzygrupowej macierzy
kowariancji (macierzy kowariancji zdezagregowanych średnich grupowych) SB oraz
wewnątrzgrupowej macierzy kowariancji (macierzy kowariancji odchyleń indywi-
dualnych obserwacji od odpowiednich średnich grupowych) SW. Macierze te są również
addytywne i ortogonalne:
ST = SB + SW (13)
Program STATISTICA nie umożliwia zastosowania klasycznej procedury modelowania
wielopoziomowego. W budowie modelu zastosowano podejście uproszczone (Gold-
steina), w którym na podstawie oszacowanych macierzy kowariancji wewnątrzklasowej
i międzyklasowej zbudowano odrębne modele czynnikowe (estymowane jednocześnie).
Postać danych wejściowych jest przedstawiona na rys. 7.
W macierzy składanej pierwsza macierz jest macierzą wewnętrzną kowariancji
(odchyleń od średnich grupowych), a druga – macierzą zewnętrzną (zmienności średnich
grupowych).
Copyright © StatSoft Polska 2014, [email protected]
22
Rys.7. Dane wejściowe do modelu wielopoziomowego.
Na rys. 8 (model wewnętrzny) i 9 (model zewnętrzny) przedstawiona jest wielopozio-
mowa konfirmacyjna analiza czynnikowa wymiarów zaufania transakcyjnego i zacho-
wań etycznych w kanałach dystrybucji. Pozycje p61, p62 p64 dotyczą zaufania trans-
akcyjnego, a pozycje p63 p65 i p66 zachowań etycznych. Analiza wstępna jakości
modeli na podstawie kryterium Akaike pozwoliła na wybór dwuczynnikowego modelu
wewnętrznego i dwuczynnikowego zewnętrznego jako modelu najlepiej dopasowanego
do danych.
Copyright © StatSoft Polska 2014, [email protected]
23
Rys. 8. Model wewnętrzny.
Struktury czynnikowe na obu poziomach są zbliżone (z ładunkami czynnikowymi
wyższymi jednak na poziomie wewnętrznym, co wskazuje na wyższą rzetelność po-
miaru zaufania na tym poziomie). Należy zwrócić uwagę na przeciwne znaki
współczynników kowariancji na obu poziomach (dodatnia kowariancja na poziomie
wewnętrznym i ujemna na poziomie zewnętrznym). Tego typu sytuacja wskazuje na
tzw. paradoks Simpsona – na poziomie indywidualnym wzrost zaufania transakcyjnego
Copyright © StatSoft Polska 2014, [email protected]
24
prowadzi do wzrostu zachowań etycznych a na poziomie gospodarstwa domowego
zjawiska te są przeciwstawne3.
Rys. 9. Model zewnętrzny.
3 Paradoks ten występuje także w wielu innych przypadkach, np. na poziomie społeczeństwa wzrost
intensywności ćwiczeń fizycznych prowadzić może do spadku zawałów serca, ale na poziomie
indywidualnym relacja między intensywnością ćwiczeń a prawdopodobieństwem zawału może być
dodatnia.
Copyright © StatSoft Polska 2014, [email protected]
25
Podsumowanie
Modelowanie zjawisk społecznych jest bardzo rozległym obszarem analiz i nie sposób
przedstawić wszystkich nurtów i kierunków jego rozwoju. Wydaje się jednak, że do
podstawowych cech modeli wynikających ze specyfiki danych i natury zjawisk należą:
kategorialny charakter wskaźników, uniemożliwiający często wykorzystywanie metod
właściwych dla danych metrycznych, zmienne ukryte określające nieobserwowalne
cechy respondentów i koncepcyjną naturę mierzonych zmiennych oraz dynamiczny
i wielopoziomowy charakter zjawisk. Zastosowanie odpowiednich narzędzi analitycz-
nych pozwala jednak na przełamanie przynajmniej niektórych ograniczeń i trafny opis,
wyjaśnianie i przewidywanie zjawisk społecznych.
Literatura
1. Bollen, K., A., Latent Variables in Psychology and the Social Sciences, „Annual
Review of Psychology”, 2002/53, s. 605–34.
2. Eid, M., A Closer Look at the Measurement of Change: Integrating Latent State-
Trait Models into the General Framework of Latent Mixed Markov Modeling, „Me-
thods of Psychological Research Online”, Special Issue, 2002, http://www.mpr-
online.de, 10.09.2008.
3. Muthen, B., Latent Variable Modeling with Multilevel and Longitudinal Data,
w: Raftery A., red. „Sociological Methodology”, Blackwell pub. Boston 1997.
4. Sagan, A., Zmienne ukryte w badaniach marketingowych, UEK Kraków 2013.