Wprowadzenie do modelowania zjawisk społecznych i ... · WPROWADZENIE DO MODELOWANIA ZJAWISK SPO...

Copyright © StatSoft Polska 2014, [email protected]

5

WPROWADZENIE DO MODELOWANIA ZJAWISK SPOŁECZNYCH

I PRZYKŁADY ZASTOSOWAŃ W STATISTICA

Adam Sagan, Uniwersytet Ekonomiczny w Krakowie,

Katedra Analizy Rynku i Badań Marketingowych

Wykorzystanie podejścia modelowego w badaniach społecznych (badaniach socjolo-

gicznych, psychologicznych czy marketingowych) jest związane z zastosowaniem

różnorakich metod statystycznych i ekonometrycznych do opisu, wyjaśniania i predykcji

zjawisk społecznych. W badaniach społecznych można wyróżnić trzy typy modeli:

modele opisowe (deskryptywne), modele wyjaśniające (eksplanacyjne) i modele

predykcyjne.

Celem modeli opisowych jest poprawne odzwierciedlenie wewnętrznej struktury danych

pozwalającej na wyodrębnienie najistotniejszych regularności i zależności. Modele te

pozwalają na przedstawienie struktury danych w syntetyczny sposób, umożliwiają

optymalną redukcję danych (najczęściej kosztem utraconej informacji, niewyjaśnionej

wariancji czy bezwładności). Ważną rolę w modelach opisowych odgrywa dopasowanie

modelu (model fit), mówiące, jak dobrze model (np. zestaw zmiennych niezależnych)

odtwarza istniejące dane (obserwacje indywidualne, macierz wariancji–kowariancji,

macierz korelacji itp.). Do modeli opisowych należą modele eksploracyjnej analizy

danych, analiza głównych składowych, analiza log-liniowa czy konfirmacyjna analiza

czynnikowa.


6

Modele eksplanacyjne są tworzone w celu poprawnego odzwierciedlenia zależności

przyczynowych. W modelach tych dużą rolę odgrywa ocena egzogeniczności (i endoge-

niczności) zmiennych, wyodrębnienie zależności warunkowych oraz kontrola anali-

zowanych relacji przyczynowo-skutkowych. Ważnym warunkiem oceny modelu jest

poprawna jego specyfikacja i ocena obciążenia (bias). Poprawne modele eksplanacyjne

powinny charakteryzować się zarówno wysoką mocą eksplanacyjną (niskim błędem

specyfikacji), jak i wysoką mocą predykcyjną (niskim błędem przewidywania). W mo-

delach tych występuje na ogół taka zależność, że im wyższy jest ich błąd specyfikacji

(np. błędna teoria leżąca u ich podstaw), tym niższa jest ich moc predykcyjna. Modele te

powinny się cechować również niskim prawdopodobieństwem falsyfikacji (odrzucenia).

Do tego typu modeli należą ekonometryczne modele wielorównaniowe o równaniach

współzależnych, modele strukturalne i ścieżkowe.

Trzecie z wyodrębnionych modeli to modele predykcyjne. Mają one na celu poprawne

przewidywanie przyszłych (lub nowych) obserwacji na podstawie danego modelu. Dużą

rolę odgrywa w nich wykorzystywanie prób uczących (budowa modelu) i prób

testowych (predykcja nowych obserwacji). Jakość przewidywania jest najczęściej

mierzona na podstawie różnorodnych metod tzw. walidacji krzyżowej (wielokrotny

podział prób na testowe i uczące). Modele predykcyjne powinny cechować się zarówno

wysokim poziomem konfirmacji, jak i wysoką trafnością przewidywania (moc

predykcyjna), a jednocześnie ich trafność wyjaśniania może być mniejsza (niska moc

eksplanacyjna). Moc i trafność predykcyjna jest oceniana na podstawie miar zmienności

losowej oszacowań z kolejnych prób w procedurach walidacyjnych (sampling variance).

Do tego typu modeli predykcyjnych należy większość podejść z obszaru data mining,

drzewa klasyfikacyjne i regresyjne, analiza reguł asocjacyjnych i sekwencyjnych, sieci

neuronowe itp.). Należy podkreślić, że generalnie modele charakteryzujące się dużym

błędem specyfikacji (niską mocą eksplanacyjną) mogą równocześnie mieć dużą moc

predykcyjną (bias–variance trade off). Jest to sytuacja występująca w przypadku

wykorzystywania dużej liczby skorelowanych (współliniowych) predyktorów oraz

szumów (błędów losowych) w danych. Oznacza to, że modele, które poprawnie


7

przewidują rzeczywistość, mogą jednocześnie błędnie ją wyjaśniać i przedstawiać jej

nieprawdziwy obraz.

Jak w każdym obszarze analiz, próby wyjaśniania i opisu tych zjawisk wiążą się z roz-

wiązaniem problemu poprawnej specyfikacji modelu związanej z naturą zjawisk spo-

łecznych. Specyfika modelowania zjawisk społecznych wiąże się z: 1) subiektywnym

i jakościowym charakterem wskaźników wykorzystywanych w pomiarze (niemetryczny

charakter pomiaru mierzonych własności), 2) deklaratywną postacią danych

wynikających z odpowiedzi na pytania o opinie, postawy, nastawienia i subiektywną

wiedzę badanego (problem odtworzenia intencji badanego na podstawie odpowiedzi na

pozycje kwestionariusza), 3) nieobserwowalnym charakterem mierzonych cech

dotyczących wiedzy, opinii, postaw czy wartości respondentów (wprowadzanie do

analizy zmiennych ukrytych wynikających z nieobserwowalnych własności i założeń

teoretycznych badacza), 4) kontekstowością analizowanych zjawisk i wpływem

czynników sytuacyjnych w modelowanych zjawiskach (analiza chwilowych stanów

emocjonalnych i poznawczych jednostek) 5) hierarchicznością układów społecznych,

wynikających z przynależności respondentów do grup społecznych, instytucji, kręgów

kulturowych itp.

Wszystkie wspomniane czynniki powodują konieczność uwzględnienia dodatkowych

założeń w procesie budowy modelu i poświęcenia szczególnej uwagi problemowi

poprawnej specyfikacji modelu, uwzględnienia rzetelności narzędzi pomiaru i wyboru

właściwych metod analizy danych.

Niemetryczny charakter wskaźników w badaniach społecznych

Z punktu widzenia teorii pomiaru i klasyfikacji skal pomiarowych najbardziej popularną

klasyfikacją jest propozycja Stevensa, który dzieli skale pomiarowe na cztery pod-

stawowe typy: nominalny, porządkowy, przedziałowy i stosunkowy. W badaniach

społecznych z wykorzystaniem pytań informacyjnych i wskaźnikowych (otwartych


8

i zamkniętych) oraz skal najczęściej pomiar jest wykonywany na poziomie skali

nominalnej (np. pytanie o płeć) i porządkowej (np. pytanie dotyczące rankingu marek

produktów). Rzadziej stosowane są pytania na poziomie przedziałowym lub stosun-

kowym (np. pytanie dotyczące dochodów w złotówkach lub wzrostu w centymetrach).

Specyficznym rodzajem narzędzi pomiaru w badaniach społecznych są skale postaw

i opinii, w których respondent ujawnia swoją postawę na skalach binarnych (tak nie)

lub wielopunktowych (najczęściej pięcio- lub siedmiopunktowych). Wykorzystywane są

również binarne wskaźniki mierzonych cech wynikające z określonych zachowań lub

stanu posiadania (np. posiadanie „willi z basenem” jako wskaźnika sukcesu

zawodowego).

Popularność tych typów skal i wskaźników powoduje, że często skale 5 lub 7-punktowe

są interpretowane jako przedziałowe (metryczne) i wykorzystywane w budowie modelu

jako dane ilościowe1. Są one podstawą budowy takich skal postaw, jak skale: Likerta,

Stapela czy Guttmana (w wersji politomicznej). Traktowanie skal typu Likerta jako

metrycznych powoduje jednak pewne problemy w modelowaniu zjawisk. Po pierwsze:

występuje tłumienie współczynnika korelacji Pearsona (jest on niższy niż dla

odpowiadającej im skali metrycznej). Po drugie: błędy standardowe w oszacowaniach

parametrów modelu są niedoszacowane (zbyt małe) w porównaniu do metrycznych

odpowiedników tych skal. Po trzecie: wskaźniki globalnego dopasowania modelu, jak

np. statystyka 2, są zbyt wysokie (efekt inflacji wskaźnika), co prowadzi do wyższego

prawdopodobieństwa odrzucania poprawnego modelu (szczególnie, gdy skale mają

mniej niż 5 kategorii i cechują się dużą skośnością). Obciążenie modelu jest znaczne,

gdy stosowane są binarne wskaźniki (jako metryczne) oraz wtedy, gdy występują efekty

1 Jednym z nieporozumień wynikających z traktowania skal ocen jako skal przedziałowych jest niepoprawna

interpretacja punktów na skali jako jednostek „równo oddalowych” od siebie (różnice między 1 - 2 - 3 – 4

a 5 są jednakowe). Skala przedziałowa powinna spełniać założenie, że równym przyrostom punktów na skali

ocen powinny towarzyszyć równe przyrosty mierzonych przez taką skalę własności (np. siły postaw czy

opinii), a nie tylko równych różnic między umownymi punktami skali.


9

„sufitu” i „podłogi” zorientowane opozycyjnie (pseudoczynniki ekstremalnych

odpowiedzi).

Jednym z rozwiązań problemu stosowania niemetrycznych wskaźników w modelowaniu

zjawisk społecznych jest wykorzystanie teorii progów (thresholds). W podejściu tym

przyjmuje się założenie, że niemetryczny, jakościowy wskaźnik binarny lub polito-

miczny jako zmienna obserwowalna (manifest variable) jest jedynie niedoskonałym

przybliżeniem miernika ilościowego danej własności mającej rozkład normalny.

Wartość surowa danego wskaźnika jest transformowana na wartość metryczną

pomiarowego wskaźnika ukrytego (latent response variable), który stanowi następnie

właściwy wskaźnik mierzonej cechy ukrytej (latent variable), np. postawy. Współ-

czynniki korelacji między wartościami transformowanymi dla wskaźników binarnych

noszą nazwę korelacji tetrachorycznych, a dla wskaźników porządkowych korelacji

polichorycznych. W przypadku wskaźników binarnych relacja między wskaźnikami

surowymi a transformowanymi jest dana wzorem (1):

* dla ,0

* dla,1

y

yy

(1)

Jak wynika ze wzoru (1), jeżeli respondenci na skali wskazują 1 („tak”), to ich wartość

na ukrytej zmiennej pomiarowej jest wyższa od wartości progowej (proporcji

odpowiedzi po transformacji probit). Jeżeli natomiast wskazują 0 („nie”), to wartość ta

jest mniejsza lub równa wartości progowej (wartość progowa pełni rolę średniej dla

danych metrycznych). Zasada ta może być rozszerzona na wskaźniki politomiczne (np.

w skali 1-5) i wówczas ma ona postać:

ycy cgdy , 1c (2)


10

W efekcie dla n kategorialnej skali ocen jest zawsze n-1 wartości progowych (dla

danych binarnych jest to jedna wartość). Rys. 1 i 2 przedstawiają macierze korelacji

tetrachorycznych (poprawnej) i korelacji Pearsona (niepoprawnej) dla tego samego

zbioru zmiennych.

Rys. 1. Korelacje tetrachoryczne.

Rys. 2. Korelacje Pearsona.


11

Przedstawione na rys. 2 współczynniki korelacji Pearsona są generalnie niższe od

korelacji tetrachorycznych (efekt tłumienia związku). W macierzy korelacji tetracho-

rycznych elementy w wierszu „Means” oznaczają wartości progowe (tresholds).

Wariancje zmiennych są ustalone na poziomie jedności. Macierz korelacji tetra-

chorycznych może stanowić dane wejściowe do dalszych analiz z wykorzystaniem

binarnych wskaźników cech ukrytych2.

Zmienne ukryte w badaniach społecznych

Zmienne ukryte stanowią kluczowe pojęcie w modelowaniu zjawisk społecznych. Mo-

dele ze zmiennymi ukrytymi są jednym z podstawowych typów modeli w psychologii,

socjologii i badaniach marketingowych. Mogą one dotyczyć zarówno cech ukrytych,

czyli nieobserwowalnych dyspozycji i cech badanych jednostek (wiedza, kompetencje,

zdolności itp.), jak i konstruktów badacza związanych z przyjmowaną teorią (status

społeczny, alienacja, dysonans pozakupowy itp.).

Z punktu widzenia statystycznego zmienne ukryte można definiować jako zmienne

losowe, które nie mają empirycznych realizacji z próby i których rozkłady wynikają

z założeń teoretycznych badacza. Z punktu widzenia ich miejsca w modelu pomiarowym

są to zmienne w modelach, w których liczba zmiennych niezależnych jest większa niż

liczba zmiennych obserwowalnych. Są to również zmienne w systemie równań, jeżeli

nie można wykonać takiego przekształcenia równania, że wyrażamy taką zmienną jako

wyłącznie funkcję zmiennych obserwowalnych (wskaźników).

Najogólniej można wyodrębnić trzy podstawowe podejścia do definiowania i pomiaru

zmiennej ukrytej. W pierwszym klasycznym ujęciu zmienna ukryta jest identyfikowana

jako wariancja wspólna co najmniej trzech wskaźników mających podobne korelacje

2 Przedstawiona procedura uzyskiwania pomiarowych zmiennych ukrytych (y*) dotyczy tzw. parametryzacji

probitowej. Do innych typów parametryzacji należy logitowa (logistyczny rozkład reszt) i typu log-log

(rozkład Gumbela reszt w modelu).


12

i wartości średnie (lub progowe). Są to tzw. równoległe wskaźniki refleksywne

(odzwierciedlające ukrytą własność mierzoną). Do tego typu wskaźników należą np.

pozycje (stwierdzenia) w skali Likerta, które powinny cechować się wysoką wzajemną

korelacją o podobnej sile i kierunku. Modelem pomiarowym tego typu zmiennej ukrytej

jest konfirmacyjna analiza czynnikowa:

y , (3)

gdzie:

y wskaźnik (zmienna obserwowalna),

ładunek czynnikowy,

zmienna ukryta (oszacowana wariancja wspólna),

błąd pomiaru (reszta w modelu pomiarowym).

W modelu tym liczba zmiennych niezależnych (3) jest większa od liczby zmiennych

obserwowalnych (1) oraz żadne przekształcenie nie prowadzi do wyrażenia zmiennej

jako liniowej kombinacji zmiennych obserwowalnych (ponieważ jest również zmien-

ną ukrytą w modelu). Model ten jest podstawowym modelem pomiaru w badaniach

społecznych.

W drugim podejściu zmienna ukryta jest mierzona również za pomocą refleksywnych,

lecz skumulowanych wskaźników (najczęściej binarnych). Tego rodzaju wskaźniki

stanowią pozycję skali Guttmana, zadania mierzące kompetencje lub zdolności, fakt

posiadania określonych dóbr jako wskaźniki statusu. Korelacja między tego typu

skumulowanymi pozycjami cechuje się wzorem simplex po uporządkowaniu pozycji

od „najtrudniejszej” (o niskim prawdopodobieństwie zgody) do „najłatwiejszej” (o

wysokim prawdopodobieństwie zgody) sąsiednie pozycje korelują silniej niż skrajne,

których korelacje mogą być nawet ujemne (wzór circumplex). Modelem pomiarowym


13

tego typu zmiennej ukrytej jest konfirmacyjna analiza czynnikowa dla wskaźników

binarnych oparta na teorii reakcji na pozycje skalowe (IRT):

)(1

)(ln

yp

yp

(4)

W modelu tym logarytm szansy (logit) jest funkcją wartości progowych (), ładunków

czynnikowych () i zmiennej ukrytej (. Ten rodzaj parametryzacji (logitowa) jest

podstawą modeli pomiaru w teorii IRT, w której prawdopodobieństwo zgody z pozycją

jest funkcją poziomu trudności pozycji związanej z wartością progową () i jej mocy

dyskryminacyjnej mierzonej wysokością ładunków czynnikowych (). Ten rodzaj

zmiennych ukrytych jest popularny w edukacyjnych badaniach społecznych (analiza

kompetencji uczniów) i badaniach marketingowych (ocena efektów komunikacyjnych).

Trzeci typ zmiennych ukrytych to zmienne ukryte ze wskaźnikami formatywnymi.

Zmienne ukryte są traktowane jako liniowe kombinacje wskaźników uzupełnione

o część niewyjaśnionej wariancji zmiennych ukrytych przez wskaźniki (zakłócenia

w modelu).

y (5)

Bardzo podobnym do formatywnych zmiennych ukrytych typem zmiennych są składowe

(composites), znane z analizy głównych składowych, które traktowane są jako wyłącznie

liniowa kombinacja wskaźników (bez uwzględnienia reszt w modelu pomiaru): y .

Ten typ zmiennych ukrytych jest popularny zarówno w socjologii (np. status społeczny

jako kombinacja dochodu, wykształcenia i profesji), jak i marketingu (siła nabywcza

rynku jako kombinacja liczby ludności, ich dochodów i intensywności sieci dystrybucji).


14

Konfirmacyjna analiza czynnikowa ze wskaźnikami niemetrycznymi

Ogólny model pomiarowy oparty na konfirmacyjnej analizie czynnikowej ze wskaź-

nikami niemetrycznymi i kowariantami można zapisać w następujący sposób:

Κxy* (6)

W modelu tym pomiarowa zmienna ukryta jest funkcją wartości progowej, ładunku

czynnikowego, kowarianty (zmiennej kontekstowej) i błędu pomiaru.

Po obliczeniu macierzy korelacji tetrachorycznych, macierz ta, pełniąca rolę danych

wejściowych, jest wprowadzana do modelu konfirmacyjnej analizy czynnikowej.

Wprawdzie podstawową metodą estymacji modelu czynnikowego jest metoda naj-

większej wiarygodności, jednakże w przypadku danych niemetrycznych wykorzysty-

wana jest metoda (diagonalnie) ważonych najmniejszych kwadratów. Oceny parametrów

estymowanego modelu dla macierzy z rys. 1 są przedstawione na rys. 3.

Rys. 3. Oceny parametrów modelu pomiarowego.


15

Wynik otrzymany w programie STATISTICA (rys. 3) przedstawia ładunki czynnikowe

dla modelu pomiarowego zaufania transakcyjnego (ZT) i zachowań etycznych (ZE).

Ładunki czynnikowe wskazują na moc dyskryminacyjną pozycji skali i korelację

z ukrytymi wymiarami zaufania, natomiast parametry progów z rys. 1 wskazują na

poziom trudności poszczególnych binarnych wskaźników. W analizowanym przypadku

pozycja p6.1 jest najłatwiejsza (cechuje się najniższą wartością progową i najwyższym

prawdopodobieństwem zgody z pozycją skali), a pozycja p6.10 jest najtrudniejsza dla

respondentów (ma najwyższą wartość progową i najniższe prawdopodobieństwo zgody).

Czynniki sytuacyjne w modelach zjawisk społecznych

W badaniach społecznych zmienne ukryte mogą reprezentować dwie klasy nieobserwo-

walnych własności respondentów. Mogą to być względnie trwałe cechy ukryte (latent

traits) i kategorie teoretyczne badacza (postawy, preferencje, wartości, pozycje spo-

łeczne itp.) lub chwilowe, nietrwałe i sytuacyjnie określone stany, w których znajduje się

jednostka w chwili pomiaru (latent states), takie jak odczucie satysfakcji, nastrój nie-

pokoju, lęku, szczęścia itp. Są to względnie zmienne stany emocjonalne, wynikające

z czynników sytuacyjnych i interakcji międzyludzkich w danej chwili.

Analiza stanów ukrytych wymaga zastosowania danych wzdłużnych (panelowych),

które coraz częściej występują w badaniach społecznych. Modelowanie tego typu da-

nych musi uwzględniać ich dynamiczny charakter, a do tego typu modeli należą np.

modele krzywych rozwojowych (latent growth curves) i modele ukrytych łańcuchów

Markowa (hidden Markov models). Modele stanów-cech (latent state-trait models),

należące do rodziny ukrytych łańcuchów Markowa, są przykładem zastosowania konfir-

macyjnej analizy czynnikowej do danych panelowych w celu pomiaru zarówno

względnie trwałej cechy ukrytej, jak i zmieniających się w czasie ukrytych stanów.

Celem modelu stanów-cech jest dekompozycja całkowitej wariancji na jej część

związaną z trwałymi różnicami międzyosobowymi związanymi ze spójnymi i stabilnymi


16

cechami osoby (T) oraz część proporcji wyjaśnianej przez specyficzne (S) i sytuacyjne

różnice międzyosobowe (specyficzność sytuacyjna):

ikikikikik STy (7)

Stabilne cechy ukryte są niezależne od sytuacji badania, a ich zmiany w czasie są mode-

lowane za pomocą modeli rozwojowych (latent growth curves). Stany ukryte stanowią

czasowe i niestabilne odchylenia od poziomów mierzonych cech ukrytych. Im wyższy

jest wskaźnik spójności, tym silniej głównym źródłem zmienności jest stabilna ukryta

cecha jednostki. Im wyższy jest wskaźnik specyficzności, tym silniej głównym źródłem

zmienności są czynniki sytuacyjne. Struktura modelu składającego się z jednej cechy

i dwóch stanów mierzonych w dwóch okresach (powtarzane pomiary) jest przedsta-

wiona na rys. 4.

T

y11

y21

y12

y22

S1

S2

1

2

3

4

11

21

12

22

Rys. 4. Model stanów-cech.


17

Z punktu widzenia założeń modelu stany ukryte są niezależne od cechy ukrytej, ładunki

czynnikowe i wyrazy wolne są ustalone jako równe w przekroju stanów (inwariancja

pomiaru) oraz wariancje błędu są ustalone jako równe w przekroju stanów, za wyjątkiem

stanu pierwszego (efekt sokratejski wyższa wariancja błędu w pierwszej sytuacji

badania niż w kolejnych falach).

Oceny parametrów estymowanego modelu stanów-cech są przedstawione na rys. 5.

Model dotyczy analizy postrzeganej satysfakcji z usługi naprawczej stacji obsługi

samochodów w dwóch falach pomiaru: 1) po etapie przywitania i diagnozowania prob-

lemu oraz 2) po uregulowaniu płatności i podczas odbioru naprawionego samochodu.

Postrzegana jakość procesu usługowego (PQ) mierzona jest za pomocą dwóch

wskaźników w dwóch okresach (PQ11, PQ21, PQ12, PQ22), zmienna zależna (jakość

postrzegana-satysfakcja z efektu obsługi) jest mierzona za pomocą trzech wskaźników

w ostatniej fazie badań (S1, S2, S3).

Rys. 5. Wyniki estymacji modelu stanów-cech (część pomiarowa).


18

Rys. 5 przedstawia strukturę ładunków czynnikowych dla stanów PQ1 i PQ2 oraz cechy

PQ postrzeganej jakości usługi. Odpowiednie ładunki w przekroju stanów są ustalone

jako równe. Ze struktury ładunków wynika, że postrzegana jakość usługi traktowana

jako cecha ukryta charakteryzuje się niespójną strukturą ładunków (dla wskaźników

PQ12 i PQ22 są one ujemne), co pośrednio wskazuje, że wskaźnik specyficzności może

dominować na wskaźnikiem spójności pomiaru. Stąd postrzegana jakość jest rozumiana

bardziej jako stan niż cecha ukryta.

Część strukturalna modelu prezentuje wpływ obu stanów oraz cechy potrzeganej jakości

procesu usługi na ogólną satysfakcję z efektu usługi.

Rys. 6. Wyniki dla części strukturalnej modelu.

Z rys. 6 wynika, że szczególnie pierwsza faza kontaktu (recepcja i diagnoza problemu)

ma wpływ na poziom satysfakcji z usługi. Zauważalny jest również dodatni wływu obu

stanów postrzeganej jakości procesu. Wpływ cech postrzeganej jakości procesu na

jakość efektu jest natomiast ujemny.

Modele ukrytych stanów-cech mają duże znaczenie w modelowaniu zjawisk dynamicz-

nych. Pozwalają one na identyfikację wpływu niestabilnych czynników sytuacyjnych na

zachowanie jednostek.


19

Modelowanie w układach hierarchicznych

Zachowania ludzi zawsze mają miejsce w określonych układach instytucjonalnych mają-

cych często charakter hierarchiczny. Przykładem tego typu zachowań są zachowania

członków rodziny, uczniów w klasach szkolnych, pracowników w przedsiębiorstwach,

pacjentów w szpitalach itp. Mierzone własności jednostek zależą wówczas nie tylko od

ich innych własnych cech lub czynników, ale również od cech kształtujących społeczny

kontekst ich zachowań (np. cech gospodarstwa domowego, szkoły, przedsiębiorstwa czy

szpitala).

W najprostszym przypadku struktura regresyjnego modelu wielopoziomowego jest

przedstawiona w równaniach (8)(11). Pierwsze równanie regresji określa zależność

między zmienną zależną (y) a zmienną niezależną na poziomie indywidualnych obser-

wacji pierwszego poziomu:

igigggig rxbby 10 (8)

gdzie:

yig – wartość zmiennej zależnej dla obserwacji i w jednostce II poziomu g,

xig – wartość zmiennej niezależnej dla obserwacji i w jednostce II poziomu g,

b0g – wartość wyrazu wolnego w jednostkach II poziomu g,

b1g – współczynnik kierunkowy funkcji regresji,

rig – reszta modelu.

Zarówno wartości średnie zmiennej zależnej, jak i relacje między nimi mogą się zmie-

niać w przekroju jednostek II poziomu. Zmienność ta może być wywoływana różnymi

zmiennymi charakteryzującymi II poziom. Wyrazy wolne i współczynniki kierunkowe

są więc traktowane jako zmienne losowe, wyjaśniane jako funkcja zmiennych wyższego

poziomu:


20

ggg uwccb 001000 , (9)

ggg uwccb 11110`1 (10)

gdzie:

wg – zmienna objaśniająca II poziomu,

c00 – średnia wyrazów wolnych w przekroju jednostek II poziomu,

c10 – średnia współczynników kierunkowych w przekroju II poziomu,

c01 – współczynnik kierunkowy funkcji regresji II poziomu wyjaśniający zmienność

wyrazów wolnych,

c11 – współczynnik kierunkowy funkcji regresji II poziomu wyjaśniający zmienność

współczynników kierunkowych,

u0g, u1g – reszty w modelu.

Ostateczny model ma postać:

igiggiggigggig rxuxwcxcuwccy 1111000100 (11)

Model wielopoziomowy wyraża zmienną zależną z poziomu indywidualnego jako fun-

kcję zmiennej niezależnej z poziomu indywidualnego (xig), zmiennej niezależnej

z poziomu grupowego (wg) oraz międzypoziomowej interakcji między zmiennymi

(xig, wg).

W estymacji wielopoziomowych modeli czynnikowych i strukturalnych ze zmiennymi

ukrytymi (ze wskaźnikami metrycznymi i kategorialnymi) wykorzystuje się zasadę

dekompozycji macierzy kowariancji na macierz wewnątrzklasową i zewnątrzklasową.

Wynika ona z dekompozycji całkowitej zmienności obserwacji yig respondenta i znaj-

dującego się w klasie (grupie) g na zmienność międzygrupową (międzyskupiskową yB)


21

oraz zmienność wewnątrzgrupową (wewnątrzskupiskową yw = yig - yg). Obie te składowe

są wzajemnie ortogonalne i spełniają warunek addytywności.

YT = YB + YW (12)

Ten rodzaj dekompozycji jest wykorzystywany do obliczenia międzygrupowej macierzy

kowariancji (macierzy kowariancji zdezagregowanych średnich grupowych) SB oraz

wewnątrzgrupowej macierzy kowariancji (macierzy kowariancji odchyleń indywi-

dualnych obserwacji od odpowiednich średnich grupowych) SW. Macierze te są również

addytywne i ortogonalne:

ST = SB + SW (13)

Program STATISTICA nie umożliwia zastosowania klasycznej procedury modelowania

wielopoziomowego. W budowie modelu zastosowano podejście uproszczone (Gold-

steina), w którym na podstawie oszacowanych macierzy kowariancji wewnątrzklasowej

i międzyklasowej zbudowano odrębne modele czynnikowe (estymowane jednocześnie).

Postać danych wejściowych jest przedstawiona na rys. 7.

W macierzy składanej pierwsza macierz jest macierzą wewnętrzną kowariancji

(odchyleń od średnich grupowych), a druga – macierzą zewnętrzną (zmienności średnich

grupowych).


22

Rys.7. Dane wejściowe do modelu wielopoziomowego.

Na rys. 8 (model wewnętrzny) i 9 (model zewnętrzny) przedstawiona jest wielopozio-

mowa konfirmacyjna analiza czynnikowa wymiarów zaufania transakcyjnego i zacho-

wań etycznych w kanałach dystrybucji. Pozycje p61, p62 p64 dotyczą zaufania trans-

akcyjnego, a pozycje p63 p65 i p66 zachowań etycznych. Analiza wstępna jakości

modeli na podstawie kryterium Akaike pozwoliła na wybór dwuczynnikowego modelu

wewnętrznego i dwuczynnikowego zewnętrznego jako modelu najlepiej dopasowanego

do danych.


23

Rys. 8. Model wewnętrzny.

Struktury czynnikowe na obu poziomach są zbliżone (z ładunkami czynnikowymi

wyższymi jednak na poziomie wewnętrznym, co wskazuje na wyższą rzetelność po-

miaru zaufania na tym poziomie). Należy zwrócić uwagę na przeciwne znaki

współczynników kowariancji na obu poziomach (dodatnia kowariancja na poziomie

wewnętrznym i ujemna na poziomie zewnętrznym). Tego typu sytuacja wskazuje na

tzw. paradoks Simpsona – na poziomie indywidualnym wzrost zaufania transakcyjnego


24

prowadzi do wzrostu zachowań etycznych a na poziomie gospodarstwa domowego

zjawiska te są przeciwstawne3.

Rys. 9. Model zewnętrzny.

3 Paradoks ten występuje także w wielu innych przypadkach, np. na poziomie społeczeństwa wzrost

intensywności ćwiczeń fizycznych prowadzić może do spadku zawałów serca, ale na poziomie

indywidualnym relacja między intensywnością ćwiczeń a prawdopodobieństwem zawału może być

dodatnia.


25

Podsumowanie

Modelowanie zjawisk społecznych jest bardzo rozległym obszarem analiz i nie sposób

przedstawić wszystkich nurtów i kierunków jego rozwoju. Wydaje się jednak, że do

podstawowych cech modeli wynikających ze specyfiki danych i natury zjawisk należą:

kategorialny charakter wskaźników, uniemożliwiający często wykorzystywanie metod

właściwych dla danych metrycznych, zmienne ukryte określające nieobserwowalne

cechy respondentów i koncepcyjną naturę mierzonych zmiennych oraz dynamiczny

i wielopoziomowy charakter zjawisk. Zastosowanie odpowiednich narzędzi analitycz-

nych pozwala jednak na przełamanie przynajmniej niektórych ograniczeń i trafny opis,

wyjaśnianie i przewidywanie zjawisk społecznych.

Literatura

1. Bollen, K., A., Latent Variables in Psychology and the Social Sciences, „Annual

Review of Psychology”, 2002/53, s. 605–34.

2. Eid, M., A Closer Look at the Measurement of Change: Integrating Latent State-

Trait Models into the General Framework of Latent Mixed Markov Modeling, „Me-

thods of Psychological Research Online”, Special Issue, 2002, http://www.mpr-

online.de, 10.09.2008.

3. Muthen, B., Latent Variable Modeling with Multilevel and Longitudinal Data,

w: Raftery A., red. „Sociological Methodology”, Blackwell pub. Boston 1997.

4. Sagan, A., Zmienne ukryte w badaniach marketingowych, UEK Kraków 2013.

Wprowadzenie do modelowania zjawisk społecznych i ... · WPROWADZENIE DO MODELOWANIA ZJAWISK SPO...

Documents

Transcript of Wprowadzenie do modelowania zjawisk społecznych i ... · WPROWADZENIE DO MODELOWANIA ZJAWISK SPO...