Program z abstraktami

45
KATOWICKIE SPOTKANIA PSYCHOMETRYCZNE „Teraźniejszość i przyszłość psychometrii” Katowice, 7-8 X 2015

Transcript of Program z abstraktami

KATOWICKIE SPOTKANIA

PSYCHOMETRYCZNE

„Teraźniejszość i przyszłość

psychometrii”

Katowice, 7-8 X 2015

1

KOMITET PROGRAMOWY

dr hab. Zbigniew Spendel (przewodniczący)

prof. zw. dr hab. Jerzy Brzeziński

dr hab. Jan Cieciuch

prof. zw. dr hab. Elżbieta Hornowska

dr. hab. prof. UG Roman Konarski

prof. dr hab. Władysław Jacek Paluchowski

dr hab. Romuald Polczyk

prof. zw. dr hab. Bogdan Zawadzki

KOMITET ORGANIZACYJNY

dr hab. Zbigniew Spendel (przewodniczący)

mgr Maria Chełkowska (sekretarz)

mgr Maria Flakus

mgr Magdalena Hyla

mgr Aneta Kałmuk

PRZYDATNE INFORMACJE

2

WIFI – z przyczyn technicznych hasło do sieci WiFi będzie

zmieniać się co 8 godzin. Aktualne hasła będą się

znajdowały w Rejestracji.

MIEJSCE OBRAD I BANKIETU

3

PROGRAM

Dzień pierwszy (7 października 2015 r.)

(Centrum Informacji Naukowej i Biblioteka Akademicka, ul.

Bankowa 11a, Katowice)

9:00 – 10:00 – rejestracja uczestników

10:00 – 10:15 – uroczyste otwarcie konferencji, powitanie

uczestników

10:15 – 11:15 – wykład plenarny 1:

10:15 – 11:00 – Bogdan Zawadzki (Uniwersytet

Warszawski) – Ogólny Czynnik Osobowości

11:00 – 11:15 – dyskusja

11:15 – 12:15 – sesja tematyczna 1: Modele cech

ukrytych w badaniach edukacyjnych, część 1

(moderatorzy: Jan Cieciuch, Uniwersytet Kardynała

Stefana Wyszyńskiego; Artur Pokropek, Instytut Badań

Edukacyjnych)

11:15 – 11:45 – Artur Pokropek (Instytut Badań

Edukacyjnych) – Wprowadzenie. Modele diagnostyczne

4

11:45 – 12:00 – Filip Kulon (Instytut Badań Edukacyjnych)

– Modele analizy efektu oceniającego

12:00 – 12:15 – Bartosz Kondratek, Paulina Skórska

(Instytut Badań Edukacyjnych) – Zróżnicowane

funkcjonowanie pozycji testowych jako narzędzie

umożliwiające wykrycie zaburzeń założonej struktury

wymiarowej testu

12:15 – 12:45 – przerwa kawowa

12:45 – 13:45 – sesja tematyczna 1: Modele cech

ukrytych w badaniach edukacyjnych, część 2

(moderatorzy: Jan Cieciuch, Uniwersytet Kardynała

Stefana Wyszyńskiego; Artur Pokropek, Instytut Badań

Edukacyjnych)

12:45 – 13:00 – Henryk Szaleniec (Instytut Badań

Edukacyjnych) – Wykorzystanie modelowania IRT do

łączenia wyników z rożnych narzędzi testowych na

przykładzie egzaminów zewnętrznych

13:00 – 13:15 – Karolina Świst (Instytut Badań

Edukacyjnych) – Zastosowanie skalowania wertykalnego

do oceny przyrostu umiejętności matematycznych

polskich uczniów

5

13:15 – 13:30 – Paulina Skórska (Instytut Badań

Edukacyjnych) – Możliwości wykorzystania modeli

mieszanek IRT do identyfikowania uczniów o niskiej

motywacji testowej

13:30 – 13:45 – dyskusja

13:45 – 14:45 – przerwa obiadowa

14:45 – 15:45 – wykład plenarny 2:

14:45 – 15:30 – Jan Cieciuch (Uniwersytet Kardynała

Stefana Wyszyńskiego) – Problem równoważności

pomiaru (measurement invariance) we współczesnej

psychometrii. Opowieść o jabłkach, śliwkach i

kwaśnych winogronach

15:30 – 15:45 – dyskusja

15:45 – 17:00 – sesja tematyczna 2: Testy

psychologiczne w teorii i praktyce (moderator: Romuald

Polczyk, Uniwersytet Jagielloński)

15:45 – 16:00 – Oleg Gorbaniuk, Magdalena Kolańska

(Katolicki Uniwersytet Lubelski) – Wykorzystanie metod

badania osobowości w badaniach marketingowych

6

16:00 – 16:15 – Małgorzata Górnik-Durose, Łukasz Jach

(Uniwersytet Śląski) – Zwodniczy urok (zbyt) pięknych

konceptualizacji (na przykładzie badań replikacyjnych nad

kołowym modelem celów życiowych)

16:15 – 16:30 – Grzegorz Szopiński, Magdalena Kolańska

(Uniwersytet Adama Mickiewicza) – Wykorzystanie metod

projekcyjnych w obszarze zarządzania zasobami ludzkimi

16:30 – 16:45 – Bartosz Wojciechowski (Uniwersytet

Śląski) – Psychologiczna analiza treści zeznań z

zastosowaniem algorytmów decyzyjnych (drzew

klasyfikacyjnych i regresyjnych)

16:45 – 17:00 – dyskusja

17:00 – 17:30 – przerwa kawowa

17:30 – 18:30 – sesja tematyczna 3: Nowe techniki

diagnostyczne – aspekt konstrukcyjny (moderator:

Bogdan Zawadzki, Uniwersytet Warszawski)

17:30 – 17:45 – Paweł Kleka (Uniwersytet Adama

Mickiewicza) – Metodologia skracania kwestionariuszy

17:45 – 18:00 – Barbara Ciżkowicz (Uniwersytet

Kazimierza Wielkiego) – Przydatność Klasycznej Teorii

Testu i IRT w konstrukcji testów

7

18:00 – 18:15 – Krzysztof Kasparek, Marek Muszyński

(Uniwersytet Jagielloński) – „Prawda nie leży po środku”:

problem właściwego skalowania wartości środkowych

w skalach szacunkowych

18:15 – 18:30 – dyskusja

20:00 – 2:00 – uroczysta kolacja i bankiet (Sky Bar, Qubus

Hotel, ul. Uniwersytecka 13, Katowice)

Dzień drugi (8 października 2015 r.)

(Centrum Informacji Naukowej i Biblioteka Akademicka, ul.

Bankowa 11a, Katowice)

9:30 – otwarcie konferencji

9:30 – 10:30 – wykład plenarny 3:

9:30 – 10:15 – Roman Konarski (Uniwersytet Gdański) –

Modele pomiarowe jako silne modele przyczynowe

10:15 – 10:30 - dyskusja

10:30 – 11:15 – sesja tematyczna 4: Zastosowanie

zaawansowanych metod statystycznych w konstrukcji

testów, część 1 (moderator: Artur Pokropek, Instytut

Badań Edukacyjnych)

8

10:30 – 10:45 – Karolina Świst (Instytut Badań

Edukacyjnych) – Detekcja (nie)porównywalności wyników

ze względu na wiek – na przykładzie skróconej wersji

Kwestionariusza Portretów Wartości (PVQ-21) Shaloma

Schwartza

10:45 – 11:00 – Grzegorz Humenny, Paweł Grygiel

(Instytut Badań Edukacyjnych) – Zastosowanie

eksploracyjnych modeli równań strukturalnych z rotacją

celową w analizie międzygrupowej niezmienności

struktury czynnikowej. Przykład kwestionariusza

„Postrzeganej Integracji Społecznej”

11:00 – 11:15 – Paulina Skórska, Maciej Koniewski,

Przemysław Majkut (Instytut Badań Edukacyjnych) –

Zróżnicowanie funkcjonowania zadań między różnymi

wersjami testu z wykorzystaniem Testlet Response Theory

11:15 – 11:45 – przerwa kawowa

11:45 – 12:45 – sesja tematyczna 4: Zastosowanie

zaawansowanych metod statystycznych w konstrukcji

testów, część 2 (moderator: Artur Pokropek, Instytut

Badań Edukacyjnych)

9

11:45 – 12:00 – Tomasz Żółtak (Instytut Badań

Edukacyjnych) – Analiza własności psychometrycznych

testu w heterogenicznych populacjach przy pomocy

wielopoziomowej analizy czynnikowej

12:00 – 12:15 – Bartosz Kondratek – Jednowymiarowe

analizy IRT z wykorzystaniem pakietu uirt dla Stata

12:15 – 12:30 – Aleksandra Jasińska-Maciążek, Anna

Hawrot (Instytut Badań Edukacyjnych) – Analiza

inwariancji pomiarowej w badaniu podłużnym na

przykładzie testu inteligencji

12:30 – 12:45 – dyskusja

12:45 – 13:15 – przerwa kawowa

13:00 – 14:00 – sesja plakatowa:

Maria Chełkowska, Maria Flakus, Aneta Kałmuk

(Uniwersytet Śląski) – Polska adaptacja Skali

podatności na nudę. Ujęcie wielowymiarowe

Irena Pilch, Lidia Baran, Magdalena Hyla

(Uniwersytet Śląski) – Implicit Relational

Assessment Procedure – pomiar postaw utajonych

oparty na czasie reakcji

10

Przemysław Majkut, Gabriela Czarnek, Piotr Dragon

(Instytut Badań Edukacyjnych) – Metody skracania

skal psychologicznych z wykorzystaniem metod IRT

Agata Chudzicka-Czupała, Damian Grabowski

(Uniwersytet Śląski) – Jedno- i wielowymiarowe

podejście w badaniach etyki pracy. Ocena Trafności

Czynnikowej i Rzetelności skali Protestanckiej Etyki

Pracy Mirelsa i Garretta

Mateusz Blukacz, Aleksandra Tokarz (Uniwersytet

Jagielloński) – Porównanie użyteczności Klasycznej

Teorii Testów i modelowania Item Response Theory

w doskonaleniu uniwersyteckiego testu wiadomości

14:00 – 15:00 – przerwa obiadowa

15:00 – 16:30 – dyskusja panelowa: Teoretyczne i

praktyczne konsekwencje (s)formułowania IRT

(moderator: Zbigniew Spendel, uczestnicy: Jerzy

Brzeziński, Roman Konarski, Romuald Polczyk)

16:30 – zakończenie konferencji

11

ABSTRAKTY WYSTĄPIEŃ I POSTERÓW

(w kolejności zgodnej z programem konferencji)

Modele diagnostyczne

Artur Pokropek (Instytut Badań Edukacyjnych)

W najpopularniejszych modelach cech ukrytych,

stosowanych w pomiarze edukacyjnym,

psychologicznym i w badaniach socjologicznych,

przyjmuje się założenie, że mierzona cecha ma

charakter ciągły, często też jednowymiarowy – tak jak

w przypadku klasycznych modeli teorii odpowiedzi na

pozycje testowe (item response theory, IRT). Założenia

najpopularniejszych modeli nie zawsze jednak muszą

okazać się wystarczające wobec teorii stojącej za

zadawanymi przez badaczy pytaniami. Klasyczne

modele pomiarowe nie zawsze są wystarczająco dobrze

dopasowane do danych. Analizy cech ukrytych często

wykazują empirycznie, że posiadają więcej niż jeden

wymiar. Stąd wziął się rozwój wielowymiarowych

modeli IRT i konfirmacyjnej analizy czynnikowej.

Badana cecha ukryta nie musi też mieć charakteru

ciągłego. Od lat czterdziestych XX wieku rozwijane są

modele klas ukrytych, u których podstaw leży założenie

o nominalnym charakterze cech ukrytych. Modele

diagnostyczne to szeroka gama konfirmacyjnych

modeli pomiarowych, które łączą założenie o

wielowymiarowości cechy ukrytej z założeniem o jej

nieciągłym charakterze. Modele te zawdzięczają swą

12

nazwę praktycznym zastosowaniom, które najczęściej

skupiają się na diagnostycznych, a nie różnicujących

aspektach pomiaru.

W prezentacji szczegółowo opisany zostanie jeden z

modeli diagnostycznych: DINA a następnie

przedstawione zostanie jego zastosowanie na polskich

danych uzyskanych na egzaminie gimnazjalnym w

części matematyczno-przyrodniczej. Prezentacja

wskaże korzyści płynące z nowego podejścia jak

również problemy związane z jego implementacją dla

diagnozy edukacyjnej.

Modele analizy efektu oceniającego

Filip Kulon (Instytut Badań Edukacyjnych)

Ocenianie jakiejś cechy przez ludzi powoduje wariancję

ocen niezwiązaną z mierzoną cechą. Wariancja ta

pochodzi w głównej mierze od oceniającego i zbiorczo

nazywana jest efektem oceniającego. Jest to

immanentna cecha oceniania i można jedynie dążyć do

jej minimalizacji. Najczęściej wyróżnia się cztery typy

efektu oceniającego: (1) efekt halo, (2)

łagodność/surowość, (3) zniekształcenia skali i (4)

precyzję oceniania.

Efekt halo objawia się przyznawaniem przez

oceniającego oceny na podstawie innej cechy niż

mierzona. W zależności od korelacji obydwu cech,

można uznać ten typ efektu za błąd systematyczny lub

losowy. Łagodność/surowość to systematyczne

przyznawanie ocen wyższych/niższych niż rzeczywisty

poziom mierzonej cechy. Zniekształcenia skali

13

zawierają wszelkie modyfikacje skali, jak np. jej

ograniczenie czy używanie kategorii skrajnych

(ekstremizm) i mają charakter błędów

systematycznych. Precyzja oceniania wiąże się z

rzetelnością pomiaru i losowym składnikiem błędu.

Często zgodność ocen jest utożsamiana z rzetelnością

pomiaru, jednakże nie jest ona wymagana w celu

osiągnięcia wysokiej rzetelności oceniania.

Oprócz omówienia poszczególnych typów efektu

oceniającego, zaprezentowane zostaną metody jego

pomiaru, z których większość bazuje na wielokrotnych

ocenach. Proste wskaźniki zgodności (kappa) czy

korelacji wewnątrzklasowej nie dostarczają informacji

o poszczególnych typach efektów. Bardziej

skomplikowane metody można podzielić na te oparte

na teorii uniwersalizacji i dekompozycji wariancji oraz

na teorii odpowiedzi na pozycje testowe (item response

theory, IRT). Wśród tych drugich na szczególną uwagę

zasługuje hierarchiczny model efektu oceniającego

oparty na teorii detekcji sygnałów (hierarchical rater

model with signal detection theory, HRM-SDT).

Pozwala on na szacowanie łagodności/surowości,

zniekształceń skali oraz precyzji oceniania.

Poprzez oparcie HRM-SDT na teorii odpowiedzi na

pozycje testowe możliwe jest szacowanie efektów

oceniającego bez użycia wielokrotnych ocen. Można

tego dokonać, gdy do oszacowania cechy ukrytej

mierzonej poprzez oceny zastosujemy równolegle

pozycje testowe oceniane automatycznie. Taki model

może być szczególnie przydatny w edukacji, gdzie

14

najczęściej oprócz ocen wystawianych przez

nauczycieli czy egzaminatorów, używane są zadania

zamknięte.

Zróżnicowane funkcjonowanie pozycji testowych jako

narzędzie umożliwiające wykrycie zaburzeń założonej

struktury wymiarowej testu

Bartosz Kondratek, Paulina Skórska (Instytut Badań

Edukacyjnych)

Ze zróżnicowanym funkcjonowaniem pozycji testowej

(differential item functioning, DIF) mamy do czynienia,

gdy osoby o tym samym poziomie mierzonej przez test

cechy, ale należące do różnych grup, charakteryzują się

różnym rozkładem odpowiedzi na rozpatrywaną

pozycję testową. Występowanie DIF informuje o tym,

że oprócz mierzonej testem cechy istnieją jakieś

dodatkowe czynniki warunkujące sposób odpowiadania

na daną pozycję testową, które jednocześnie są

współzmienne z przynależnością grupową. Dzięki

temu, analizy DIF stanowią cenne narzędzie do oceny

trafności wewnętrznej testu.

Zaprezentowane zostanie wykorzystanie analizy DIF w

oparciu o wielogrupowe modele teorii odpowiedzi na

pozycje testowe (item response theory, IRT) i

specyficzne dla tego rozwiązania miary wielkości

efektu DIF. Na przykładzie wyników ze sprawdzianu z

roku 2014 zostanie zilustrowana zależność między

błędnie przyjętym założeniem o jednowymiarowości

badanego konstruktu, a wynikami analizy DIF ze

względu na płeć uczniów.

15

Wykorzystanie modelowania IRT do łączenia

wyników z rożnych narzędzi testowych na przykładzie

egzaminów zewnętrznych

Henryk Szaleniec (Instytut Badań Edukacyjnych)

Podczas analizy danych zebranych z wykorzystaniem

testów do pomiaru ukrytych zmiennych częstokroć

stajemy przed problemem sprowadzania do wspólnej

skali wyników uzyskanych za pomocą różnych narzędzi

badających takie same lub zbliżone umiejętności.

Szczególnym wyzwaniem jest wyrażenie wyników na

wspólnej skali, gdy dane uzyskane za pomocą różnych

narzędzi są zebrane w grupach osób mogących różnić

się rozkładem ukrytych zmiennych, które podlegają

pomiarowi. Przykładem może być próba wyrażenia na

wspólnej skali wyników egzaminów zewnętrznych

przeprowadzanych w Polsce począwszy od 2012 roku.

W wystąpieniu przedstawione zostaną, na przykładzie

sprawdzianu przeprowadzanego w szóstej klasie szkoły

podstawowej, rozwiązania zastosowane w latach 2011-

2014 w Instytucie Badań Edukacyjnych do zrównania

wyników egzaminów zewnętrznych (sprawdzian,

egzamin gimnazjalny i matura). W szczególności

przedstawione zostaną: podstawowe założenia, które

muszą być spełnione w procedurze zrównywania,

zastosowany plan łączenia wyników testowania w

różnych latach i wielogrupowy model IRT, który został

dopasowany do danych z wykorzystaniem algorytmu

EM. Zaprezentowane zostaną również zrównane

wyniki sprawdzianu począwszy od roku 2002 do 2013,

16

wyrażone w skali standardowej o średniej 100 i

odchyleniu standardowym 15, odniesione do roku

2012, który został przyjęty jako referencyjny. Wyniki te

zagregowane do poziomu szkół, gmin, powiatów,

województw i kraju są powszechnie dostępne dla

wszystkich zainteresowanych, w tym badaczy, pod

adresem pwe.ibe.edu.pl.

Zastosowanie skalowania wertykalnego do oceny

przyrostu umiejętności matematycznych polskich

uczniów

Karolina Świst (Instytut Badań Edukacyjnych)

Matematyczne umiejętności ucznia zależą od

skumulowanych efektów nauczania matematyki na

poprzednich etapach edukacji (IBE, 2011). Jednak do tej

pory, w polskim systemie edukacji nie określono

sposobu oszacowania średniego postępu uczniów

między progami kształcenia. Tradycyjne metody

badania zmian poziomu cechy ukrytej takie jak analiza

trendów czasowych czy latentnych krzywych

rozwojowych (latent growth modeling), wymagają

podłużnych planów badawczych. Przedstawiona w

niniejszym referacie metoda skalowania wertykalnego

pozwala ocenić przyrost umiejętności ucznia bez

konieczności prowadzenia czasochłonnego i

kosztownego badania podłużnego. Przeprowadzenie

tego typu procedury wymaga spełnienia

niezmienniczości mierzonych umiejętności pomiędzy

kolejnymi etapami edukacyjnymi, co jest założeniem

praktycznie niemożliwym do spełnienia. W niniejszym

17

referacie przedstawiono zastosowanie metody

podwójnego czynnika (bi-factor model) do oceny

przyrostu poziomu umiejętności matematycznych

uczniów na podstawie danych zebranych przez Zespół

Analiz Osiągnięć Uczniów Instytutu Badań

Edukacyjnych. Model podwójnego czynnika pozwala

na odseparowanie specyficznej dla danych egzaminów

części wariancji i przeprowadzenie łączenia na

pozostałej części, wspólnej dla różnych testów.

Przedstawiono ocenę dopasowania tego typu modelu

oraz analizę uzyskanych skal wertykalnych poprzez

oszacowanie średniego przyrostu cechy ukrytej

(umiejętności matematycznych),zróżnicowania

przyrostu umiejętności matematycznych czy

przemieszczenia się rozkładów umiejętności

matematycznych. Wyniki są pierwszym krokiem

prowadzącym do uzyskania rzetelnej informacji o

przyroście umiejętności matematycznych uczniów w

polskich szkołach.

Możliwości wykorzystania modeli mieszanek IRT do

identyfikowania uczniów o niskiej motywacji testowej

Paulina Skórska (Instytut Badań Edukacyjnych)

Szacowanie umiejętności uczniów, bez uwzględnienia

poziomu ich motywacji, może prowadzić do

problemów z trafnością wnioskowania (Messick,

18

1989; 1995). Wyłączenie z analiz danych

niezmotywowanych uczniów prowadzi do utraty

informacji. Dlatego lepszym rozwiązaniem jest

uwzględnienie informacji o obniżonej motywacji

uczniów w modelu. Jednym ze sposobów na to jest

wykorzystanie modeli mieszanek IRT. Modele

mieszanek IRT (mixture IRT models) łączą ze sobą

dwa rodzaje modeli wykorzystywanych w pomiarach

cechy ukrytej: modelowanie w ramach teorii

odpowiedzi na pozycje testowe (Item Response

Theory, IRT) oraz analizę klas ukrytych (latent class

analysis, LCA). Pozwalają na wykrycie klas ukrytych

uczniów odpowiadających na pytania testowe w sposób

jakościowo różny oraz sprawdzenie, do jakiego stopnia

uwzględnienie informacji o motywacji uczniów wpływa

na ich przynależność do konkretnych klas.

Celem wystąpienia jest przedstawienie zastosowania

modeli mieszanek IRT do wykrycia uczniów

niezmotywowanych oraz ocena adekwatności tej

metody. Dane będące podstawą analiz zostały zebrane

przez Zespół Analiz Osiągnięć Uczniów IBE w 2014 r.

(losowa próba uczniów gimnazjum, n=1617). Do

pomiaru motywacji wykorzystano kwestionariusz

motywacji polskiej wersji Skali Opinii Uczniów (Sundre,

2007), przetłumaczonej za zgodą autorki. Wpływ

motywacji testowej był analizowany w kontekście

umiejętności matematycznych uczniów. Ocena

możliwości zastosowania modeli mieszanek IRT

opierała się na: a) porównaniu dobroci dopasowania

modelu IRT w porównaniu do klasycznego modelu IRT;

19

b) możliwości interpretacji klas ukrytych w kategoriach

motywacji testowej oraz c) weryfikacji stopnia, do

jakiego dodatkowa zmienna (SOS) pozwala przewidzieć

przynależność do danej klasy ukrytej.

Wyniki wskazują, że wykorzystanie modeli mieszanek

IRT do wykrywania niezmotywowanych uczniów może

stanowić punkt wyjścia do analiz mających na celu

zwiększenie trafności wnioskowania na podstawie

rozwiązywanych przez uczniów testów umiejętności.

Modele mieszanek IRT można więc wykorzystywać do

walidacji innych metod – określenia spójności ich

wyników z wynikami miar samoopisowych, ale także

miar zachowania uczniów (np. analiza czasów reakcji

(RTE) w kontekście liczby opuszczonych w teście zadań

otwartych).

Wykorzystanie metod badania osobowości w

badaniach marketingowych

Oleg Gorbaniuk, Magdalena Kolańska (Katolicki Uniwersytet

Lubelski)

Już w latach 50-tych ubiegłego wieku definiowano

marki poprzez ich osobowość (Martineau, 1958), a lata

60-te to początek badań nad zbieżnością obrazu siebie

z wizerunkiem użytkownika marki lub wizerunkiem

marki (Dolich, 1969;Hamm, Candiff,, 1969; Grubb,

Grathwoll 1967). Początek tych rozważań stanowiło

20

zagadnienie atrakcyjności interpersonalnej (Byrne,

1961), które postuluje, że ludzie preferują i darzą

większą sympatią osoby, które uważają za podobne do

siebie. Wyniki te przeniesiono na grunt psychologii

zachowań konsumenckich i sformułowano założenie,

iż konsumenci preferują marki, które w ich odbiorze są

podobne do nich samych (Grubb, Stern, 1971).

Założenie to potwierdziły liczne badania (Heath, Scott,

1998; Dennison, Shepherd, 1995; Chang, 2002; Chon,

Olsen,1991; Helgeson, Supphellen, 2004; Jamal, 2004;

Chebat, Hedli, Sirgy, 2009).

Główną przesłanką teorii kongruencji jest to, iż

zwiększenie podobieństwa (czyli zbieżności własnego

obrazu siebie i obrazu marki/jej typowego

użytkownika) zwiększa prawdopodobieństwo

pozytywnego działania (np. zakupu) w odniesieniu do

tej marki (Gould, 1991; Graeff 1996; Sirgy, 1982, 1986;

Yu i in.,2013).

W przypadku kongruencji możemy wskazywać na dwa

główne sposoby jej pomiaru: pośredni i bezpośredni.

Pomiar pośredni charakteryzuje najpierw opisanie cech

typowego użytkownika marki za pomocą skali a

następnie opisanie obrazu siebie za pomocą tej skali i

porównanie tych wyników (Gorbaniuk, Stachoń, 2011;

Birdwell, 1968; Dolich, 1969; Grubb & Grathwhohl,

1967; Sirgy, 1986, Gould, 1991; Graeff, 1996; Sirgy,

1982, 1986; Sutherland i in., 2004). W tego typu

badaniach wykorzystuje się skale (1) tworzone ad hoc –

ale czasochłonne (Gorbaniuk, Stachoń, 2011) (2) skale

do badania osobowości człowieka (Caprara i in., 1998;

21

Ferrandi, Valette-Florence 2002), (3) skale do badania

osobowości marki: np. skala Poddar, Donthu i Wei

(2009), skala Aaker (1996) – wykorzystane w wielu

badaniach (O’Cass, Grace, 2008; Buresti, Rosenberg,

2006;Lam, Ahearne, Mullins, Hayati, Schillewaert,

2013).

Zwodniczy urok (zbyt) pięknych konceptualizacji (na

przykładzie badań replikacyjnych nad kołowym

modelem celów życiowych)

Małgorzata Górnik-Durose, Łukasz Jach (Uniwersytet Śląski)

Podczas wystąpienia zostaną zaprezentowane wyniki

badań replikacyjnych dotyczących odtwarzania się w

warunkach polskich kołowej struktury celów

życiowych, badanych przy pomocy osadzonego w teorii

autodeterminacji kwestionariusza Aspiration Index

(Grouzet i wsp., 2005). Choć autorzy oryginalnej wersji

narzędzia przedstawiają aspiracje życiowe jako

właściwości psychologiczne tworzące identyczny układ

niezależnie od kontekstu kulturowego (15 prób; łączne

n = 1854 osoby), proponowanej przez nich struktury

czynnikowej nie udało się odtworzyć w żadnej z

dziewięciu polskich prób badawczych (łączne n=1762

osoby). Co więcej, w warunkach polskich część skal

badających poszczególne cele życiowe konsekwentnie

wykazywała się niesatysfakcjonującym poziomem

spójności wewnętrznej. W kontekście atrakcyjnego dla

potencjalnych użytkowników narzędzia (11 skal

pozostających do siebie w określonych relacjach i

ułożonych na dwóch wymiarach) oraz braku innych

22

prób replikacji wyników badań Grouzeta i

współpracowników, przy jednoczesnym częstym

powoływaniu się na ich pracę w innych publikacjach

(322 cytowania do końca stycznia 2015 r. wg bazy

GoogleScholar), autorzy stawiają pytania o

przydatność urzekających estetyką modeli

wypracowywanych w ramach popularnych koncepcji

teoretycznych oraz sposoby postępowania w sytuacji,

gdy próby adaptowania narzędzi nie przynoszą

satysfakcjonujących efektów.

Wykorzystanie metod projekcyjnych w obszarze

zarządzania zasobami ludzkimi

Grzegorz Szopiński (Uniwersytet Adama Mickiewicza)

Metody projekcyjne towarzyszą psychologii niemal od

początku jej istnienia jako dyscypliny naukowej.

Większość z nich jest raczej kojarzona z psychologią

kliniczną i przede wszystkim w tym obszarze były one

przedmiotem kontrowersji. Były one również

stosowane w badaniach z zakresu zarządzania

zasobami ludzkimi, w szczególności w obszarze

rekrutacji i selekcji pracowników. Niniejsza praca

stanowi przegląd badań empirycznych dotyczących

możliwości wykorzystania metod projekcyjnych w tej

dziedzinie. Wykorzystano w niej taksonomię,

zaproponowaną prze Lindzeya i powtórzoną przez

Lilienfelda, dzielącą metody projekcyjne na

asocjacyjne, konstrukcyjne, aranżacyjne i oparte na

uzupełnianiu. Pierwsza z nich dotyczy przede

wszystkim testu plam atramentowych Rorschacha. Jego

23

uwarunkowania oraz historyczne i przyszłe

zastosowania w dziedzinie zasobów ludzkich zostały

szczegółowo omówione. Spośród metod

konstrukcyjnych szczególną uwagę poświęcono

szeroko stosowanemu testowi apercepcji tematycznej.

W dalszej części pracy omówione zostały metody

uzupełniania zdań oraz test Tomkina-Horna. Finalna

część pracy poświęcona jest wskazaniom praktycznym

oraz ograniczeniom dotyczącym stosowania metod

projekcyjnych przez specjalistów z zakresu zasobów

ludzkich.

Psychologiczna analiza treści zeznań z

zastosowaniem algorytmów decyzyjnych (drzew

klasyfikacyjnych i regresyjnych)

Bartosz Wojciechowski (Uniwersytet Śląski)

Drzewa klasyfikacyjne są szeroko wykorzystywane w

różnych dziedzinach nauk stosowanych, tak

odmiennych jak medycyna, nauki komputerowe, czy

botanika. Pozwalają na ustalenie, czy dany przypadek

przynależy do określonego zbioru, na podstawie

wyników pomiaru jednej albo kilku zmiennych. Celem

analizy z wykorzystaniem drzewa klasyfikacyjnego jest

uzyskanie możliwie najbardziej trafnego

przewidywania - stworzenie takiego algorytmu

decyzyjnego, który pozwoli na prawidłowe zaliczenie

określonego przypadku, do właściwej kategorii.

Psychologiczna analiza treści zeznań z

wykorzystaniem kryteriów treściowych Statement

Validity Assessment umożliwia prawidłową

24

klasyfikację 65,67% zeznań prawdziwych i 64% zeznań

fałszywych, analiza treściowa zeznań z zastosowaniem

kryteriów treściowych Reality Monitoring prowadziła w

badanej grupie do 55,41% prawidłowych klasyfikacji

(54,61% zeznań prawdziwych i 59.25% zeznań

fałszywych), a zastosowanie Modelu Wielozmiennowej

Analizy Zeznań Świadków Dorosłych pozwalało na

prawidłową klasyfikację w 89,86% przypadków, przy

czym wskaźnik prawidłowych klasyfikacji dla zeznań

prawdziwych wyniósł 96,87%, ale dla zeznań

fałszywych wynosił już tylko 45%.

Analiza zeznania z zastosowaniem kryteriów

treściowych Statement Validity Assessment według

uzyskanego algorytmu pozwala na prawidłową

klasyfikację 100% zeznań prawdziwych i 84% zeznań

fałszywych. W przypadku zastosowania kryteriów

treściowych Reality Monitoring i oparcia decyzji o

zakwalifikowaniu relacji świadka do określonej

kategorii na wskazaniach algorytmu, można

przewidywać, że prawidłowa klasyfikacja nastąpi w

odniesieniu do 99,22% zeznań prawdziwych i 96,30%

zeznań fałszywych. Stworzony z pomocą analizy drzew

klasyfikacyjnych algorytm, wymagający porównania

wyników oceny dziewięcioma kryteriami MASAM,

pozwala na prawidłową klasyfikację wszystkich (100%)

zeznań prawdziwych i niemal każdego (90%) z

poddanych analizie zeznań fałszywych.

Wykorzystanie drzew klasyfikacyjnych pozwala także

na obiektywizację rezultatów analizy treściowej, a

uzyskane algorytmy decyzyjne dostarczają

25

precyzyjnych wskazówek co do tego, w jaki sposób

wyniki analizy treściowej przeprowadzonej z

zastosowaniem kryteriów SVA, RM lub MASAM,

powinny zostać zinterpretowane.

Metodologia skracania kwestionariuszy

Paweł Kleka (Uniwersytet Adama Mickiewicza)

Korzystanie ze skróconych wersji narzędzi

pomiarowych w psychologii można uznać za

uzasadnione praktycznie i teoretycznie. Motywy

skracania związane są głównie ze skróceniem czasu

badania oraz zmniejszeniem nakładów finansowych.

Często też pojawia się potrzeba użycia krótkich wersji,

gdy plan badawczy przewiduje zastosowanie całej

baterii testów, która w wersji kompletnej mogłaby być

zbyt obciążająca lub gdy trzeba stosować wersje

równoległe przy pomiarze wielokrotnym. Używając

krótszych wersji można też bardziej dostosować czas

badania do możliwości poznawczych i emocjonalnych

uczestników badań, a także zróżnicować stawiane

przednimi zadania.

Psychologowie stosujący kwestionariusze mogą ulec

pokusie, aby skrócone wersje narzędzi opierać na

swojej intuicji, zaniedbując przy tym wymogi

metodologiczne. Skrócone formy nie są poddawane

wnikliwej analizie psychometrycznej, ponieważ

zakłada się, że trafność i rzetelność narzędzia pełnego

zapewnia dobre parametry także narzędziu

pochodnemu – jest to niczym nie uzasadnione

założenie, ponieważ skrócone narzędzie ma takie same

26

szanse być lepsze, gorsze jak i takie same pod względem

parametrów trafności i rzetelności. Podobnie błędnym

założeniem jest zgoda na niższy poziom rzetelności

tylko dlatego, że narzędzie skrócone jest krótsze. Chcę

zaproponować procedurę skracania kwestionariuszy

badawczych, pokazać możliwą empiryczną ewaluację

skróconych wersji oraz rozważyć zalety i wady różnych

metod skracania, zarówno od strony teoretycznej jak i

na przykładzie analiz statystycznych.

Przydatność Klasycznej Teorii Testu i IRT w

konstrukcji testów

Barbara Ciżkowicz (Uniwersytet Kazimierza Wielkiego)

W psychometrii powszechnie stosowanym modelem

statystycznym jest Klasyczna Teoria Testu (KTT). Jej

niewątpliwą zaletą jest brak rygorystycznych założeń

oraz łatwość interpretacji wyników. Stosowane w niej

wskaźniki są intuicyjnie zrozumiałe. W KTT kluczowym

poję-ciem jest wynik prawdziwy. Jednak wynik ten jest

zależny zarówno od testu, jak i od próby badawczej.

Stanowi to istotne ograniczenie. Jednocześnie w

psychometrii rozwijane są inne podejścia teoretyczne.

Należą do nich modele cechy latentnej (latent trait

model, LTM), którego szczególnym przypadkiem jest

model wyniku zadania testowego (item response

theory, IRT). W tym podejściu teoretycznym poziom

umiejętności jest pojęciem fundamentalnym, a

nieliniowy związek między poziomem umiejętności a

prawdopodobieństwem prawidłowej odpowiedzi na

zadanie testowe jest inwariantny względem próby oraz

27

testu. Na etapie konstrukcji testu stwarza to

możliwości niedostępne w podejściu klasycznym,

zapewniające większą precyzję pomiaru. Dotyczy to

głownie możliwości konstrukcji testów o ściśle

określonych charakterystykach.

Na wstępie przedstawione zostaną założenia

teoretyczne modelu KTT i modelu IRT. oraz

porównane klasyczne i probabilistyczne miary jakości

zadania i jakości testu. Na przykładzie pokazane

zostaną różnice w jakości testu wynikające z

zastosowania metody zgodności wewnętrznej i funkcji

informacyjnej do szacowania błędu pomiaru.

„Prawda nie leży po środku”: problem właściwego

skalowania wartości środkowych w skalach

szacunkowych

Krzysztof Kasparek, Marek Muszyński (Uniwersytet

Jagielloński)

Skale szacunkowe (np. typu Likerta) są jednym z

najbardziej rozpowszechnionych narzędzi badawczych

w naukach społecznych (Stacey, 2013). O ich

popularności decyduje stosunkowa prostota i wygoda

użycia, tak po stronie badacza, jak i badanych. Metoda

ta ma również swoje wady- zbiera się dane będące

subiektywnymi interpretacjami badanych, którzy mogą

kłamać, kierować się aprobatą społeczną (Edwards,

1957) lub ulegać zniekształceniom poznawczym. Jest

również wrażliwa na stosowanie przez badanych stylów

28

odpowiedzi, czyli odpowiadanie na pytania zawsze w

ten sam sposób, niezależnie od ich treści (Paulhus,

1991). Najczęściej opisywane style odpowiedzi to

(nad)używanie odpowiedzi skrajnych (extreme

response style) oraz (nad)używanie odpowiedzi

środkowych (Pokropek, 2014). Nadużywanie

odpowiedzi środkowej może świadczyć nie tyle o

neutralnym stosunku badanych do tematu, co o chęci

uniknięcia odpowiadania na pytanie, np. z powodu

braku jego zrozumienia lub poczucia, że „mnie to nie

dotyczy” (Khorramdel i van Davier, 2014; Kulas,

Stachowski i Haynes, 2008). Brak uwzględnienia

powyższych zagrożeń w analizie danych zebranych za

pomocą skal szacunkowych może poważnie zagrozić

trafności analiz.

Celem wystąpienia jest prezentacja metod

pozwalających na identyfikację respondentów

traktujących odpowiedzi środkowe, jako synonim

odpowiedzi „nie wiem” oraz krótkie omówienie metod

umożliwiających kontrolowanie efektów wywołanych

przez style odpowiedzi. W wystąpieniu

zaprezentowane zostaną skutki jakie dla wyników

badań niesie eliminacja respondentów nadużywających

odpowiedzi środkowych. W tym celu posłużono się

konfirmacyjną analizą klas ukrytych (Moors, Kieruj i

Vermunt, 2014) oraz dekonstrukcją skali szacunkowej

za pomocą wielomianowych drzew decyzyjnych

(multinomial processing trees; Bockenholt, 2012;

Pokropek, 2014). Wpływ stylów odpowiedzi na wyniki

poszczególnych pozycji w kwestionariuszu

29

zilustrowany zostanie za pomocą modeli z rodziny

teorii odpowiedzi na pozycje testową dla danych

politomicznych (polytomous item-response theory;

Ostini i Nering, 2006). Dane, które posłużyły do

ilustracji wyżej opisanych problemów pochodziły z

badania dotyczącego zadowolenia z jakości życia

mieszkańców jednego z największych miast w Polsce.

Detekcja (nie)porównywalności wyników ze względu

na wiek – na przykładzie skróconej wersji

Kwestionariusza Portretów Wartości (PVQ-21)

Shaloma Schwartza

Karolina Świst (Instytut Badań Edukacyjnych)

Mierzenie cech ukrytych opiera się na zadawaniu tych

samych pytań respondentom przy apriorycznym

założeniu, że interpretacja docelowego konstruktu nie

zmienia się wraz z, wiekiem jednostki oraz

zachodzącym jakościowymi zmianami rozwojowymi

(np. w strukturze osobowości, spowodowanych co raz

większym przystosowaniem się do pełnionych ról

społecznych). Nie uwzględnia się także faktu, że w

różnych kohortach wiekowych, znaczenie mierzonego

konstruktu może być diametralnie inne – np. ze

względu na dorastanie w różnych warunkach

społecznych, politycznych i ekonomicznych. W

30

niniejszym referacie przedstawię analizę

porównywalności ze względu na wiek wyników

uzyskanych w skróconej wersji Kwestionariusza

Portretów Wartości (PVQ-21) Shaloma Schwartza

(2007). Skala ta jest wykorzystywana między innymi w

Europejskim Sondażu Społecznym. W celu

wyeliminowania innych źródeł nieporównywalności,

analiza zostanie przeprowadzona wyłącznie dla danych

z Polski. Testowanie porównywalności ze względu na

wiek odbędzie się przy pomocy następujących metod,

wywodzących się zarówno z Klasycznej Teorii Testów

(KTT) jak i teorii reakcji na pozycję testową (item

response theory, IRT): korelacji jej wyników z wiekiem,

testowania inwariancji pomiaru przy pomocy

wielogrupowej analizy czynnikowej (multigroup

confirmatory factor analysis, MCFA), oraz detekcji

zróżnicowanego funkcjonowania pozycji testowej

(differential item functioning, DIF) ze względu na wiek.

Niniejsze analizy pomogą odpowiedzieć na pytanie czy

zasadne jest raportowanie wyników dotyczących

wyznawanych wartości bez wzięcia pod uwagę

odmiennej specyfiki pomiaru związanej z

przynależnością do różnych grup wiekowych.

Zastosowanie eksploracyjnych modeli równań

strukturalnych z rotacją celową w analizie

międzygrupowej niezmienności struktury

czynnikowej. Przykład kwestionariusza „Postrzeganej

Integracji Społecznej”

31

Grzegorz Humenny, Paweł Grygiel (Instytut Badań

Edukacyjnych)

Celem wystąpienia jest przedstawienie możliwości

wykorzystania eksploracyjnych modeli równań

strukturalnych z rotacją celową, zakładających

występowanie struktury hierarchicznej do testowania

międzygrupowej niezmienności (inwariancji)

pomiarowej.

Eksploracyjne modele równań strukturalnych (ESEM)

są sposobem analiz struktury latentnej łączącej

elementy eksploracyjne (EFA) oraz konfirmacyjne

(CFA). W odróżnieniu od modeli CFA zakładają

dysponowanie jedynie częściową wiedzą na temat

relacji zachodzących między zmiennymi latentnymi a

wskaźnikami. W połączeniu z rotacją celową (target

rotation) umożliwiają wprowadzenie do modelu

warunków wstępnych (np. co do wielkości ładunków

czynnikowych), mogących ulegać zmianom w trakcie

estymacji. W efekcie prowadzi to do mniej obarczonego

szacowania parametrów struktury latentnej. Istotne, że

w odróżnieniu od modeli “czysto” konfirmacyjnych

umożliwiają one uwzględnienie występowania tzw.

ładunków krzyżowych (crossloadings).

Współczesne badania psychometryczne wskazują, że

modele te mogą być z sukcesem stosowane w analizie

specyficznych typów struktury latentnej, tj. (1) modeli

wyższego rzędu (higher-order) i/lub (2) podwójnego

czynnika (bi-factor). Oba zakładają, że zmienność

wskaźników można podzielić na część: (1) wspólną dla

wszystkich pozycji; (2) specyficzną jedynie dla ich

32

części. Przy czym, o ile w modelach wyższego rzędu to,

co wspólne dla wszystkich wskaźników jest

estymowane jako część wspólna czynników niższego

rzędu, o tyle w modelach podwójnego czynnika

najpierw wyłączana jest wspólna zmienność dla

wszystkich wskaźników, a następnie estymowana

wariancja wspólna jedynie dla części zmiennych

obserwowalnych.

Przeprowadzone analizy koncentrować się będą na: (1)

wskazaniu optymalnego modelu pomiarowego

kwestionariusza “Postrzeganej Integracji Społecznej”

oraz (2) weryfikacji stabilności (niezmienności)

zaproponowanego rozwiązania pomiędzy dwoma

kolejnymi rocznikami uczniów klas trzecich szkół

podstawowych. W analizach wykorzystane zostaną

dane pochodzące z dwóch dużych ogólnopolskich

badań zrealizowanych przez Instytut Badań

Edukacyjnych, tj. (1) Edukacyjnej Wartości Dodanej

(EWD); (2) Szkolnych Uwarunkowań Efektywności

Kształcenia (SUEK).

Testowanie modeli przeprowadzone zostanie przy

pomocy pakietu Mplus, w oparciu o macierz korelacji

polichorycznej oraz estymator WLSMV (ważonych

najmniejszych kwadratów ze skorygowaną średnią i

wariancją).

Zróżnicowanie funkcjonowania zadań między

różnymi wersjami testu z wykorzystaniem Testlet

Response Theory

33

Paulina Skórska, Maciej Koniewski, Przemysław Majkut

(Instytut Badań Edukacyjnych)

Standaryzowane testy osiągnięć edukacyjnych

stanowią istotny element polskiego systemu oświaty.

W celu zapobiegania oszukiwaniu na egzaminie przez

odpisywanie od siebie przez uczniów, egzaminy

przeprowadzane są w dwóch wersjach. Obie wersje

zawierają takie same zadania, jednak różnią się

sekwencją odpowiedzi w zadaniach zamkniętych

wielokrotnego wyboru. Celem prezentowanych analiz

jest ocena zróżnicowanego funkcjonowania zadań

między wersjami testu. Analizowano zadania z arkusza

wersji A i B egzaminu gimnazjalnego z historii i wiedzy

o społeczeństwie z 2013 r. Dane pochodziły z arkuszy

odpowiedzi uczniów z województw lubelskiego,

małopolskiego i podkarpackiego (n=81545). W celu

detekcji DIF wykorzystano test Mantel-Haenshela,

regresję logistyczną oraz standaryzację. Wyniki analiz

wskazują na istotne różnice w funkcjonowaniu zadań

między wersjami A i B testu w sytuacji, gdy w jednej

wiązce zadań prawidłowa odpowiedź jest oznaczona

zawsze tym samym symbolem, np. A, A, A. W takiej

sytuacji poprawna odpowiedź na dwa z nich obniża

szansę na poprawną odpowiedź na trzecie zadanie w

wiązce o 27 do 52%, przy kontroli poziomu

umiejętności ucznia. Szansa udzielenia poprawnej

odpowiedzi na trzecie zadanie w wiązce jest niższa w

przypadku zadań o większej trudności. Przedstawiono

wyjaśnienie tego zjawiska w odniesieniu do złudzenia

gracza (Gambler’s fallacy), złamania założeń o lokalnej

34

niezależności odpowiedzi na zadania oraz metody

pozwalające na szacowanie parametrów modelu z

uwzględnieniem wzajemnej zależności zadań w

wiązkach (Testlet Response Theory).

Analiza własności psychometrycznych testu w

heterogenicznych populacjach przy pomocy

wielopoziomowej analizy czynnikowej

Tomasz Żółtak (Instytut Badań Edukacyjnych)

Konfirmacyjna analiza czynnikowa, w różnych

odmianach, jest jedną z klasycznych metod

wykorzystywanych do analizy własności testów

psychometrycznych. Korzystając z niej, tradycyjnie

zakłada się, że modelowane zależności pomiędzy

mierzonym konstruktem a zmiennymi

obserwowalnymi, opisującymi reakcje badanych na

zadania testowe, przebiegają w ten sam sposób w

ramach całej badanej grupy (populacji). Założenie to

nie zawsze jest jednak słuszne, gdyż właściwości

psychometryczne testu same w sobie mogą

systematycznie różnicować się zarówno ze względu na

indywidualne cechy badanych, jak też ze względu na

wpływ zjawisk o charakterze grupowym. Z tym drugim

zjawiskiem możemy mieć do czynienia zwłaszcza

wtedy, gdy badana zbiorowość (próba) w oczywisty

sposób składa się z grup, stanowiących istotny kontekst

funkcjonowania jednostek, jak na przykład szkoła czy

klasa w przypadku badań edukacyjnych.

W niniejszym referacie opisany zostanie sposób

modelowania takiego wpływu pogrupowania na

35

własności psychometryczne testu, z wykorzystaniem

metody wielopoziomowej analizy czynnikowej.

Możliwości i ograniczenia tej metody oraz sposób

interpretacji wyników zaprezentowane zostaną w

kontekście innych sposobów modelowania

zróżnicowania własności psychometrycznych testu:

analizy zróżnicowania funkcjonowania zadań

testowych (Differential Item Functioning) przy pomocy

modeli wielogrupowej analizy czynnikowej oraz

wieloaspektowego modelu Rascha. Zasygnalizowane

zostaną również możliwości wykorzystania metod

wielopoziomowych w modelowaniu równań

strukturalnych (SEM). Na potrzeby ilustracji

empirycznej wykorzystane zostaną dane z badań

edukacyjnych, obejmujące szeroko wykorzystywane

testy psychologiczne: Test Matryc Ravena oraz

Inwentarz Stanu i Cechy Lęku.

Jednowymiarowe analizy IRT z wykorzystaniem

pakietu uirt dla Stata

Bartosz Kondratek (Instytut Badań Edukacyjnych)

Zaprezentowany zostanie autorski program uirt

(unidimensional item response theory models)

działający w środowisku Stata, który umożliwia

przeprowadzanie szeregu analiz w ramach

jednowymiarowych modeli teorii odpowiedzi na

pozycje testowe (item response theory, IRT). Modele

IRT rozdzielają właściwości badanych osób od

właściwości pozycji testowych i stały się ważnym

elementem przeprowadzanych współcześnie badań

36

nad cechami ukrytymi zarówno w psychologii jak i

edukacji. Analizy oparte na IRT są nieocenione na

etapie konstrukcji narzędzi, ale również na etapie

wnioskowania o poziomie badanych cech, zwłaszcza,

gdy badanie odbywa się przy zmiennej ekspozycji

pozycji testowych, jak to ma miejsce np. w

komputerowym testowaniu adaptatywnym

(computerized adaptive testing, CAT).

Program uirt szacuje parametry jednowymiarowych

modeli IRT zarówno dla pozycji testowych ocenianych

dwupunktowo (1pl, 2pl, 3pl), jak i wielopunktowo (grm,

pcm, gpcm). Obsługuje modele wielogrupowe oraz

pozwala na przeprowadzenie analizy zróżnicowanego

funkcjonowania pozycji testowych (differential item

functioning, DIF). Oprócz oszacowań punktowych

mierzonej testem zmiennej ukrytej, program uirt

pozwala także na generowanie tzw. wartości możliwych

(plausible values, PVs), wykorzystywanych w celu

uwzględnienia informacji o nierzetelności pomiaru w

późniejszych analizach statystycznych. Analiza

dopasowania w ramach programu uirt jest

przeprowadzana w sposób graficzny, z wykorzystaniem

PV do grupowania badanych osób w przedziały

zmiennej ukrytej.

Podstawowa funkcjonalność programu uirt zostanie

zilustrowana z wykorzystaniem prawdziwych oraz

symulacyjnych danych. Przeprowadzone zostanie

również porównanie działania uirt w zestawieniu

wbudowanym do Stata 14 modułem do analiz IRT, a

także z programem Parscale 4.0.

37

Analiza inwariancji pomiarowej w badaniu

podłużnym na przykładzie testu inteligencji

Aleksandra Jasińska-Maciążek, Anna Hawrot (Instytut

Badań Edukacyjnych)

Oszacowanie zmiany nasilenia cechy ukrytej wymaga

przyjęcia założenia, że w różnych punktach czasowych

mierzymy ten sam konstrukt wyrażony na tej samej

skali. Nawet wykorzystane tego samego narzędzia nie

uprawomocnia nas do przyjęcia tego założenia bez

wcześniejszej weryfikacji inwariancji pomiaru. Jeśli nie

jest ona zachowana, wyciąganie wniosków z

porównania wyników dwóch pomiarów może być

nieuzasadnione.

Dodatkowo badając cechę, która rozwija się w czasie,

należy dostosować narzędzie do jej poziomu w

momencie badania w celu uniknięcia efektu sufitowego

lub podłogowego testu. W tym celu najczęściej

wykorzystuje się narzędzia z pulą pozycji

powtarzanych w obu pomiarach, które pozwolą

zdefiniować wspólną skalę (tzw. pozycje kotwiczące),

oraz pozycji unikalnych dla danego momentu pomiaru

odpowiednio łatwiejszych i trudniejszych.

W referacie omówiona zostanie metoda testowania

inwariancji dwukrotnego pomiaru w schemacie

badania podłużnego. Wykorzystano dane 5924 uczniów

ze 150 gimnazjów z całej Polski, zebrane w toku

badania podłużnego EWD w gimnazjach. W badaniu

wykonano dwa pomiary inteligencji uczniów (w

pierwszej i trzeciej klasie) za pomocą Testów Matryc

38

Ravena (TMR). W pierwszej klasie wykorzystano TMR

w wersji Standard. Okazał się on łatwy, dlatego w

trzeciej klasie uczniowie wypełnili 3 serie TMR w wersji

Standard oraz 24 pozycje serii II TMR w wersji dla

Zaawansowanych. Pozwoliło to uniknąć efektu

sufitowego oraz umożliwiło wyrażenie wyników na

wspólnej skali.

Przed oszacowaniem przyrostów inteligencji zbadano

inwariancję pomiaru zadań kotwiczących. Wyniki

analiz pokazały konieczność przyjęcia modelu z

częściową inwariancją, gdyż nie wszystkie pozycje

okazały się ekwiwalentne.

W referacie omówione zostaną ograniczenia

testowania inwariancji pomiaru w schemacie badania

podłużnego z wykorzystaniem testów z pulą zadań

kotwiczących. Przedyskutowane zostaną także

konsekwencje braku inwariancji niektórych pozycji dla

interpretacji wyników TMR z powtórzonych pomiarów.

Polska adaptacja Skali podatności na nudę. Ujęcie

wielowymiarowe

Maria Chełkowska, Maria Flakus, Aneta Kałmuk

(Uniwersytet Śląski)

Do najpowszechniej stosowanych narzędzi

psychometrycznych służących do pomiaru nudy należy

Skala podatności na nudę (The Boredom Proneness

Scale - BPS) autorstwa Farmera i Sundberga (1986). Na

chwilę obecną narzędzie to uznać należy za jedyne

badające nudę sensu stricto (Vodanovich 2003).

Badania prowadzone przy użyciu BPS wskazują, że

39

podatność na nudę jest konstruktem

wieloczynnikowym (Vodanovich 2003). W wielu

pracach odnaleźć można dowody na pięcioczynnikową

(Gordon i in., 1997; Vodanovich, Kass, 1990) , a nawet

ośmioczynnikową (Vodanovich, Watt, Piotrowski,

1997) strukturę podatności na nudę. Literatura

wskazuje także na możliwość istnienia rozwiązań

dwuczynnikowych (Ahmed, 1990; Gana, Akremi, 1998;

Vodanovich, Wallace, Kass, 2005). Autorki prezentują

wyniki badań, prowadzonych przy użyciu polskiej

adaptacji BPS, skoncentrowane na poszukiwaniu

struktury czynnikowej podatności na nudę w populacji

polskiej.

Implicit Relational Assessment Procedure – pomiar

postaw utajonych oparty na czasie reakcji

Irena Pilch, Lidia Baran, Magdalena Hyla (Uniwersytet

Śląski)

Rosnąca wiedza na temat nieświadomego odbierania

przez człowieka bodźców z otoczenia (Wróbel, 2001)

prowadzi do zwiększającego się zainteresowania

możliwościami pomiaru procesów poznawczych

przebiegających na poziomie utajonym. Jednym z

obszarów badań, należących do tej sfery są analizy

dotyczące postaw utajonych - introspekcyjnie

niezidentyfikowanych lub identyfikowanych nietrafnie

(Greenwald, Banaji, 1995), które wpływają na

zachowanie.

Dominującą metodą wykorzystywaną w Polsce do

pomiaru postaw utajonych jest Test Utajonych

40

Skojarzeń (Implicit Association Test, IAT; Greenwald,

McGhee, Schwartz, 1998), czyli komputerowa metoda

opierająca się na pomiarze czasu dopasowania

obiektów do konkretnych atrybutów określanego jako

siła skojarzenia. Alternatywną metodą umożliwiającą

pomiar procesów przebiegających na poziomie

nieświadomym, niestosowaną dotychczas w Polsce,

jest Implicit Relational Assessment Procedure (IRAP;

Barnes-Holmes i in., 2006), której podstawy

teoretyczne oparte są na Teorii Ram Relacyjnych

(Relational Frame Theory, RFT; Hayes, Barnes-Holmes,

Roche, 2001).

Celem prezentacji jest przedstawienie podstaw metody

IRAP, zaprezentowanie wyglądu ekranów testowych,

sposobu doboru wykorzystywanych w badaniu bodźców

oraz obliczania i interpretacji wyników. Prezentacja

umożliwi zapoznanie się z nową metodą pomiaru

postaw utajonych oraz pierwszymi doniesieniami z

badań przeprowadzonych z jej wykorzystaniem w

polskich warunkach kulturowych.

Metody skracania skal psychologicznych z

wykorzystaniem metod IRT

Przemysław Majkut, Gabriela Czarnek, Piotr Dragon

(Instytut Badań Edukacyjnych)

Teoria odpowiadania na pozycje testowe (Item

Response Theory, IRT) jest coraz częściej

wykorzystywana do konstrukcji skal psychologicznych.

W naszej prezentacji skupimy się jednak na

wykorzystaniu IRT do skracania już istniejących skal

41

psychologicznych na przykładzie Skali Potrzeby

Poznawczego Domknięcia (Need for Cognitive Closure,

NFC).

Skala NFC (Webster & Kruglanski, 1994; polska wersja

Kossowskiej, 2003) jest jedną z najpopularniejszych

miar zamkniętości umysłowej w psychologii

społecznej. Składają się na nią 32 pozycje testowe, w

których osoby badane proszone są o ustosunkowanie

się do podanych twierdzeń na 6-stopniowej skali

Likerta. W kilku opublikowanych badaniach, autorzy

używali wybranych pozycji testowych bez podawania

przyczyn takich zabiegów (np. Keller, 2005;

Kemmelmeier, 2010; Lynch, Neteme, Spiller i Zammit,

2010). Niedawno, polska wersja skali NFC doczekała się

skróconej wersji, której dokonano na podstawie

wyników konfirmacyjnej analizy czynnikowej

(Kossowska, Trejtowicz, & Hanusz, 2012). Celem

naszego badania było porównanie parametrów

skracania skal za pomocą konfirmacyjnej analizy

czynnikowej oraz metod IRT: jedno- oraz

wielowymiarowej.

Jedno- i wielowymiarowe podejście w badaniach etyki

pracy. Ocena Trafności Czynnikowej i Rzetelności

skali Protestanckiej Etyki Pracy Mirelsa i Garretta

Agata Chudzicka-Czupała, Damian Grabowski (Uniwersytet

Śląski)

Referat przedstawia wyniki badań nad podstawowymi

własnościami psychometrycznymi polskiej wersji Skali

Protestanckiej Etyki Pracy (SPEP) Herberta Mirelsa i

42

Jamesa Garreta, a dokładniej nad jej trafnością czynnikową

oraz rzetelnością. Twórcy skali przyjęli, że etyka pracy jest

jednym wymiarem. Tymczasem wyniki badań z jej

zastosowaniem wyraźnie pokazują, że jest to zmienna

wielowymiarowa, a SPEP jawi się jako skala obejmująca

cztery lub pięć wymiarów. Autorzy artykułu przedstawiają

rezultaty serii czynnikowych analiz konfirmacyjnych oraz

czynnikowej analizy eksploracyjnej, wykonanych na

danych pochodzących z badań 880 pracowników. Analizy

te potwierdziły wielowymiarowy charakter SPEP i

dowiodły, że struktura narzędzia jest czteroczynnikowa.

Cztery podskale otrzymane w ramach SPEP charakteryzują

się jednak słabą rzetelnością, wynikającą z

wieloznaczności niektórych stwierdzeń, co obniża wartość

wielowymiarowej wersji SPEP i nie pozwala jej stosować do

pomiaru wielu wymiarów etyki pracy.

Porównanie użyteczności Klasycznej Teorii Testów i

modelowania Item Response Theory w doskonaleniu

uniwersyteckiego testu wiadomości

Mateusz Blukacz, Aleksandra Tokarz (Uniwersytet

Jagielloński)

Celem referatu jest przedstawienie psychometrii w

kształceniu akademickim, nie jako przedmiotu

nauczania, ale narzędzia kontrolującego jego jakość.

Testy wiadomości są najpopularniejszą metodą

sprawdzenia wiedzy studentów na poziomie

kształcenia akademickiego, aby jednak mogły być

uważane za miarodajne, wymagają obiektywnej

ewaluacji. Dowodów ich wartości pomiarowej można

43

dostarczyć przeprowadzając analizę psychometryczną

w modelu Klasycznej Teorii Testów lub Item Response

Theory (IRT). Oba podejścia mają swoje mocne i słabe

strony, ale modelowanie IRT oferuje większe

możliwości analityczne, które znajdują specyficzne

zastosowanie w kompleksowej i pogłębionej ocenie

kształcenia. Ilustracją tych stwierdzeń jest analiza

wyników egzaminu (testu wiadomości) z przedmiotu

kanonicznego na I roku psychologii.

Problemy adaptacji kulturowej testów

przeznaczonych do badania uzależnienia od Internetu

Katarzyna Kaliszewska-Czeremska (Uniwersytet Adama

Mickiewicza)

Celem proponowanego referatu jest próba ukazania

trudności na jakie napotyka współczesny badacz

podejmujący się kulturowej adaptacji narzędzi

stosowanych w diagnozie dwóch zjawisk – uzależnienia

od Internetu oraz Internet Gaming Disorder.

Proponowany temat wydaje się o tyle interesujący, że

dotyka kilku ważnych i złożonych kwestii

psychometrycznych. Z jednej strony będą to problemy

związane stricte z procedurą kulturowej adaptacji

narzędzi wraz z jej prawidłowościami: w tym z

wyborem optymalnej strategii adaptacji, kontekstem

kulturowym w którym pracują narzędzia czy

normalizacją.

Z drugiej strony, obie omawiane grupy narzędzi

stosowane są głównie w Internecie, co stanowi

dodatkową zmienną istotną dla omawianego

zagadnienia. Wymaga bowiem wzięcia pod uwagę

44

osobliwości związanych z realizacją badań online, wraz

z całą złożonością tego procesu. W tej perspektywie

szczególnej uwagi wymaga m.in. kwestia protokołu

badań, czy doboru próby. Niemniej jednak problemami

szczególnie istotnym wydają się tu etyczne i prawne

aspekty prowadzonych badań. Nabierają one przy tym

nowego kolorytu, kiedy prace adaptacyjne – tak jak w

zespołach, w których miała okazję pracować autorka -

są prowadzone równolegle przez członków

międzynarodowego zespołu badawczego, a celem prac

jest dokonanie porównań o charakterze

międzykulturowym.

W trakcie wystąpienia poruszone zostaną wymienione

problemy teoretyczne oraz praktyczne, wraz z

ukazaniem realnych przykładów obrazujących

poruszane kwestie.