Analiza czynników głównych i inne metody eksploracji danych · M. Daszykowski, B. Walczak,...

M. Daszykowski, B. Walczak, Analiza czynników głównych i inne metody eksploracji danych, w D. Zuba, A. Parczewski, Chemometria w analityce, IES, Kraków, 2008

1

Analiza czynników głównych i inne metody eksploracji danych

M. Daszykowski i B. Walczak

Zakład Chemometrii, Instytut Chemii, Uniwersytet Śląski, ul. Szkolna 9, 40-006 Katowice http://www.chemometria.us.edu.pl

1. WPROWADZENIE

Proces badawczy jest zwykle procesem wieloetapowym. Składa się na niego

planowanie eksperymentu, pobranie próbek, analiza chemiczna, kontrola jakości

uzyskanych danych, ich chemometryczna analiza i interpretacja [1]. W niniejszym

rozdziale, skupimy się jedynie na analizie danych, omawiając, w sposób ogólny i

możliwie przystępny, niektóre techniki chemometryczne stosowane do eksploracji

wielowymiarowych danych chemicznych.

Obecnie, w wielu problemach analitycznych dane uzyskuje się jako rezultat analiz

szeregu próbek. Wyniki analiz można zorganizować w macierz danych, X, gdzie m

wierszy macierzy odpowiada m mierzonym próbkom, a n kolumn odpowiada n

mierzonym parametrom. Schematycznie, macierz danych przedstawiono na Rys. 1a.

W zależności od stosowanej techniki lub technik analitycznych do opisu badanej

próbki lub układu fizyko-chemicznego, wiersze macierzy danych mogą tworzyć

sygnały instrumentalne (np. widma UV-VIS zmierzone w określonym zakresie

spektralnym, chromatogramy, widma masowe, etc.) lub wektory, o elementach

reprezentujących wyniki n analiz (np. stężenia elementów śladowych w próbce,

stężenia wybranych kwasów tłuszczowych, etc.).


2

m

n

prób

ki

parametry n

macierz danych X[m,n]

X X* X~= +

dane analityczne prawdziwy sygnał analityczny błąd pomiarowy

m

n

a)

b)

Rys. 1 a) Graficzne przedstawienie macierzy danych o m wierszach (nazywanych obiektami lub

próbkami) i n kolumnach (nazywanych zmiennymi lub parametrami), b) poszczególne składowe

macierzy danych X: prawdziwy sygnał analityczny i błąd pomiarowy.

Każde dane analityczne obarczone są błędem pomiarowym, dlatego macierz danych

możemy przedstawić jako sumę dwóch komponentów, co pokazano na Rys. 1b.

Często zamiast słowa próbki używa się terminu obiekty, gdyż kolejne wiersze

macierzy mogą zawierać pomiary dla tej samej próbki w różnych odstępach czasu,

aby zaobserwować zachodzące w niej zmiany. Natomiast kolumny macierzy danych

nazywa się zmiennymi lub parametrami.

Rozważmy zbiór danych, który uzyskano oznaczając w 10 próbkach stężenia jonów

cynku i wapnia (zob. Rys. 2a). Macierz danych, X, ma wymiary 10×2.

Każda próbka, opisana n parametrami, to punkt w n wymiarowej przestrzeni

parametrów, a każdy parametr, to punkt w m wymiarowej przestrzeni próbek.

Podobieństwa pomiędzy poszczególnymi próbkami można analizować w przestrzeni

parametrów, a pomiędzy parametrami w przestrzeni próbek. Ponieważ, w przypadku

omawianych danych, każdą próbkę opisują jedynie dwa parametry, dlatego dane

możemy zwizualizować. Jednym ze sposobów jest przedstawienie próbek w

dwuwymiarowym układzie współrzędnych, którego osie tworzą dwa parametry, tj.


3

stężenie jonów cynku i wapnia, co pokazano na Rys. 2b. Dwie próbki są do siebie

podobne, jeśli na projekcji znajdują się blisko siebie. Innymi słowy oznacza to, iż

różnice pomiędzy odpowiednimi wartościami parametrów są małe.

W przypadku parametrów, które opisane są wynikami pomiarów dla 10 próbek,

możliwa jest jedynie prezentacja projekcji parametrów, na płaszczyznę, zdefiniowaną

dwoma obiektami. Taką przykładową projekcję parametrów na płaszczyznę

zdefiniowaną przez próbki 1 i 2 przedstawiono na Rys. 2c.

0 2 4 6 8 10 12 14 160

2

4

6

8

10

12

14

próbka 1

prób

ka 2

stężenie jonów cynku

stężenie jonów wapnia

4,7402 15,3603

3,8774 13,9617

4,3282 14,9011

4,1832 14,5799

4,6696 15,7262

4,5145 15,2296

4,1478 14,6528

3,6222 12,8837

4,5857 15,1654

4,1336 14,2203

1

2

3

4

5

6

7

8

9

10

1 2

3.4 3.6 3.8 4 4.2 4.4 4.6 4.8 512.5

13

13.5

14

14.5

15

15.5

16

stężenie jonów cynku

stęż

enie

jonó

w w

apni

a

1

2

3

4

5

6

7

8

9

10

a)b)

c)

parametry

prób

ki

macierz danych X[m,n]

Rys. 2 a) Macierz danych, X, zawierająca 10 próbek i 2 parametry (odpowiednio stężenia jonów cynku

i wapnia), b) projekcja próbek na płaszczyznę zdefiniowaną przez parametry 1 i 2 oraz c) projekcja

parametrów na płaszczyznę zdefiniowaną przez próbki 1 i 2.

Zazwyczaj, jako miarę podobieństwa między dwiema próbkami używa się odległość

euklidesową [ 2 ]. Odległość euklidesowa między dwiema próbkami, p i q, w

przestrzeni n parametrów, określa następujący wzór:

( )∑=

−=n

iii qpd

1

2),( qp (1)


4

Podobieństwa pomiędzy wszystkimi obiektami macierzy X można przedstawić za

pomocą macierzy odległości, D. Jest ona kwadratowa (o wymiarze m×m) i

symetryczna, ponieważ d(p,q) = d(q,p), a każdy jej element to odległość euklidesowa

obliczona pomiędzy i-tym, a j-tym obiektem macierzy X. Dla przedstawionych na

Rys. 2a danych, macierz odległości ma wymiary 10×10, a jej elementy przedstawiono

na Rys. 3.

0 1,6433 0,6169 0,9587 0,3726 0,2608 0,9227 2,7172 0,2487 1,2913

1,6433 0 1,0419 0,6896 1,9341 1,4189 0,7421 1,1077 1,3966 0,364

0,6169 1,0419 0 0,3524 0,8929 0,3776 0,3069 2,1373 0,3689 0,708

0,9587 0,6896 0,3524 0 1,2452 0,7292 0,081 1,7865 0,7105 0,363

0,3726 1,9341 0,8929 1,2452 0 0,5202 1,1935 3,0293 0,567 1,5984

0,2608 1,4189 0,3776 0,7292 0,5202 0 0,6834 2,5098 0,0958 1,0787

0,9227 0,7421 0,3069 0,081 1,1935 0,6834 0 1,8455 0,6741 0,4327

2,7172 1,1077 2,1373 1,7865 3,0293 2,5098 1,8455 0 2,4767 1,431

0,2487 1,3966 0,3689 0,7105 0,567 0,0958 0,6741 2,4767 0 1,0476

1,2913 0,364 0,708 0,363 1,5984 1,0787 0,4327 1,431 1,0476 0

indeks obiektu

inde

ks o

biek

tu

Rys. 3 Macierz odległości euklidesowych, D, obliczonych dla wszystkich par

próbek macierzy danych X z Rys. 2a.

Z analizy macierzy odległości wynika, iż próbki 4 i 7 są najbardziej do siebie podobne,

a najbardziej różne, są próbki 5 i 8 (zob. Rys. 2b i 3).

W równaniu 1, kluczową rolę odgrywają wkłady różnic pomiędzy poszczególnymi

parametrami. Jeśli parametry są mierzone w różnych jednostkach i/lub mają różne

zakresy zmienności wówczas badanie podobieństw pomiędzy próbkami na podstawie

odległości euklidesowej nie prowadzi do poprawnych wniosków.


5

Miarą zmienności parametru, mierzonego dla m badanych próbek, jest wariancja,

która również wyraża jego zawartość informacyjną:

( )( )

1var 1

2

−

−=∑=

m

xm

ii x

x (2)

Zmienne o wariancji bliskiej zeru nic nie wnoszą do opisu zróżnicowania danych i

dlatego takie zmienne można usunąć z danych. Wariancja jest wielkością addytywną.

Całkowitą wariancję danych wyrażamy jako sumę wariancji poszczególnych

zmiennych. Jednakże, wariancja nie jest wyrażona w tej samej jednostce, co dany

parametr, ze względu na obliczane kwadraty różnic pomiędzy elementami zmiennej, a

jej wartością średnią. Pierwiastek z wariancji, czyli odchylenie standardowe, ma tą

samą jednostkę co dana zmienna. W przypadku omawianych danych wariancje

parametrów wynoszą odpowiednio 0,1286 i 0,6786, a ich odchylenia standardowe

0,3586 i 0,8238.

W celu porównania dwóch parametrów, xk i xl, można użyć kowariancji, która

ilościowo określa ich liniową zależność [2]. Kowariancja dwóch parametrów

przyjmuje wartości z przedziału od -∞ do +∞. Dodatnie wartości kowariancji

świadczą o dodatniej ich zależności, a ujemne, o ujemnej:

( )( )( )

1,cov 1

−

−−=∑=

m

xx lil

m

ikik

lk

xxxx (3)

W przypadku parametrów macierzy danych X (zob. Rys. 2a) ich kowariancja jest

dodatnia i wynosi 0,2844. Wadą tej miary podobieństwa jest jej zależność od skali w

jakiej wyrażane są pomiary. Na przykład, podanie stężeń parametrów w ng⋅g-1

zamiast µg⋅g-1 zwiększa wartość obliczonej kowariancji o faktor 103. Z tego powodu,

w celu porównania dwóch parametrów zmierzonych w różnych jednostkach i/lub

różnej skali, stosuje się tzw. współczynnik korelacji Pearsona, gdyż pozwala on na

porównanie parametrów w różnych jednostkach i skalach. Usuniecie efektu różnych

jednostek i skal zmiennych uzyskuje się poprzez ich standardyzację. Operacja ta na


6

podzieleniu wszystkich elementów danej zmiennej przez jej odchylenie standardowe.

Po autoskalowaniu, odchylenie standardowe zmiennej i jej wariancja są jednostkowe.

( ) ( )( ) ( )lk

lklkr

xxxx

xxvarvar

,cov,

⋅= (4)

Współczynniki korelacji przyjmują wartości pomiędzy -1, a 1. Duża wartość

współczynnika korelacji świadczy o silnej dodatniej zależności parametrów. W

praktyce oznacza to, iż wraz ze wzrostem wartości jednego parametru obserwuje się

wzrost wartości drugiego. Jeśli współczynnik korelacji jest bliski -1 to parametry są

ujemnie skorelowane. Wartość współczynnika korelacji bliska zeru świadczy o

niezależności dwóch parametrów. Ich wzajemne podobieństwa możemy przedstawić

w postaci kwadratowej i symetrycznej macierzy kowariancji (cov(xk,xl) = cov(xl,xk))

lub macierzy współczynników korelacji (r(xk,xl) = r(xl,xk)), które mają wymiary n×n.

Na Rys. 4 przedstawiono macierz współczynników korelacji uzyskanych dla

parametrów macierzy danych z Rys. 2a. Ma ona wymiary 2×2. Elementy jej

przekątnej są równe jeden, gdyż pomiędzy dwiema tymi samymi zmiennymi istnieje

idealna korelacja. Wartość współczynnika korelacji i jego znak świadczą o silnej

zależności tych parametrów jak i dodatnim charakterze tej zależności.

1 0,9628

0,9628 1

indeks parametru

inde

ks p

aram

etru

Rys. 4 Macierz współczynników korelacji uzyskana dla parametrów macierzy X,

którą przedstawiono na Rys. 2a.


7

Na Rys. 5 schematycznie przedstawiono dodatnią i ujemną korelację oraz jej brak dla

dwóch symulowanych parametrów.

5.5 6 6.5 7 7.5 8 8.5 9 9.5 10

7

8

9

10

11

12

13

zmienna 1

zmie

nna

2

5.5 6 6.5 7 7.5 8 8.5 9 9.5 10

2

3

4

5

6

7

8

zmienna 1

zmie

nna

2

1.5 2 2.5 3 3.5 4 4.5 512.5

13

13.5

14

14.5

15

15.5

16

16.5

17

17.5

zmienna 1

zmie

nna

2

a)

b)

c)

Rys. 5 Projekcja 40 próbek na przestrzeń dwóch symulowanych parametrów, które są: a) skorelowane

dodatnio (r = 0,8309), b) skorelowane ujemnie (r = -0,8309) i c) praktycznie nieskorelowane

(r = 0,0705).

Zależność pomiędzy parametrami, które tworzą wielowymiarowe dane chemiczne jest

kluczową własnością i dzięki niej możliwa jest redukcja ich wymiarowości, a co za

tym idzie możliwa jest ich wizualizacja. Parametry, które są zależne da się zastąpić

kilkoma nowymi zmiennymi, które są liniowymi kombinacjami oryginalnych

parametrów, bez utraty istotnej chemicznie informacji. Zmienna, silnie skorelowana z

innymi, nie wnosi dodatkowej informacji o zróżnicowaniu danych, gdyż informacja,

jaką opisuje jest już zawarta w innych zmiennych. Ilość tych nowych zmiennych,

która wystarcza do opisu badanego układu lub zjawiska mówi o jego kompleksowości.

W przypadku dużej liczby parametrów bezpośrednia wizualizacja wielowymiarowych

danych jest niemożliwa. Do ich wizualizacji stosuje się różnego rodzaju techniki

eksploracji danych. Mają one na celu ułatwić odpowiedzi na takie pytania jak:


8

• Które próbki są do siebie podobne w przestrzeni mierzonych parametrów?

• Które z mierzonych parametrów zawierają podobną informację o badanych

próbkach (są zależne)?

• Które z parametrów mają największy wkład do obserwowanych podobieństw

(czy też różnic) pomiędzy próbkami?

• Jaka jest kompleksowość badanego układu lub zjawiska?

Ogólnie wyróżniamy dwie główne grupy technik eksploracji wielowymiarowych

danych:

• metody projekcji [3], wśród których analiza czynników głównych (z ang.

principal component analysis, PCA) [4] ma swoje szczególne miejsce, oraz

• metody grupowania danych [5,6].

W wielu metodach projekcyjnych, redukcja wymiarowości danych oparta jest o

konstrukcję nowych zmiennych, które są liniową kombinacją oryginalnych

zmiennych. Jedną z metod projekcyjnych jest metoda poszukiwania projekcji (z ang.

projection pursuit) [7]. To najbardziej uniwersalna metoda tego typu, ponieważ w

zależności od użytego do poszukiwania projekcji kryterium, pozwala otrzymać

rozwiązania innych technik projekcji [8,9,10]. W metodzie poszukiwania projekcji

konstruuje się w wielowymiarowej przestrzeni danych kierunki, które mają na celu

ujawnić „ciekawą” strukturę danych. W rzeczywistości, to czy dany kierunek i

odpowiadająca mu projekcja jest „ciekawa” określa tzw. indeks projekcji [11]. Wśród

wielu możliwych indeksów projekcji znajdziemy wariancję, czy indeksy takie jak

entropia [8] lub kurtoza [12,13], opisujące na ile rozkład projekcji różni się od

rozkładu normalnego. Projekcje o rozkładzie normalnym są uznawane za najmniej

interesujące. Zależnie od użytego indeksu projekcji, metoda poszukiwania projekcji

może prowadzić np. do konstrukcji czynników głównych (maksymalizacja wariancji

projekcji), stabilnych czynników głównych (maksymalizacja stabilnej skali projekcji

[14]) albo ukrytych zmiennych, które ujawniają grupy w danych (np. stosując jako

indeks projekcji kurtozę [10]). Na Rys. 6, dla symulowanych dwuwymiarowych

danych, zawierających dwie grupy obiektów (po 40 każda), przedstawiono dwa

„ciekawe” kierunki i odpowiadające im projekcje, skonstruowane na podstawie


9

indeksów wariancji oraz entropii. Jak widać na Rys. 6b-e wybór indeksu projekcji

pozwala na ujawnienie na projekcjach różnych aspektów struktury danych (np.

podgrup obiektów czy obiektów odległych). W przypadku maksymalizacji wariancji

projekcji, projekcja jest tak konstruowana, aby opisywała najlepiej wariancję danych.

-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.50

2

4

6

8

10

12

14

16

18

współrzędne obiektów na kierunku 2

ilość

obi

ektó

w

0 10 20 30 40 50 60 70 80-2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

indeks obiektu

wsp

ółrzęd

na o

biek

tu n

a ki

erun

ku 2

0 10 20 30 40 50 60 70 80-5

-4

-3

-2

-1

0

1

2

3

4

5

indeks obiektu

wsp

ółrzęd

na o

biek

tu n

a ki

erun

ku 1

-5 -4 -3 -2 -1 0 1 2 3 4 50

2

4

6

8

10

12

współrzędne obiektów na kierunku 1

ilość

obi

ektó

w

-2 -1.5 -1 -0.5 0 0.5 1 1.5

-4

-3

-2

-1

0

1

2

3

4

5

zmienna 1

zmie

nna

2

kierunek 1

kierunek 2

a)

b) c)

d) e)

Rys. 6 a) Dwa kierunki poprowadzone w dwuwymiarowej przestrzeni danych, b) histogram

współrzędnych obiektów uzyskanych po ich ortogonalnej projekcji na pierwszy kierunek [0,7071 0]

oraz c) współrzędne obiektów tej projekcji, d) histogram współrzędnych obiektów uzyskanych po ich

ortogonalnej projekcji na drugi kierunek [0 -0,7071] i e) wartości współrzędnych obiektów na tej

projekcji.

Dla rozważanych danych projekcja obiektów na pierwszy kierunek nie ujawnia grup

w danych, gdyż te nie są rozmieszczone wzdłuż osi o największej wariancji, a


10

histogram tejże projekcji ma rozkład zbliżony do rozkładu normalnego (zob. Rys. 6b i

c). Maksymalizując entropię projekcji, kładzie się nacisk na uchwycenie projekcji o

rozkładzie dalekim od normalnego. W tym przypadku histogram projekcji ma rozkład

bimodalny, co świadczy o obecności w danych dwóch grup (zob. Rys. 6d i e). Nie

wszystkie indeksy projekcji mogą prowadzić do ujawnienia na projekcjach grup, jak

np. dla projekcji danych prezentowanej na Rys. 6c.

2. ANALIZA CZYNNIKÓW GŁÓWNYCH

Analiza czynników głównych, jest szczególnym przypadkiem metody poszukiwania

projekcji, w której jako indeks projekcji używa się wariancję. PCA stosuje się

głównie do modelowania, kompresji i wizualizacji wielowymiarowych danych

[4,15,16,17]. Za pioniera PCA uważa się Pearsona. W 1901 roku opublikował on

pracę o prostych i płaszczyznach, które są najlepiej dopasowane do zbioru próbek w

przestrzeni pomiarowej [ 18 ]. Następnie, po 22 latach Fisher i MacKenzie [ 19 ]

zaproponowali pierwszy algorytm do PCA, znany obecnie jako algorytm NIPALS,

który ponownie odkrył Wold w 1966 roku [20]. Kolejne modyfikacje metody PCA

zawdzięczamy Hottelingowi [21].

Zadaniem PCA jest przedstawienie danych, X, o m obiektach i n zmiennych, jako

iloczyn dwóch nowych macierzy T (m×f) i P (n×f), gdzie f<<n, które zawierają

współrzędne obiektów i parametrów na kierunkach maksymalizujących opis wariancji

danych. O liczbie kolumn macierzy T i P, czyli o kompleksowości modelu PCA,

decyduje rząd chemiczny macierzy X, który jest co najwyżej równy jej rzędowi

matematycznemu, o czym szerzej napiszemy w dalszej części rozdziału. Model PCA

można wyrazić następująco:

],[T

],[],[],[ nmnffmnm EPTX += (5)

gdzie E to macierz reszt od modelu PCA z f czynnikami głównymi.

Kolumny macierzy T i P zawierają współrzędne obiektów i parametrów na nowych

ukrytych zmiennych, nazywanych czynnikami głównymi. Czynniki główne są


11

konstruowane iteracyjnie tak, aby maksymalizować opis wariancji danych. Każdy

kolejny czynnik główny opisuje niewyjaśnioną przez poprzednie czynniki wariancję

danych i dlatego jego wkład do opisu całkowitej wariancji danych jest mniejszy.

Kolumny T są ortogonalne, a kolumny P ortonormalane - czyli mają jednostkową

długość i są ortogonalne. Biorąc pod uwagę wspomniane ograniczenia dotyczące

konstrukcji czynników głównych równanie 5 ma rozwiązanie.

Z każdym czynnikiem głównym jest stowarzyszona, tzw. wartość własna, vi. Oblicza

się ją jako sumę kwadratów wartości wyników dla danego czynnika głównego.

Wartości własne określają ilościowo wariancję danych opisaną przez kolejne czynniki.

Procent całkowitej wariancji danych, I, jaką opisuje f kolejnych czynników głównych

można obliczyć jako:

100I

1 1

2

1 ⋅=

∑∑

∑

= =

=m

i

n

jij

f

ii

x

v (6)

gdzie, xij to poszczególne elementy centrowanej macierzy X.

Schematycznie, model PCA przedstawiono na Rys. 7.

Dane wyjścioweX[m,n]

m

n

= + + ,,, + +

t1 t2 tf

p1 p2 pf

Macierz resztE[m,n]

m

n

m

n

m

n

m

n


m

n

= + + ,,, + +

Macierz resztE[m,n]

m

X[m,n](1) X[m,n](2) X[m,n](f)

dane wyjściowe zrekonstruowane z 1, 2, …, f czynnikami głównymi

Rys. 7 Model PCA o f czynnikach głównych.


12

Model PCA ma stosunkowo prostą interpretację graficzną. Na Rys. 8a przedstawiono

symulowany dwuwymiarowy zbiór danych, który zawiera sześć obiektów,

oznaczonych jako ( ). Naszym zadaniem będzie skonstruowanie dwóch czynników

głównych, mając na uwadze, że powinny one jak najlepiej opisać wariancję danych.

Na Rys. 8a przedstawiono kierunek i odpowiadającą mu jednowymiarową projekcję,

która maksymalizuje opis wariancji danych.

-1 -0.5 0 0.5 1 1.5-1

-0.5

0

0.5

1

zmienna 1

zmie

nna

2

+ +

+

+

+

+

PC 1

a)

-1 -0.5 0 0.5 1 1.5-1

-0.5

0

0.5

1

zmienna 1

zmie

nna

2

+

+

+

+ +

PC 1 PC 2

+

b)

Rys. 8 Projekcje obiektów ( ) na płaszczyzny zdefiniowane przez zmienne 1 i 2: a) kierunek, który

maksymalizuje wariancję projekcji i projekcja (PC 1) z zaznaczonymi wartościami wyników (+), oraz

b) pierwsze dwa kierunki i projekcja obiektów (PC 2) na drugi kierunek z zaznaczonymi wartościami

wyników (+) (PC 2 opisuje część informacji, jakiej nie modeluje pierwszy czynnik główny).

Jeśli poprzestaniemy na modelu PCA tylko z jednym czynnikiem głównym, wówczas

odległości prowadzone od każdego punktu ( ) prostopadle do PC 1, jak pokazano na

Rys. 8a, będą odpowiadały resztom od modelu. Biorąc pod uwagę tylko pierwszą

projekcję, wymiarowość danych zostanie zredukowana z dwóch wymiarów do

jednego. Aby opisać pozostałą część wariancji danych, drugi kierunek musi być

prostopadły do pierwszego (zob. Rys. 8b). Jeśli dane mają więcej niż dwa wymiary,

wówczas następne kierunki są prostopadłe do tych już wytyczonych.

Czynniki główne tworzą nowy układ współrzędnych, w którym odległości

euklidesowe pomiędzy obiektami są zachowane (tzn. są równe odległościom w


13

przestrzeni oryginalnych zmiennych). Każdy obiekt ma współrzędne określone przez

odpowiednie wyniki, [ti1, ti2, ..., tif].

Do konstrukcji czynników głównych można stosować różne algorytmy [22], a wśród

nich są takie jak np. NIPALS, SVD, EVD, [23]. Na szczególną uwagę zasługują

szybkie algorytmy PCA, w których czynniki główne powstają poprzez dekompozycję

kwadratowej macierzy XXT albo XTX [24]. Kwadratowa macierz tworzona jest tak,

aby jej wymiar był najmniejszy, co zapewnia szybką konstrukcję czynników

głównych. Macierz XTX dla danych centrowanych nazywana jest macierzą wariancji-

kowariancji [ 25 ]. Elementy diagonali tej macierzy to wariancje poszczególnych

parametrów, a pozostałe elementy wyrażają ich kowariancje. Jeśli dane poddano

autoskalowaniu, wówczas macierz XTX jest macierzą korelacji, a jej elementy to

współczynniki korelacji Pearsona [2].

2.1 Wstępne przygotowanie danych do dalszej analizy

Wstępne przygotowanie danych ma na celu (i) podnieść ich jakość oraz (ii) poprawić

interpretację danych. Istnieje wiele metod wstępnego przygotowania danych [23].

Metody przygotowania danych do dalszej analizy możemy podzielić na trzy grupy.

Pierwsza z nich obejmuje metody stosowane do indywidualnych obiektów macierzy

danych, np. sygnałów instrumentalnych (metody eliminacji szumu i linii bazowej,

różnego rodzaju procedury normalizacyjne, pochodne, itp.).

Do drugiej grupy metod zaliczamy techniki, których zadaniem jest modyfikacja

indywidualnych zmiennych (metody centrowania i/lub skalowania indywidualnych

zmiennych, np. standardyzacja, autoskalowanie i transformacja logarytmiczna), a

także metody eliminacji zmiennych, które mogą być uznawane jako skrajny wariant

modyfikacji zbioru zmiennych [26,27]).

Trzecia grupa metod to metody stosowane do nakładania sygnałów instrumentalnych.

Poniżej przedstawiono najczęściej stosowane metody wstępnego przygotowania

danych.


14

2.1.1 Centrowanie i skalowanie danych

Najczęściej stosowaną transformacją danych jest centrowanie. Ma ona na celu usunąć

z danych stałe elementy, które nic nie wnoszą do wiedzy o zróżnicowaniu danych.

Centrowanie polega na odjęciu od każdego elementu kolumny odpowiedniej wartości

średniej.

Kolejną możliwą operacją jest autoskalowanie. Stosuje się je, gdy parametry

zmierzono w różnych jednostkach i/lub ich zakresy zmienności znacznie się różnią.

Autoskalowanie polega na centrowaniu kolumn danych, a następnie podzieleniu

każdego elementu określonej kolumny przez jej odchylenie standardowe. Wynikiem

takiej operacji jest nadanie każdej zmiennej jednostkowej wariancji, a więc tej samej

wagi w późniejszej analizie. Na Rys. 9 przedstawiono średnie i odchylenia

standardowe zmiennych przed i po autoskalowaniu dla symulowanych danych

zawierających sto próbek i dwadzieścia parametrów.

0 2 4 6 8 10 12 14 16 18 20-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

indeks parametru

śred

nia

0 2 4 6 8 10 12 14 16 18 200

10

20

30

40

50

60

70

80

90

100

indeks parametru

śred

nia

a)

b)

0 2 4 6 8 10 12 14 16 18 200

1

2

3

4

5

6

7

8

9

10

11

indeks parametru

odch

ylen

ie s

tand

ardo

we

c)

0 2 4 6 8 10 12 14 16 18 200

0.2

0.4

0.6

0.8

1

indeks parametru

odch

ylen

ie s

tand

ardo

we

d)

Rys. 9 Wartości średnie dwudziestu parametrów symulowanych danych a) przed i b) po operacji

autoskalowania oraz odpowiadające im odchylenia standardowe c) przed i b) po autoskalowaniu.


15

Podkreślmy jeszcze raz, iż PCA prowadzona dla autoskalowanych parametrów

oznacza, iż czynniki główne otrzymuje się w oparciu o macierz korelacji. Typowym

przykładem danych, jakie zazwyczaj wymagają takiego właśnie przygotowania, są

dane środowiskowe, gdyż tworzą je parametry fizyko-chemiczne mierzone w różnych

jednostkach i zakresach. W literaturze, autoskalowanie nazywane jest także z-

transformacją lub skalowaniem zmiennych do jednostkowej wariancji [23].

W przypadku danych, w których wyróżnia się bloki zmiennych, np. blok widm

Ramana i blok widm UV-VIS, skalowaniu można poddać indywidualne bloki

zmiennych tak, by wariancja każdego z nich była równa jedności [4,28].

Dla uzyskania bardziej symetrycznych rozkładów zmiennych, przypominających

rozkład normalny, często stosuje się transformację logarytmiczną. Zazwyczaj, takiej

transformacji wymagają dane zawierające informacje o elementach śladowych i

niejednokrotnie dane środowiskowe [4].

2.1.2 Normalizacja sygnałów

Normalizacja indywidualnych sygnałów macierzy danych ma na celu usunięcie efektu

związanego z różną ilością próbki użytej w eksperymencie (np. w chromatografii -

różna objętość wprowadzonej na kolumnę próbki). Normalizacja polega na

podzieleniu każdego elementu wiersza macierzy przez jego długość (tj. pierwiastek

sumy kwadratów wszystkich elementów danego wiersza macierzy). W wyniku

normalizacji długość każdego wektora jest jednostkowa.

Innym typem normalizacji jest transformacja SNV (z ang. standard normal variate)

[29], często stosowana np. do korekcji widm z bliskiej podczerwieni. Jej celem jest

transformacja poszczególnych sygnałów tak, aby ich wariancja była jednostkowa. W

tym celu wiersze macierzy centruje się odpowiadającymi im wartościami średnimi, a

następnie dzieli się przez ich odchylenia standardowe. Na Rys. 10 przedstawiono

zbiór widm z bliskiej podczerwieni przed i po transformacji SNV.


16

1200 1400 1600 1800 2000 2200 2400

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

1.2

długość fali [nm]

abso

rban

cja

1200 1400 1600 1800 2000 2200 2400

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

długość fali [mn]

SN

V-tr

ansf

orm

owan

a ab

sorb

ancj

a

a) b)

Rys. 10 Zbiór stu widm z bliskiej podczerwieni próbek zboża a) przed i b) po transformacji SNV.

Wybór odpowiedniej metody wstępnego przygotowania danych nie jest oczywisty i

wywiera wpływ na konstrukcję czynników głównych oraz na ich późniejszą

interpretację, co zademonstrowano w paragrafie 4.3.

2.2 Efektywność kompresji danych

Zastanówmy się teraz, kiedy kompresja danych do kilku czynników głównych będzie

skuteczna. Zgodnie z regułami algebry liniowej, dla macierzy X można skonstruować

fmax czynników głównych, gdzie fmax to matematyczny rząd macierzy danych. Rząd

macierzy to maksymalna liczba wektorów bazowych, które wystarczają w zupełności

do jej opisu [30]. Rząd macierzy może być równy, co najwyżej, minimum z jej dwóch

wymiarów, min(n,m). Tak więc, w zależności od wymiarowości danych, macierz

danych może mieć maksymalny rząd równy liczbie obiektów lub zmiennych. Dla

centrowanej macierzy danych, gdzie m<n, jej maksymalny rząd wynosi m-1, a dla

centrowanej macierzy o większej liczbie wierszy niż kolumn, jej maksymalny rząd

wynosi n [23].

W praktyce, faktyczny rząd macierzy, nazwijmy go rzędem chemicznym, jest często

dużo mniejszy niż jej rząd matematyczny. Spowodowane jest to tym, iż wszystkie

dane pomiarowe obarczone są błędem eksperymentalnym, a zatem tylko kilka

pierwszych czynników głównych, o dużych wartościach własnych modeluje dane, a


17

pozostałe modelują jedynie błąd eksperymentalny. Kompresja danych do kilku

czynników głównych jest tym skuteczniejsza im więcej jest w danych silnie

skorelowanych zmiennych.

2.3 Wybór kompleksowości modelu PCA

W zależności od zastosowań PCA, wybór liczby czynników głównych do modelu

PCA może mieć różne znaczenie. W przypadku użycia PCA do eksploracji danych,

zazwyczaj skupiamy się na interpretacji projekcji obiektów i zmiennych na kilka

pierwszych czynników głównych, gdyż właśnie one modelują przeważającą wariancję

danych. Wówczas ustalenie liczby czynników głównych nie jest krytyczne.

Inaczej jest, gdy metoda PCA jest użyta do kompresji danych, a macierz wyników ma

zastąpić oryginalne dane. Wtedy, do modelu PCA należy wybrać optymalną liczbę

czynników głównych. Wybór optymalnej liczby czynników do modelu PCA jest

bardzo ważny, gdyż pozwala na eliminację części błędu eksperymentalnego z danych,

a jednocześnie zapewnia, że nie nastąpi utrata istotnej chemicznie informacji. Istnieje

wiele sposobów ułatwiających wybór optymalnej liczby czynników głównych, np.

analiza wartości własnych lub wariancji, jaką opisują kolejne czynniki główne. Inne

metody bazują na różnych indeksach, np. indeksie Malinowskiego [30] lub [31,32].

Kolejnym sposobem jest metoda kroswalidacji, zwana także walidacją krzyżową. Ma

ona wiele wariantów, a wyczerpujący przegląd technik kroswalidacji czytelnik

znajdzie w [33]. Najpopularniejszym typem kroswalidacji jest kroswalidacja typu

„wyrzuć jeden obiekt”. W metodzie tej konstruuje się m modeli PCA o rosnącej

liczbie czynników głównych. Modele te budowane są dla podzbiorów danych

powstałych poprzez usuwanie z wyjściowych danych kolejno każdego obiektu.

Usunięty obiekt to tzw. obiekt testowy i służy on do oceny mocy predykcyjnej modeli

PCA o różnej liczbie czynników głównych na podstawie reszt od modelu dla tego

obiektu. Reszty oblicza się jako różnice pomiędzy wartościami parametrów dla i-tego

obiektu, a wartościami zrekonstruowanymi stosując model o f czynnikach głównych,

gdzie f = 1, 2, ..., fmax:

],[],1[],1[ fnnf Pxt = (8)

( ) T],[],1[],1[],1[ nffnn f Ptxe −= (9)


18

Dla każdego obiektu testowego, sumuje się uzyskane kwadraty reszt uzyskane od

modeli z 1, 2,..., fmax czynnikami głównymi (zob. równanie 9), otrzymując wektor

kwadratów reszt, o wymiarze (1×fmax). Następnie, te wektory zestawia się macierz

CVE. Po zakończeniu procedury kroswalidacji „wyrzuć jeden obiekt”, macierz CVE ma

wymiary (m×fmax). Na jej podstawie oblicza się średni błąd kwadratowy kroswalidacji,

RMSECV, zgodnie z wzorem:

( )∑=

⋅=m

iije

m 1CV

1RMSECV (10)

Idee procedury kroswalidacji typu „wyrzuć jeden obiekt” obrazuje Schemat 1. Z

teoretycznego punktu widzenia, optymalna liczba czynników głównych w modelu

PCA zapewnia możliwie najmniejszy błąd przewidywania modelu.

m-1

Konstrukcja modeli PCA o coraz większej liczbie czynników głównych Obliczenie kwadratów reszt

od modelu dla i-tego obiektu w oparciu o modele z różną liczbą czynników głównych (1, 2, ..., f)

CVEm

f

∑=

⋅m

im 1

1

Usuwanie w kolejnych krokach i-tego obiektu z macierzy

RMSECVObliczenie średniego błędu kwadratowego kroswalidacji na podstawie kwadratów reszt od modeli PCA dla każdego i-tego obiektu

n

=

m-1

Konstrukcja modeli PCA o coraz większej liczbie czynników głównych Obliczenie kwadratów reszt

od modelu dla i-tego obiektu w oparciu o modele z różną liczbą czynników głównych (1, 2, ..., f)

CVEm

f

∑=

⋅m

im 1

1

Usuwanie w kolejnych krokach i-tego obiektu z macierzy

RMSECVObliczenie średniego błędu kwadratowego kroswalidacji na podstawie kwadratów reszt od modeli PCA dla każdego i-tego obiektu

n

=

Schemat 1. Przedstawienie idei kroswalidacji typu „wyrzuć jeden obiekt”.

Dla dużej liczby czynników głównych model dobrze rekonstruuje dane, ale jego

przewidywanie dla nowych próbek jest złe. Stąd wykres wartości RMSECV od liczby


19

czynników powinien charakteryzować się minimum, które wskazuje optymalną

kompleksowość modelu PCA. W praktyce, ze względu na szum w danych, wykresy

RMSECV nie zawsze mają wyraźne minimum, a przez to wybór optymalnej liczby

czynników nie jest oczywisty.

Najczęściej spotykane typy krzywych RMSECV zaprezentowano na Rys. 11. Jedynie

krzywa oznaczona jako (− −) pozwala pewnie stwierdzić, iż model PCA powinien

zawierać cztery czynniki główne.

0 1 2 3 4 5 6 7 8 9 100

1

2

3

4

5

6

7

8

9

10

11

liczba czynników głównych

RM

SE

CV

Rys. 11 Przykładowe krzywe błędu kroswalidacji (RMSECV) w zależności od liczby

czynników głównych w modelu PCA - z wyraźnym minimum (− −) i bez (− −).

W porównaniu z krzywą (− −), na podstawie krzywej (− −) wybór optymalnej

liczby czynników do modelu jest znacznie trudniejszy. Analizując zmiany kolejnych

wartości RMSECV dla modeli z f i f+1 czynnikami można stwierdzić, że model PCA

najprawdopodobniej powinien mieć cztery lub pięć czynników głównych. W

trudniejszych przypadkach należy się posiłkować innymi niż kroswalidacja metodami

wyboru czynników głównych [30].


20

3. RÓŻNE ZASTOSOWANIA METODY PCA I JEJ MODYFIKACJE

W literaturze można zaleźć szereg atrakcyjnych zastosowań PCA. Najczęściej metoda

ta jest wykorzystywana jako technika wizualizacji danych. Obecnie, rutynowa analiza

wielowymiarowych danych zakłada ich wstępną eksplorację, co zazwyczaj skutecznie

umożliwia metoda PCA.

Oprócz typowych zastosowań eksploracyjnych, PCA używa się także do kompresji

danych, zastępując oryginalne zmienne kilkoma czynnikami głównymi, które opisują

przeważającą część wariancji danych. Stąd PCA jest również traktowana jako etap

wstępnego przygotowania danych do dalszej analizy, a zabieg kompresji danych ma

na celu przyspieszenie lub uproszczenie kolejnych obliczeń. Przykłady takiego użycia

PCA znajdujemy w modelowaniu danych sieciami neuronowymi [ 34 ], podczas

grupowania danych [35], konstrukcji stabilnych czynników głównych [15] czy też w

niektórych metodach regresji, np. [36,37]. Istnieją także metody, które wymagają

nieskorelowanych zmiennych. Prostym sposobem na pozbycie się skorelowanych

zmiennych jest zastąpienie ich czynnikami głównymi. Ma to miejsce, np. w

przypadku obliczania odległości Mahalanobisa [38], regresji czynników głównych

[36,37] oraz w technice minimalnego wyznacznika kowariancji [15].

Odpowiednie stosowanie metody PCA pozwala również na badanie czystości

mieszanin, np. poprzez analizę sygnałów instrumentalnych otrzymanych sprzężonymi

technikami chromatograficznymi [39].

3.1. Eksploracja danych zawierających obiekty odległe i/lub brakujące elementy

PCA jest bardzo ogólną techniką modelowania danych. Jednakże, w niektórych

przypadkach wymaga ona pewnych modyfikacji. Ma to miejsce w szczególności, gdy

obiektem analizy są dane z obiektami odległymi (czyli z próbkami bardzo różniącymi

się od pozostałych) i/lub brakującymi elementami.

Poniżej omówiono stabilną metodę PCA, która pozwala na analizę danych z

obiektami odległymi oraz modyfikację metody PCA stosowaną do analizy danych z

brakującymi elementami.


21

3.1.1 Stabilny wariant PCA

Jak już wspomniano, zadaniem PCA jest maksymalizować opis wariancji danych.

Zatem, poszukuje się takich kierunków, aby projekcja obiektów na te kierunki

charakteryzowała się maksymalną wariancją. W związku z tym, obiekty odległe

wpływają na konstruowane czynniki główne, a model PCA opisuje głównie te obiekty

[40,41].

Do tej pory w literaturze zaproponowano wiele algorytmów do konstrukcji tak

zwanych stabilnych czynników głównych, na których konstrukcję nie wpływają

obiekty odległe [42,43,44,45]. W tym rozdziale przedstawimy metodę Crouxa i Ruiz-

Gazena [14], ze względu na jej dużą prostotę w porównaniu z innymi stabilnymi

wariantami PCA. W metodzie Crouxa i Ruiz-Gazena zamiast maksymalizować

wariancję projekcji, szuka się projekcji o największej wartości stabilnego estymatora

skali, tzw. estymatora Qn [46]. Każdy stabilny estymator ma za zadanie poprawnie

estymować określoną własność (np. średnią czy odchylenie standardowe) nawet, jeśli

w danych występują obiekty odległe. Koncepcje stabilnych estymatorów oraz

stabilnych metod zostały omówione w [47,48,49].

Kolejne kroki tworzenia stabilnych czynników głównych w oparciu o algorytm

Crouxa i Ruiz-Gazena można przedstawić następująco:

1. centrowanie danych stosując stabilny estymator średniej (medianę lub

L1-medianę [50]),

2. konstrukcja m kierunków, będących znormalizowanymi wierszami

macierzy danych,

3. projekcja m obiektów na m kierunków,

4. znalezienie takiego kierunku, dla którego projekcja obiektów na ten

kierunek osiąga największą wartość stabilnego estymatora skali Qn,

5. usunięcie z macierzy danych informacji opisanej przez i-ty stabilny czynnik

główny,

6. powrót do kroku 2, jeśli konieczna jest konstrukcja dodatkowych stabilnych

czynników głównych.

Ponieważ stabilny model PCA nie jest zaburzony obiektami odległymi, dlatego

umożliwia on ich diagnostykę. Przeprowadza się ją zazwyczaj w oparciu o reszty od


22

stabilnego modelu PCA i odległości Mahalanobisa obliczone w przestrzeni f

stabilnych czynników głównych [44]. Odległość Mahalanobisa [38] dla danych

uprzednio centrowanych wyraża odległość i-tego obiektu od środka danych w

przestrzeni stabilnego modelu:

( )∑=

=f

jjiji vtd

1

2/ (11)

gdzie, ti to stabilne wartości f wyników dla i-tego obiektu, a vj to stabilne wartości

własne j-tego czynnika głównego.

Aby ułatwić diagnostykę obiektów odległych, zarówno wektor reszt od stabilnego

modelu (pierwiastek sumy kwadratów reszt obliczonych zgodnie z równaniem 9) jak i

wektor odległości Mahalanobisa każdego obiektu poddaje się z-transformacji.

Z-transformowane elementy wektora to absolutne wartości różnic pomiędzy każdym

elementem wektora (reszt i odległości Mahalanobisa), a jego medianą, podzielone

następnie przez odchylenie standardowe wektora, oszacowane stabilnym estymatorem

skali, np. estymatorem Qn [49]:

( )( )d

dQn

medddZ i

i

−= (12)

gdzie, dZi to z-transformowana wartość i-tej wartości wektora reszt lub odległości

Mahalanobisa, ‘med(d)’ oznacza medianę wektora d, a ‘Qn(d)’ to estymowana

wartość odchylenia standardowego wektora d stosując stabilny estymator skali Qn.

Taki zabieg pozwala na łatwe wyznaczenie wartości progowych dla z-

transformowanych reszt i odległości Mahalanobisa, zakładając, że ich rozkład jest

normalny. Wtedy, dla 99,9% obiektów wartości z-transformowanych reszt i

odległości Mahalanobisa będą poniżej wartości progowej równej trzy. Ze względu na

wartości z-transformowanych reszt i odległości Mahalanobisa każdy obiekt można

przypisać do jednej z czterech kategorii (zob. Rys. 12).


23

* **** ***

*

*

* *

* *

*

*

*

*

*

odległość Mahalanobisa

resz

ty o

d m

odel

u

2 4

31

Rys. 12 Diagram reszt od stabilnego modelu PCA i odległości Mahalanobisa,

obliczonych w przestrzeni f stabilnych czynników głównych.

Mianowicie, wyróżniamy obiekty:

1. regularne, czyli te o małych wartościach reszt od stabilnego modelu i małych

odległościach Mahalanobisa,

2. o dużych resztach od modelu, przekraczających wartość progową,

3. o wartościach odległości Mahalanobisa powyżej wartości progowej, oraz

4. obiekty o wartościach reszt od modelu i odległości Mahalanobisa większych

od wartości progowych.

Obiekty czwartej kategorii mają największy wpływ na konstrukcję czynników

głównych.

3.1.2 PCA dla danych z brakującymi elementami

Metoda PCA do analizy danych z brakującymi elementami, EM-PCA, bazuje na

procedurze maksymalizacji wartości oczekiwanych (z ang. expectation-maximization

principal component analysis). Na początku, brakujące elementy zastępuje się

wartościami oczekiwanymi (średnimi ze średnich wartości kolumn i wierszy macierzy


24

danych). Następnie, iteracyjnie estymuje się brakujące elementy stosując model PCA

z f czynnikami głównymi. Brakujące elementy estymuje się do momentu, gdy suma

kwadratów różnic pomiędzy estymowanymi wartościami brakujących elementów w

dwóch kolejnych iteracjach jest znikomo mała [51]. Kryterium zbieżności, S, w

metodzie EM-PCA wyraża się jako:

∑∑ −= +

i j

kij

kij ee 21 )(S (13)

gdzie, S to suma kwadratów różnic reszt pomiędzy estymowanymi elementami

macierzy o indeksach ij, których nie było w wyjściowej macierzy danych, uzyskane w

k-tej ( kije ) i k+1 iteracji ( 1+k

ije ).

Estymacja brakujących elementów jest skuteczna, jeśli w danych istnieje stosunkowo

dobra struktura korelacyjna, a brakujące elementy są estymowane tak, aby nie

zaburzać końcowego modelu PCA.

Kolejne kroki algorytmu EM-PCA, w którym brakujące elementy estymowane są

stosując model z f czynnikami głównymi, można przedstawić następująco (zob.

Schemat 2):

1. ustalenie wartości progowej kryterium zbieżności (np. S = 10-4) i wstępne

podstawienie brakujących elementów macierzy danych ich wartościami

oczekiwanymi (tzn. średnimi ze średnich wartości kolumn i średnich wartości

wierszy macierzy),

2. przygotowanie danych (np. centrowanie lub autoskalowanie dla

obserwowanych elementów),

3. dekompozycja macierzy danych do f czynników głównych,

4. rekonstrukcja danych stosując model PCA o f czynnikach głównych,

5. podstawienie brakujących elementów w macierzy danych estymowanymi

wartościami w kroku 4 algorytmu,

6. sprawdzenie kryterium zbieżności algorytmu (równanie 13), a jeśli to

konieczne powrót do kroku 2.


25

Optymalną liczbę czynników w modelu EM-PCA ustala się stosując np.

kroswalidację.


],[T

],[],[],[ nmnffmnm EPTX +=Wstępne podstawienie brakujących elementów

Konstrukcja modelu PCA z f czynnikami głównymi

Podstawienie brakujących elementów wartościami przewidzianymi na podstawie modelu PCAo f czynnikach głównych

Konstrukcja nowego modelu PCA z f czynnikami głównymi

Dane z podstawionymi brakującymi elementami

Konwergencja?

TAK

m

n

NIE

Schemat 2. Główne kroki iteracyjnej procedury EM-PCA.

4. KONSTRUKCJA MODELI PCA

Do tej pory, zwróciliśmy uwagę na kilka ważnych własności PCA, a mianowicie:

1. PCA jest modelem, który aproksymuje dane. Jakość aproksymacji zależy od ilości

czynników głównych użytych do konstrukcji modelu. Uwzględnienie optymalnej

liczby czynników głównych w modelu pozwala na częściową eliminację szumu z

danych eksperymentalnych,

2. czynniki główne są nowymi ortogonalnymi zmiennymi (wyrażane są jako liniowa

kombinacja oryginalnych zmiennych) i maksymalizują opis wariancji danych,

3. czynniki główne tworzą nowy układ współrzędnych [52],


26

4. stosując metodę PCA, macierz danych jest przedstawiana jako iloczyn dwóch

nowych macierzy, macierzy wyników, T, i wag, P. Zawierają one odpowiednio

informacje o obiektach i zmiennych eksperymentalnych,

5. na konstrukcję czynników głównych istotny wpływ wywierają obiekty odległe.

W tej części rozdziału skupimy się na zilustrowaniu w/w własności PCA oraz

zaprezentujemy niektóre zastosowania PCA do analizy eksperymentalnych danych.

4.1 Opis danych eksperymentalnych, jakich użyto do dyskusji

Praktyczne zalety metody PCA zademonstrujemy w oparciu o cztery zestawy danych,

których wybór był podyktowany ich ogólną dostępnością.

Dane 1 tworzy 100 widm próbek zboża, które zarejestrowano stosując technikę

spektroskopii w bliskiej podczerwieni (NIR) [53]. Widma odbiciowe zmierzono w

zakresie spektralnym 1100 - 2500 nm, co 2 nm. Dane są dostępne z [54].

Dane 2 to wyniki analiz 178 próbek włoskich win takich jak Barolo (59 próbek),

Grignolino (71 próbek) i Barbera (48 próbek). Dla każdej próbki oznaczono

trzynaście parametrów (1- zawartość alkoholu, 2- zawartość kwasu jabłkowego, 3-

ilość popiołu, 4- zasadowość popiołu, 5- zawartość magnezu, 6- całkowita zawartość

fenoli,

7- zawartość flawonoidów, 8- zawartość nieflawonoidowych fenoli, 9- zawartość

związków proantycyjaninowych, 10- intensywność koloru próbek, 11- barwa próbek,

12- stosunek transmitancji mierzonych dla rozcieńczonych próbek win przy 280 i 315

nm i 13- zawartość proliny) [55]. Dane można pobrać z [56].

Dane 3 dane zawierają wyniki analiz 124 próbek opium, które zebrano w trzech

prowincjach Indii (Madhya Pradesh, Uttar Pradesh i Rajasthan) [57]. W każdej próbce,

za pomocą chromatografii cieczowej, oznaczono zawartości piętnastu aminokwasów

takich jak cysteina, asparteina, treonina, seryna, kwas glutaminowy, glutamina,

alanina, walina, izoleucyna, leucyna, tyrozyna, fenyloalanina, histydyna, lizyna i

arginina. Dane, jak i dokładny opis procedury analitycznej znajduje się w [57].


27

Dane 4 zawierają profile stężeniowe ośmiu kwasów tłuszczowych 572 próbek oliwy

z oliwek [58]. Oliwki zebrano w dziewięciu regionach uprawnych Włoch (Kalabrii,

południowej Apulii, lądowej części Sardynii, nadmorskiej części Sardynii, wschodniej

Ligurii, zachodniej Ligurii i Umbrii). Zawartości poszczególnych kwasów

tłuszczowych (1- kwas palmitynowy, 2- kwas 3- oleopalmitynowy, 4- kwas

stearynowy, 5- kwas oleinowy, 6- kwas linolenowy, 7- kwas linolowy, 8- kwas

arachidowy oraz 9- kwas gadoleinowy) oznaczono za pomocą chromatografii gazowej.

Dane można pobrać z [59].

4.2 Wizualizacja struktury danych i badanie zależności pomiędzy zmiennymi

Bardzo cenną zaletą PCA jest umożliwienie wizualizacji wielowymiarowych danych

oraz ich interpretacji. Macierz wyników, T, oraz macierz wag, P, dostarczają bowiem

odpowiednio informacji o podobieństwach obiektów i zmiennych.

Zobaczmy, jak PCA pomaga w uzyskaniu informacji na temat struktury danych

i wzajemnych podobieństw pomiędzy próbkami. W tym celu posłużymy się drugim

zestawem danych. Ze względu na różnice w jednostkach, w jakich zmierzono

parametry, jak i ich różną skalę, przed analizą PCA dane zostały autoskalowane [23].

W przypadku danych, których zmienne autoskalowano, czynniki główne o

wartościach własnych mniejszych od jedności nie wnoszą istotnej informacji do opisu

danych [52].

Na Rys. 13a przedstawiono kumulacyjny procent wariancji danych dla pierwszych

dziesięciu czynników głównych. Kompresja danych metodą PCA nie jest zbyt

skuteczna, ponieważ pierwsze dwa czynniki opisują około 55,4% całkowitej wariancji

danych. Mimo to, z całego arsenału liniowych technik projekcji metoda PCA

zapewnia najlepszą kompresję danych. Pierwsze czynniki główne, modelujące

możliwie największą wariancję danych, najlepiej przedstawiają ich strukturę.

Aby ujawnić strukturę badanych danych i prześledzić ewentualne podobieństwa

pomiędzy próbkami win posłużymy się macierzą wyników. Na Rys. 13b,

przedstawiono położenie próbek w nowym układzie współrzędnych, zdefiniowanym

przez odpowiednie czynniki główne. Już pierwsze dwa czynniki główne pozwalają

ukazać niehomogeniczną strukturę danych (zob. Rys. 13b). Najczęściej, projekcje

wyników są źródłem informacji o tendencji danych do grupowania i/lub o próbkach,


28

które znacząco różnią się od pozostałych (tak zwanych obiektów odległych). Na

płaszczyźnie PC 1 - PC 2 można wyróżnić trzy grupy próbek - Rys. 13b. Przy analizie

poszczególnych projekcji wyników jako miarę podobieństwa pomiędzy próbkami

wykorzystuje się odległość euklidesową. Tak więc, próbki są tym bardziej do siebie

podobne pod względem chemicznym im mniejsze są pomiędzy nimi odległości

euklidesowe. Na Rys. 13c różnymi symbolami oznaczono, jaki gatunek wina

reprezentuje każda próbka. Grupy próbek nie są w pełni od siebie odseparowane, ale

można zobaczyć, iż grupują się one ze względu na rodzaje win. Zatem, możemy

wnioskować, iż pomiędzy gatunkami win istnieją wyraźne różnice ze względu na

wartości mierzonych parametrów fizyko-chemicznych.

Pierwsza grupa próbek win charakteryzuje się ujemnymi wartościami wyników

wzdłuż pierwszej osi i dodatnimi wzdłuż drugiej. Dla drugiej grupy próbek wartości

wyników przyjmują wzdłuż pierwszej osi zarówno ujemne jak i dodatnie wartości, a

wzdłuż drugiej ujemne. Natomiast wartości wyników próbek trzeciej grupy są

dodatnie wzdłuż obu osi.

Aby zbadać, które z parametrów są do siebie podobne, a które różnicują próbki win

dokonuje się projekcji wag na płaszczyzny zdefiniowane parami czynników głównych.

Wzajemne podobieństwa określa się na podstawie kąta, jaki tworzą pomiędzy sobą

dwa wektory wag o początku w punkcie [0 0] i końcach zdefiniowanych przez

odpowiednie wartości wag zmiennych na rozważanych projekcjach. Jeżeli kąt

pomiędzy dwoma parametrami jest bliski 00 wówczas są one silnie dodatnio

skorelowane. Kiedy kąt pomiędzy dwoma parametrami jest bliski 1800 to parametry

są silnie skorelowane, ale przeciwnie. Dwa parametry są niezależne (ortogonalne),

jeśli kąt pomiędzy nimi jest bliski 900. Dla analizowanych danych projekcje wag na

pierwsze dwa czynniki główne przedstawia Rys. 13d. Wynika z niego, iż znaczny

wkład do tworzenia pierwszego czynnika mają parametry 7 i 8 (flawonoidy i

nieflawonoidy), gdyż ich absolutne wartości wag są największe.


29

1 2 3 4 5 6 7 8 9 100

10

20

30

40

50

60

70

80

90

100

kolejne czynniki główne

proc

ent o

pisa

nej w

aria

ncji

dany

ch

-4 -3 -2 -1 0 1 2 3 4-4

-3

-2

-1

0

1

2

3

PC 1 - 36,20%

PC

2 -

19,2

1%

a)

b)

-4 -3 -2 -1 0 1 2 3 4-4

-3

-2

-1

0

1

2

3

PC 1 - 36,20%

PC

2 -

19,2

1%

BaroloGrignolinoBarbera

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5 1

2

3

4

5

6

7 8

9

10

11

12

13

wagi na czynniku głównym 1

wag

i na

czyn

niku

głó

wny

m 2

c)

d)

Rys. 13 a) Kumulacyjny procent wariancji danych 2 opisanej przez pierwsze dziesięć czynników

głównych, b) projekcja próbek na przestrzeń zdefiniowaną przez pierwsze dwa czynniki główne (obok

czynników głównych podano procent opisanej wariancji danych przez każdy czynnik), c) ta sama

projekcja, na której trzema symbolami oznaczono przynależność każdej próbki do jednego gatunku

wina: Barolo ( ), Grignolino ( ) i Barbera ( ) i d) projekcja wag na przestrzeń pierwszych dwóch

czynników głównych. Każdy symbol ( ) przedstawia wartości wag takich parametrów jak:

1- alkohol, 2- kwas jabłkowy, 3- popiół, 4- zasadowość popiołu, 5- magnez, 6- całkowita zawartość

fenoli, 7- flawonoidy, 8- nieflawonoidowe fenole, 9- związki proantycyjaninowe, 10- intensywność

koloru, 11- barwa, 12- stosunek transmitancji mierzonych dla rozcieńczonych próbek win przy 280

i 315 nm i 13- prolina.

Z kolei te parametry praktycznie nie mają żadnego wkładu w konstrukcję drugiego

czynnika, gdyż wartości wag na drugim czynniku są bliskie zeru. Dla drugiego

czynnika największe znaczenie ma parametr 10 (intensywność koloru próbek). Z

projekcji wag wnioskujemy, iż parametry 6 i 7 są skorelowane dodatnio. Z tymi

parametrami są przeciwnie (ujemnie) skorelowane parametry 4 i 8. W praktyce

oznacza to, iż jeśli w badanych próbkach zawartość fenoli, flawonoidów i

proantycyjanianów rośnie, to zarazem obniża się zasadowość popiołów oraz


30

zawartość nieflawonoidowych fenoli. Aby zobrazować te zależności, na Rys. 14

przedstawiono relacje pomiędzy autoskalowanymi parametrami 6 i 7 oraz 7 i 8.

Dodatnia korelacja parametrów oznacza jednoczesny wzrost wartości obu parametrów,

a korelacja przeciwna, wzrost wartości jednego, a obniżenie wartości drugiego. Jeśli

kompresja danych metodą PCA nie jest efektywna, należy pamiętać o rozważnej

interpretacji zarówno projekcji wyników jak i wag, mając na uwadze, iż przedstawiają

one jedynie pewną część wariancji danych. Zatem ich analiza pozwala na

formułowanie bardzo ogólnych wniosków, a te powinny znaleźć odzwierciedlenie w

oryginalnych danych jak i dotychczasowej wiedzy o badanym problemie.

W przypadku danych 2, Rys. 14a świadczy o stosunkowo silnej dodatniej korelacji

pomiędzy parametrami 6 i 7 (współczynnik korelacji wynosi 0,86).

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

3

całkowita zawartość fenoli (zmienna 6)

flaw

onoi

dy (z

mie

nna

7)

a)

-1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

flawonoidy (zmienna 7)

nief

law

onoi

dow

e fe

nole

(zm

ienn

a 8)

b)

Rys. 14 Projekcje próbek na przestrzeń zdefiniowaną przez parametry: a) 6 (całkowita zawartość

fenoli) i 7 (flawonoidy) oraz b) 7 (flawonoidy) i 8 (nieflawonoidowe fenole).

Dla zmiennych 7 i 8, korelacja jest przeciwna, jak wskazuje projekcja wag, a jej

współczynnik wynosi zaledwie -0,54. Interpretując wagi parametrów rozważamy

jedynie ich projekcję wag na przestrzeń wybranych dwóch czynników głównych.

Najbardziej istotne z praktycznego punktu widzenia wydaje się być wskazanie

parametrów, które mają bezpośredni wpływ na obserwowaną strukturę widoczną na

projekcjach wyników. W tym celu należy równocześnie interpretować projekcje

wyników i wag, patrząc na ich wzajemne położenia na obu projekcjach. Dla


31

ułatwienia interpretacji, jeszcze raz, na Rys. 15 przedstawiono projekcje wyników i

wag pierwszych dwóch czynników głównych. Podczas interpretacji projekcji

wyników (opisujących określone próbki) jak i wag (opisujących zmienne) należy

uwzględnić ich znaki. W przypadku, gdy wyniki i wagi badanych próbek mają

ujemne lub dodatnie znaki ich iloczyn jest zawsze dodatni (zob. równanie 5). Dlatego

można powiedzieć, iż w takiej sytuacji dla próbek opisanych dodatnimi wartościami

wyników oraz dodatnimi wartościami wag lub ujemnymi wartościami wyników oraz

ujemnymi wartościami wag, określony parametr będzie miał relatywnie dużą wartość

w porównaniu z resztą obiektów. Skupmy się najpierw na grupie win Barbera. Z Rys.

15a wynika, iż te próbki opisane są dodatnimi wartościami wyników wzdłuż

pierwszej osi. Ponadto, projekcja wag (Rys. 15b) informuje o dużym wkładzie w

tworzenie pierwszego czynnika głównego parametrów 7 (flawonoidy) i 8

(nieflawonoidowe fenole). Są one opisane odpowiednio ujemną i dodatnią wartością

wagi. Możemy powiedzieć, iż w stosunku do innych próbek, w winach Barbera jest

relatywnie więcej fenoli, a także kwasu jabłkowego, a pH popiołów jest wyższe ze

względu na korelacje parametrów 2, 4 i 8. Ze względu na przeciwną korelację

parametru 7 z parametrem 8, wina Barbera mają małe zawartości flawonoidów. Wraz

z parametrem 7 podobną tendencję będą wykazywały parametry 6, 9 i 12, gdyż są one

ze sobą skorelowane.

W przypadku próbek win Barolo, tendencje obserwowane dla parametrów 7 i 8 są

przeciwne tych dla próbek win Barbera (zob. Rys. 15c i d). W próbkach tego wina

obserwuje się stosunkowo duże wartości parametrów 6, 7, 9 i 12 (ujemne wartości

wag i dodatnie odpowiednich wyników), zaś małe wartości parametrów 4 i 8

(dodatnie wagi i ujemne wartości wyników). Odmienność próbek win Grignolino

(ujemne wartości wyników wzdłuż drugiej osi) od pozostałych próbek win można

głównie tłumaczyć ich relatywnie mniejszą intensywnością koloru (parametr 10 –

dodatnia waga).


32

-4 -3 -2 -1 0 1 2 3 4-4

-3

-2

-1

0

1

2

3

PC 1 - 36,20%

PC

2 -

19,2

1%

BaroloGrignolinoBarbera

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5 1

2

3

4

5

6

7 8

9

10

11

12

13

wagi na czynniku głównym 1

wag

i na

czyn

niku

głó

wny

m 2

a)

b)

-4 -3 -2 -1 0 1 2 3 4-4

-3

-2

-1

0

1

2

3

PC 1 - 36,20%

PC

2 -

19,2

1%

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

-4 -3 -2 -1 0 1 2 3 4-4

-3

-2

-1

0

1

2

3

PC 1 - 36,20%

PC

2 -

19,2

1%

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0.55

0.6

0.65c)

d)

Rys. 15 Projekcja próbek na przestrzeń zdefiniowaną przez pierwsze dwa czynniki główne, na której

trzema symbolami oznaczono typ wina: Barolo ( ), Grignolino ( ) i Barbera ( ), b) projekcja wag na

przestrzeń pierwszych dwóch czynników głównych (każdy symbol przedstawia wartości wag takich

parametrów jak: 1- alkohol, 2- kwas jabłkowy, 3- popiół, 4- zasadowość popiołu, 5- magnez,

6- całkowita zawartość fenoli, 7- flawonoidy, 8- nieflawonoidowe fenole, 9- związki pro

antycyjaninowe, 10- intensywność koloru, 11- barwa, 12- stosunek transmitancji mierzonych dla

rozcieńczonych próbek win przy 280 i 315 nm i 13- prolina). Projekcja wyników pierwszych dwóch

czynników głównych, którym przypisano kolor proporcjonalny do wartości parametrów: c) 8 i d) 7.

W ten sposób nadaliśmy pełną interpretację projekcjom wyników tłumacząc, które z

oryginalnych zmiennych przyczyniają się najbardziej do obserwowanych grup win.

Interpretację wag autoskalowanych zmiennych ogranicza się zazwyczaj jedynie do

kilku wybranych zmiennych, których absolutne wartości wag są największe dla danej

projekcji.

Kolejnym ważnym aspektem analizy PCA jest identyfikacja grup parametrów, które

wnoszą do opisu danych podobną informację, co pozwala w uzasadnionych


33

przypadkach na ewentualną eliminację liczby mierzonych parametrów, obniżenie

kosztów analizy i skrócenie jej czasu.

4.3 Wpływ wstępnego przygotowania danych na konstrukcję czynników

głównych

Na przykładzie dwóch zestawów danych (dane 1 i 2) zademonstrujemy, że użyta

metoda wstępnego przygotowania danych do dalszej analizy ma duży wpływ na

konstrukcję czynników głównych i ich późniejszą interpretację. Na Rys. 16, dla

danych 1, przedstawiono projekcje wyników na płaszczyznę zdefiniowaną przez PC 1

i PC 2 odpowiednio dla oryginalnych widm, wycentrowanych oraz po transformacji

SNV i centrowaniu. Rys. 16a-c pokazują projekcje wyników oryginalnych danych 2

oraz danych tylko po centrowaniu i autoskalowaniu. Rezultatem zastosowania danej

metody wstępnego przygotowania danych jest zamiana odległości euklidesowych

pomiędzy obiektami w przestrzeni zmiennych, co przekłada się na wyjaśnioną przez

kolejne czynniki główne wariancję danych (zob. Rys. 16a-c) oraz na projekcje

obiektów. W przypadku danych 1, użycie transformacji SNV i centrowania pozwala

na ujawnienie w danych dwóch grup próbek, których obecność tłumaczy się różną

zawartością białka w zbożu. Dla danych 2, najlepsze wyniki uzyskano dla

autoskalowanych danych. Autoskalowanie umożliwiło wyeliminowanie dominacji

parametrów o względnie dużej wariancji. Na Rys. 16f widoczne są trzy grupy próbek,

które odpowiadają trzem gatunkom win.


34

-25 -24 -23 -22 -21 -20 -19 -18 -17 -16-1.4

-1.2

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

PC 1 - 99,96%

PC

2 -

0,03

%

-5 -4 -3 -2 -1 0 1 2 3 4

-1.4

-1.2

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

PC 1 - 95,92%

PC

2 -

3,69

%

-1000 -500 0 500-60

-50

-40

-30

-20

-10

0

10

20

30

PC 1 - 99,81%

PC

2 -

0,17

%

-5 -4 -3 -2 -1 0 1 2 3 4 5-4

-3

-2

-1

0

1

2

3

4

PC 1 - 36,20%

PC

2 -

19,2

1%

-1800 -1600 -1400 -1200 -1000 -800 -600 -400 -200-80

-60

-40

-20

0

20

40

60

80

100

PC 1 - 99,79%

PC

2 -

0,21

%

-3 -2 -1 0 1 2 3

-1

-0.5

0

0.5

1

PC 1 - 82,41%

PC

2 -

9,86

%

a) b) c)

d) e) f)

Rys. 16 Projekcje wyników na płaszczyznę zdefiniowaną przez pierwsze dwa czynniki główne dla:

a) oryginalnych danych 1, b) danych 1 po centrowaniu i c) danych 1 po transformacji SNV

i centrowaniu. Projekcje wyników na płaszczyznę zdefiniowaną przez pierwsze dwa czynniki główne

dla: d) oryginalnych danych 2, e) danych 2 po centrowaniu i f) danych 2 po autoskalowaniu.

4.4 Kompresja danych i częściowa redukcja szumu metodą PCA

PCA jest techniką kompresji danych i pozwala na częściową eliminację szumu. Aby

zilustrować te własności użyjemy pierwszego zestawu danych. Dane poddano

transformacji SNV [29] i centrowaniu by usunąć niepożądane efekty związane z

rozpraszaniem wiązki promieniowania elektromagnetycznego z zakresu bliskiej

podczerwieni na powierzchni próbek.

Efektywność kompresji danych metodą PCA można ocenić na kilka sposobów. Na

przykład, analizując wartości własne lub procent wariancji, jaki opisuje kilka

pierwszych czynników głównych (zob. Rys. 17a-c). Dla omawianych danych

interpretacja wartości własnych pierwszych ośmiu czynników głównych (Rys. 17a)

jak i kumulacyjnego procentu wariancji danych (Rys. 17c) pozwala wysnuć wniosek,

iż kompresja danych metodą PCA jest efektywna, gdyż pierwsze pięć czynników

głównych opisuje ponad 99,5% całkowitej wariancji danych. W celu ustalenia

optymalnej liczby czynników głównych, które zostaną użyte do późniejszej


35

rekonstrukcji danych, posłużono się kroswalidacją typu „wyrzuć jeden obiekt”. Rys.

16d przedstawia zależność RMSECV od liczby czynników głównych w modelu PCA.

Choć krzywa RMSECV nie osiąga wyraźnego minimum, to wykresy wartości

własnych i kumulacyjnego procentu opisanej wariancji danych pozwalają

wnioskować, iż cztery czynniki główne są znaczące. Każdy kolejny czynnik główny

niewiele wnosi do całkowitego opisu danych i dlatego następne czynniki główne

możemy utożsamić z szumem w danych lub błędem eksperymentalnym.

1 2 3 4 5 6 7 80

10

20

30

40

50

60

70

80

90

indeks czynnika głównego

proc

ent o

pisa

nej w

aria

ncji

dany

ch

1 2 3 4 5 6 7 80

20

40

60

80

100

120

indeks wartości własnej

war

tość

wła

sna

a)

b)

1 2 3 4 5 6 7 80

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2x 10

-3


RM

SE

CV

1 2 3 4 5 6 7 80

10

20

30

40

50

60

70

80

90

100


proc

ent o

pisa

nej w

aria

ncji

dany

ch

c)

d)

Rys. 17 a) Diagram pierwszych ośmiu wartości własnych, b) procent wariancji danych opisanej przez

każdy czynnik główny, c) kumulacyjny procent wariancji danych opisanej przez kolejne czynnik

główne oraz d) średni błąd kwadratowy kroswalidacji (RMSECV) jako funkcja liczby czynników

głównych w modelu PCA.

Teraz przedstawimy jak w oparciu o macierze wyników i wag można zrekonstruować

wyjściowe widma NIR. Ze względu na lepszą przejrzystość rysunków, na Rys. 18a-c

przedstawiono jedynie oryginalne widmo pierwszej próbki (oraz odpowiadające mu

zrekonstruowane widmo stosując modele PCA z 1, 2 i 4 czynnikami głównymi). Na

Rys. 18d-e pokazano reszty od tych modeli PCA dla wszystkich widm ze zbioru


36

danych. Im więcej czynników głównych w modelu PCA tym lepsza rekonstrukcja

widma pierwszej próbki.

1200 1400 1600 1800 2000 2200 2400

-0.1

-0.05

0

0.05

0.1

0.15


war

tośc

i res

zt

1200 1400 1600 1800 2000 2200 2400

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2


SN

V-tr

ansf

orm

owan

a ab

sorb

ancj

a

a)

d)

1200 1400 1600 1800 2000 2200 2400

-0.1

-0.05

0

0.05

0.1

0.15


war

tośc

i res

zt

1200 1400 1600 1800 2000 2200 2400

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2


SN

V-tr

ansf

orm

owan

a ab

sorb

ancj

a

b)

e)

1200 1400 1600 1800 2000 2200 2400

-0.1

-0.05

0

0.05

0.1

0.15


war

tośc

i res

zt

1200 1400 1600 1800 2000 2200 2400

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2


SN

V-tr

ansf

orm

owan

a ab

sorb

ancj

a

c)

f)

Rys. 18 a-c) Widmo pierwszej próbki po SNV, oznaczone przerywaną linią oraz widmo

zrekonstruowane (ciągła linia) stosując model PCA z odpowiednio 1, 2 i 4 czynnikami głównymi; d-f)

reszty dla wszystkich próbek od modeli PCA odpowiednio z 1, 2 i 4 czynnikami głównymi.

W przypadku modelu PCA z czterema czynnikami różnice pomiędzy oryginalnym

widmem (przerywana linia), a widmem zrekonstruowanym (ciągła linia) są

praktycznie niezauważalne (zob. Rys. 18c).

Prześledźmy teraz zmiany w resztach od modelu PCA dla wszystkich widm próbek

zboża. Zauważamy tę samą tendencję, a mianowicie, ze wzrostem liczby czynników

użytych do rekonstrukcji widm, reszty od modelu PCA sukcesywnie maleją, a zatem

dane są coraz lepiej rekonstruowane (zob. Rys. 18d-f). Pomiędzy widmami NIR

zrekonstruowanymi stosując pierwsze cztery czynniki główne (optymalna liczba

czynników wyznaczona zgodnie z procedurą kroswalidacji), a oryginalnymi widmami

nie ma wizualnej różnicy, co pokazują Rys. 19a i b.


37

1200 1400 1600 1800 2000 2200 2400

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2


SN

V-tr

ansf

orm

owan

a ab

sorb

ancj

a

1200 1400 1600 1800 2000 2200 2400

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2


SN

V-tr

ansf

orm

owan

a ab

sorb

ancj

a

a) b)

Rys. 19 a) Widma NIR próbek zboża po transformacji SNV oraz b) widma zrekonstruowane

używając cztery czynniki główne.

4.5 PCA, a obiekty odległe

Ponieważ czynniki główne są konstruowane tak, aby maksymalizować wariancję

projekcji, obecność w danych obiektów odległych wywiera silny wpływ na ich

konstrukcję. W przypadku obecności w danych obiektów odległych czynniki główne

modelują bardziej obiekty odległe, niż większość danych. Poszczególne projekcje

powinny ukazywać obiekty odległe, a zatem analiza czynników głównych powinna

umożliwiać ich detekcję. W wielu przypadkach na pierwszej projekcji (PC 1 – PC 2)

można zaobserwować obiekty o zdecydowanie odmiennych wartościach parametrów

w porównaniu z innymi obiektami. Należy jednak pamiętać, iż niektóre z obiektów

odległych nie zawsze będą widoczne na projekcjach wyników, ponieważ mogą mieć

jedynie duże wartości reszt od modelu PCA. Jeśli w danych są obiekty odległe,

odpowiednią techniką do eksploracji tych danych i identyfikacji obiektów odległych

jest stabilna metoda PCA. Konstrukcja stabilnych czynników głównych w tej

metodzie nie jest zaburzona obecnością obiektów odległych. Ponadto, stabilne

czynniki główne i reszty od stabilnego modelu mogą posłużyć do identyfikacji

obiektów odległych.

Na Rys. 20 pokazano jak silny wpływ wywierają obiekty odległe na tworzenie

poszczególnych kierunków w PCA na przykładzie symulowanych dwuwymiarowych

danych. Dane zawierają 100 obiektów wylosowanych z rozkładu normalnego.


38

Współczynnik korelacji między zmiennymi wyniósł 0,8. Następnie, do danych

wprowadzono jeden obiekt odległy o współrzędnych [18 0]. Przed PCA dane

wycentrowano. Na Rys. 20a i b zaznaczono kierunki PC 1 i PC 2 maksymalizujące

wariancję danych, jeśli w danych odpowiednio nie ma i jest obiekt odległy.

-4 -3 -2 -1 0 1 2 3 4

-3

-2

-1

0

1

2

3

zmienna 1

zmie

nna

2

PC 2

PC 1

0 5 10 15

-8

-6

-4

-2

0

2

4

6

8

zmienna 1zm

ienn

a 2

PC 2

PC 1

a) b)

Rys. 20 Projekcje obiektów na płaszczyzny zdefiniowane przez pierwsze dwa czynniki główne

(PC 1 i PC 2), gdzie liniami oznaczono kierunki maksymalizujące wariancję symulowanych

dwuwymiarowych danych: a) bez obiektu odległego oraz b) z jedynym obiektem odległym.

Jak widać na Rys. 20, obecność jednego obiektu odległego może bardzo silnie

wpłynąć na tworzenie pierwszego czynnika głównego, a co za tym idzie i kolejnych.

Efekt ten jest tym istotniejszy im bardziej obiekt odległy różni się od pozostałych.

Omówimy teraz zastosowanie stabilnej metody PCA do diagnostyki obiektów

odległych na przykładzie danych 3. Mając na uwadze, że dane zawierają obiekty

odległe, a także, że parametry są w różnych zakresach, dane poddano stabilnemu

autoskalowaniu, tj. zamiast klasycznej średniej i odchylenia standardowego użyto ich

stabilne warianty – medianę i estymator skali Qn.

W stabilnej metodzie PCA, diagnostyka obiektów odległych w całości bazuje na

odległościach Mahalanobisa oraz resztach od stabilnego modelu o określonej

kompleksowości. Jednym ze sposobów oszacowania kompleksowości stabilnego

modelu PCA jest analiza wykresu stabilnych wartości własnych kolejnych stabilnych

czynników głównych. Wykres pierwszych dziesięciu stabilnych wartości własnych


39

wskazuje, że stabilny model PCA powinien zawierać sześć czynników (zob. Rys. 21a).

Na Rys. 21b przedstawiono projekcję próbek na płaszczyznę dwóch pierwszych

stabilnych czynników głównych. Widzimy, że z pewnością próbki 49 i 64 są

obiektami odległymi (zob. Rys. 21b). Na stwierdzenie, które z tych obiektów są

dobrymi obiektami odległymi, obiektami o dużych wartościach reszt od stabilnego

modelu bądź złymi obiektami odległymi pozwala analiza Rys. 21c. Na przykład

obiekty 49 i 64 (zob. Rys. 21c) to z pewnością złe obiekty odległe. Są one

stosunkowo daleko od większości obiektów w przestrzeni modelu, tj. mają duże

wartości reszt od modelu i duże odległości Mahalanobisa, dlatego będą wywierały

największy wpływ na czynniki główne, jeśli te skonstruujemy za pomocą klasycznego

modelu PCA. Oprócz złych obiektów odległych, diagram odległości pozwala na

wyróżnienie w analizowanych danych obiektów o dużych wartościach reszt od

stabilnego modelu PCA. Takim obiektem jest np. obiekt 88. Obiekty o dużych

wartościach reszt od stabilnego modelu nie są widoczne na projekcjach stabilnych

czynników głównych, gdyż po ich zrzutowaniu na przestrzeń pary stabilnych

czynników głównych „wpadają” one w obszar większości obiektów. Dlatego łatwo

można je błędnie utożsamić z regularnymi obiektami. Przykładem może być próbka,

której profil mierzonych parametrów ma inny kształt niż profile parametrów

pozostałych próbek. Dla dobrego opisu takiej próbki wymagana jest inna ilości

czynników głównych w modelu, niż bez niej. Kolejnym typem obiektów są tak zwane

dobre obiekty odległe. Charakteryzują się one stosunkowo dużymi odległościami

Mahalanobisa, lecz małymi resztami od stabilnego modelu. Tego typu obiekty są

jedynie daleko od większości danych w przestrzeni modelu. To np. próbki, dla

których profile parametrów charakteryzują się stosunkowo dobrą korelacją z profilami

innych próbek.


40

-45 -40 -35 -30 -25 -20 -15 -10 -5 0 5-20

-15

-10

-5

0

5

stabilny PC 1

stab

ilny

PC

2

49

64

36 61

88

1 2 3 4 5 6 7 8 9 100

2

4

6

8

10

12

kolejne stabilne czynniki główne

stab

ilne

war

tośc

i wła

sne

0 5 10 15 20 25 30

0

5

10

15

20

25

30

z-transformowane odległości Mahalanobisa

z-tra

nsfo

rmow

ane

resz

ty o

d m

odel

u

49

64

36

88

a)

b)

c)

Rys. 21 a) Diagram przedstawiający kolejne stabilne wartości własne, b) projekcja obiektów na

przestrzeń dwóch pierwszych stabilnych czynników głównych oraz c) diagram obrazujący z-

transformowane reszty od stabilnego modelu PCA względem z-transformowanych odległości

Mahalanobisa.

4.6 Konstrukcja czynników głównych dla danych z brakującymi elementami

Z różnych powodów analizowane dane mogą zawierać brakujące elementy. Wówczas

czynniki główne można konstruować stosując metodę EM-PCA. Dzięki niej buduje

się model PCA, podstawiając brakujące elementy tak, aby nie wywierały one wpływu

na model. Należy podkreślić, iż podstawianie brakujących elementów, np.

wartościami średnimi, jak to często ma miejsce, zaburza strukturę korelacyjną danych

i nie powinno być stosowane [51].

Dla zilustrowania działania metody EM-PCA posłużono się czwartym zestawem

danych, z którego losowo usunięto 3% całkowitej liczby elementów (tj. 137

elementów). Wzór brakujących elementów w macierzy danych przedstawiono na Rys.

22a. W celu wybrania optymalnej kompleksowości modelu analizowano wartości

własne. Optymalna liczba czynników w modelu EM-PCA, jaka powinna być użyta w

celu estymacji brakujących elementów, wynosi dwa (zob. Rys. 22b). Oprócz takiego

podejścia istnieją również inne, np. szybka kroswalidacja, której idee przedstawiono


41

w [60]. W przypadku EM-PCA, procedurę kroswalidacji (np. kroswalidacja typu

„wyrzuć jeden obiekt”) można stosować, aczkolwiek czas obliczeń jest znacząco

dłuższy. Na Rys. 22c przedstawiono dwie nałożone na siebie projekcje wyników na

płaszczyzny zdefiniowane przez dwa pierwsze czynniki główne, jakie otrzymano

stosując PCA dla kompletnych danych ( ) oraz EM-PCA dla niekompletnych danych

(+), co pozwala na porównanie uzyskanych wyników. Pomimo różnic widocznych na

Rys. 22c, struktura danych z brakującymi elementami stosunkowo dobrze pokrywa

się z reprezentowaną przez pierwsze dwa czynniki główne dla kompletnych danych.

1 2 3 4 5 6 70

5

10

15

20

25

30

35

40

45

kolejny czynnik główny

war

tość

wła

sna

ideks zmiennej

idek

s ob

iekt

u

1 2 3 4 5 6 7 8

50

100

150

200

250

300

350

400

450

500

550

-6 -4 -2 0 2 4 6-5

-4

-3

-2

-1

0

1

2

3

4

PC 1

PC

2

a)

b)

c)

Rys. 22 a) Schematyczna prezentacja macierzy danych (brakujące elementy zaznaczono na czarno),

b) diagram wartości własnych oraz c) projekcja obiektów na przestrzeń dwóch pierwszych czynników

głównych skonstruowanych dla (o) kompletnych danych metodą PCA oraz niekompletnych danych (+)

metodą EM-PCA.

Na jakość wyników uzyskanych z EM-PCA ma wpływ kilka czynników. Generalnie

można powiedzieć, iż zależy od rozkładu brakujących elementów w danych, ich ilości

oraz odpowiednio dobrej struktury korelacyjnej danych, to znaczy stosunkowo silnej

korelacji pomiędzy poszczególnymi zmiennymi. Odrębnym problemem jest analiza


42

danych, w których obecne są i brakujące elementy i obiekty odległe. To zagadnienie

szeroko omówiono w [61,62].

5. PODSUMOWANIE

Ze względu na swoje własności, analiza czynników głównych od ponad stu lat cieszy

się niegasnącą popularnością. Obecnie, PCA jest podstawowym narzędziem

eksploracji i kompresji macierzy danych (np. o wymiarach próbki × parametry).

Liczba publikacji opisujących zastosowania PCA jest ogromna. Choć PCA powstała z

myślą o analizie macierzy danych to coraz częściej jesteśmy zmuszeni prowadzić

eksplorację wielomodalnych danych. Przykładem takich danych są np. trójmodalane

dane, które powstają w trakcie monitorowania środowiska. Ich najczęstsze kierunki to

stacje pomiarowe × parametry × czas. W zależności od badanego problemu dane

mogą być N-modalne, a do ich eksploracji można użyć N-modalną analizę czynników

głównych [63,64,65,66].

6. LITERATURA

[1] J.N. Miller, J.C. Miller, Statistics and chemometrics for analytical chemistry,

Prentice Hall, London, 1999.

[2] D.L. Massart, B.G.M. Vandeginste, L.M.C. Buydens, S. de Jong, P.J. Lewi, J.

Smeyers-Verbeke, Handbook of chemometrics and Qualimetrics: part A, Elsevier,

Amsterdam, 1997.

[3] M. Daszykowski, B. Walczak, D.L. Massart, Projection methods in chemistry,

Chemometrics and Intelligent Laboratory Systems, 65 (2003) 97-112.

[4] S. Wold, K. Esbensen, P. Geladi, Principal component analysis, Chemometrics

and Intelligent Laboratory Systems, 2 (1987) 37-52.

[5] D.L. Massart, L. Kaufman, The interpretation of analytical chemical data by the

use of cluster analysis, R.E. Krieger Publishing Company, Florida, 1989.

[6] N. Bratchell, Cluster analysis, Chemometrics and Intelligent Laboratory Systems,

6 (1987) 105-125.


43

[7] J.H. Friedman, J.W. Tukey, A projection pursuit algorithm for exploratory data

analysis, IEEE Transactions On Computers, 23 (1974) 881-890.

[8] A. Hyvärinen, J. Karhunen, E. Oja, Independent component analysis, John Willey

& Sons, New York, 2001.

[ 9 ] O.M. Kvalheim, N. Telnæs, Visualizing information in multivariate data:

applications to petroleum geochemistry. Part 1. Projection methods, Analytica

Chimica Acta, 191 (1986) 87-96.

[10] M. Daszykowski, From Projection Pursuit to other unsupervised chemometric

techniques, Journal of Chemometrics, 21 (2007) 270-279.

[11] G.P. Nason, Design and choice of projection indices, Ph.D. thesis, University of

Bath, 1992.

[ 12 ] D. Pena, F. Prieto, Cluster identification using projections, Journal of the

American Statistical Association, 96 (2001) 1433-1445.

[ 13 ] M. Daszykowski, I. Stanimirova, B. Walczak, D. Coomans, Explaining a

presence of groups in analytical data in terms of original variables, Chemometrics and

Intelligent Laboratory Systems, 78 (2005) 19-29.

[14] C. Croux, A. Ruiz-Gazen, A fast algorithm for robust principal components

based on projection pursuit, COMPSTAT: proceedings in Computational Statistics

(1996), 211-217, Heidelberg: Physica-Verlag.

[15] P. Gemperline, Practical guide to chemometrics, Taylor & Francis, London, 2006.

[16] D.L. Massart, Y. Vander Heyden, From tables to visuals: principal component

analysis, part 1, LC-GC Europe, 17 (2004) 586-591.

[17] D.L. Massart, Y. Vander Heyden, From tables to visuals: principal component

analysis, part 2, LC-GC Europe, 18 (2004) 84-89.

[18] K. Pearson, On lines and planes of closest fit to systems of points in space,

Philosophical Magazine, 6 (1901) 559-572.

[19] R. Fisher, W. MacKenzie, Studies in crop variation. II. The manurial response of

different potato varieties, Journal of Agricultural Science, 13 (1923) 311-320.

[20] H. Wold, Nonlinear estimation by iterative least squares procedures, in F. David

(Ed.), Research Papers in Statistics, Wiley, New York, 1966, pp. 411-444.

[21] H. Hotteling, Analysis of complex statistical variables into principal components,

Journal of Educational Psychology, 24 (1933) 417-441 and 498-520.


44

[22] G.H. Golub, C.F. Van Loan, Matrix computations, The Johns Hopkins University

Press, Baltimore, 1996.

[23] B.G.M. Vandeginste, D.L. Massart, L.M.C. Buydens, S. de Jong, P.J. Lewi, J.

Smeyers-Verbeke, Handbook of chemometrics and qualimetrics: part B, Elsevier,

Amsterdam, 1998.

[24] W. Wu, D.L. Massart, S. de Jong, The kernel PCA algorithms for wide data. Part

I: Theory and algorithms, Chemometrics and Intelligent Laboratory Systems, 36

(1997) 165-172.

[ 25 ] H. Arodź, K. Rościszewski, Algebra i geometria analityczna w zadaniach,

Wydawnictwo Znak, Kraków, 2005.

[26] Q. Guo, W. Wu, D.L. Massart, C. Boucon, S. de Jong, Feature selection in

principal component analysis of analytical data, Chemometrics and Intelligent

Laboratory Systems, 61 (2002) 123-132.

[27] W.J. Krzanowski, Selection of variables to preserve multivariate data structure,

using principal components, Applied Statistics, 36 (1987) 22–33.

[ 28 ] I. Stanimirova, B. Walczak, D.L. Massart, Multiple factor analysis in

environmental chemistry, Analytica Chimica Acta, 545 (2005) 1-12.

[29] R.J. Barnes, M.S. Dhanoa, S.J. Lister, Standard normal variate transformation

and de-trending of near-infrared diffuse reflectance spectra, Applied Spectroscopy, 43

(1989) 772-777.

[30] E.R. Malinowski, Factor analysis in chemistry, John Wiley & Sons, New York,

1991.

[31] E.R. Malinowski, Theory of the distribution of error eigenvalues resulting from

principal component analysis with applications to spectroscopic data, Journal of

Chemometrics, 1 (1987) 33–40.

[32] E.R. Malinowski, Statistical F-tests for abstract factor analysis and target testing,

Journal of Chemometrics, 3 (1988) 49–60.

[33] R. Bro, K. Kjeldahl, A.K. Smilde, H.A.L. Kiers, Cross-validation of component

models: A critical look at current methods, Analytical and Bioanalytical Chemistry,

390 (2008) 1241-1251.

[ 34 ] W. Duch, J. Korbicz, L. Rutkowski, R. Tadeusiewicz, Sieci neuronowe,

Akademicka Oficyna Wydawnicza Exit, Warszawa, 2000.


45

[35] M. Daszykowski, B. Walczak, D. L. Massart, Looking for natural patterns in

data: Part 1. Density-based approach, Chemometrics and Intelligent Laboratory

Systems, 56 (2001) 83-92.

[36] T. Næs, T. Isaksson, T. Fearn, T. Davies, A user-friendly guide to multivariate

calibration and classification, NIR Publications, Chichester, 2002.

[37] H. Martens, T. Næs, Multivariate calibration, Jon Wiley & Sons, Chichester,

1991.

[38] R. De Maesschalck, D. Jouan-Rimbaud, D.L. Massart, The Mahalanobis distance,

Chemometrics and Intelligent Laboratory Systems, 50 (2000) 1-18.

[ 39 ] A. de Juan, R. Tauler, Chemometrics applied to unravel multicomponent

processes and mixtures. Revisiting latest trends in multivariate resolution, Analytica

Chimica Acta, 500 (2003) 195-210.

[40] P.J. Rousseeuw, M. Debruyne, S. Engelen, M. Hubert, Robustness and outlier

detection in chemometrics, Critical Reviews in Analytical Chemistry, 36 (2006) 221-

242.

[41] S. Frosch Møller, J. von Frese, R. Bro, Robust methods for multivariate data

analysis, Journal of Chemometrics, 19 (2005) 549-563.

[42] N. Locantore, J.S. Marron, D.G. Simpson, N. Tripoli, J.T. Zhang, K.L. Cohen,

Robust principal component analysis for functional data (with comments), Test, 8

(1999) 1–74.

[43] K. Vanden Branden, M. Hubert, Robust classification in high dimensions based

on the SIMCA method, Chemometrics and Intelligent Laboratory Systems, 79 (2005)

10–21.

[44] I. Stanimirova, B. Walczak, D.L. Massart, V. Simeonov, A comparison between

two robust PCA algorithms, Chemometrics and Intelligent Laboratory Systems, 71

(2004) 83-95.

[45] R. Maronna, Principal components and orthogonal regression based on robust

scales, Technometrics, 47 (2005) 264-273.

[46] P.J. Rousseeuw, C. Croux, Alternatives to median absolute deviation, Journal of

the American Statistical Association, 88 (1993) 1273–1283.

[47] P.J. Huber, Robust statistics, John Wiley & Sons, Chichester, 1981.

[48] P.J. Rousseeuw, A.M. Leroy, Robust regression and outlier detection, John

Wiley & Sons, New York, 1987.


46

[ 49 ] M. Daszykowski, K. Kaczmarek, Y. Vander Heyden, B. Walczak, Robust

statistics in data analysis - a review. Basic concepts, Chemometrics and Intelligent

Laboratory Systems, 85 (2007) 203-219.

[50] O. Hössjer, C. Croux, Generalizing univariate signed rank statistics for testing

and estimating a multivariate location parameter, Non-parametric Statistics, 4 (1995)

293-308.

[51] B. Walczak, D.L. Massart, Dealing with missing data. Part 1, Chemometrics and


[ 52 ] K.G. Jöreskog, J.E. Klovan, R.A. Reyment, Methods in geomathematics,

Elsevier, Amsterdam, 1976.

[ 53 ] J.H. Kalivas, Two data sets of near infrared spectra, Chemometrics and


[54] ftp://ftp.clarkson.edu/pub/hopkepk/Chemdata/Kalivas

[55] M. Forina, C. Armanino, M. Castino, M. Ubigli, Multivariate data analysis as a

discriminating method of the origin of wines, Vitis, 25 (1986) 189-201.

[56] http://michem.disat.unimib.it/chm/download/webdatasets/Wines.txt

[57] M.M. Krishna Reddy, P. Ghosh, S.N. Rasool, R.K. Sarin, R.B. Sashidhar, Source

identification of Indian opium based on chromatographic fingerprinting of amino

acids, Journal of Chromatography A, 1088 (2005) 158–168.

[ 58 ] M. Forina, C. Armanino, Eigenvector projection and simplified non-linear

mapping of fatty acid content of Italian olive oils, Annali di Chimica, 72 (1987) 127-

141.

[59] ftp://ftp.clarkson.edu/pub/hopkepk/Chemdata/Original/oliveoil.dat

[60] I. Stanimirova, B. Walczak, Classification of data with missing elements and

outliers, Talanta, 76 (2008) 602-609.

[61] I. Stanimirova, M. Daszykowski, B. Walczak, Dealing with missing values and

outliers in principal component analysis, Talanta, 72 (2007) 172-178.

[62] S. Serneels, T. Verdonck, Principal component analysis for data containing

outliers and missing elements, Computational Statistics and Data Analysis, 52 (2008)

1712-1727.

[ 63 ] R. Henrion, N-way principal component analysis theory, algorithms and

applications, Chemometrics and Intelligent Laboratory Systems, 25 (1994) 1-23.


47

[ 64 ] P. Geladi, Analysis of multi-way (multi-mode) data, Chemometrics and


[65 ] A. Smilde, R. Bro, P. Geladi, Multi-way analysis with applications in the

chemical sciences, John Wiley & Sons, Chichester, 2004.

[ 66 ] P.M. Kroonenberg, Applied multiway data analysis, John Wiley & Sons,

Hoboken, 2008.

Analiza czynników głównych i inne metody eksploracji danych · M. Daszykowski, B. Walczak,...

Documents

Transcript of Analiza czynników głównych i inne metody eksploracji danych · M. Daszykowski, B. Walczak,...