KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym...

14
Źródło: http://chem.pg.edu.pl/documents/175361/28234303/skrypt_lab_I.pdf http://mitr.p.lodz.pl/raman/jsurmacki/pliki/zajecia/Technologie_info rmatyczne/Cw5i6/analiza_bledow_skrypt.pdf SFORMUŁOWANIE PROBLEMU. 1. Modelowanie zależności wybranej cechy od pozostałych zmiennych (nazywanych wówczas zmiennymi objaśniającymi). Rozwiązanie problemu tego rodzaju sprowadza się do odpowiedzi na pytanie, czy istnieje matematyczna zależność jednej, wybranej cechy (opisującej obiekty) od pozostałych cech, oraz czy możliwe jest wyrażenie tej zależności w postaci modelu liniowego. Na przykład: czy istnieje zależność wagi trzydziestu sąsiadów z bloku od ilości zjadanych w ciągu roku warzyw, owoców, czekolad, kebabów, lodów oraz wypitej coli i kawy, czy też nie ma takiej zależności? (Jeżeli zależność zostanie wykryta, będzie również możliwe ustalenie, które smakołyki i w jaki sposób mają wpływ na wagę sąsiadów.) 2. Analiza podobieństwa zmiennych i obiektów (poznanie wewnętrznej struktury zbioru danych). Rozwiązanie problemu tego rodzaju rozpoczyna się od ustalenia, czy zaproponowany zbiór danych jest jednorodny. Ustalenie takie sprowadza się do odpowiedzi na pytania: i) czy poszczególne zmienne pochodzą z tej samej populacji generalnej?; oraz: ii) czy wszystkie obiekty pochodzą z tej samej populacji generalnej? . Uzyskanie odpowiedzi pozytywnej na obydwa pytania kończy analizę. Dużo ciekawsza sytuacja zaistnieje wówczas, gdy chociaż na jedno z powyższych pytań odpowiedź będzie negatywna. Należy wtedy wykazać, jaki jest charakter obserwowanej niejednorodności zbioru, czyli określić wewnętrzną strukturę danych. 3. Analiza skupień, pozwalająca na obiektywny podział niejednorodnego zbioru obiektów na jednorodne podgrupy. Do tego typu analizy można podejść dwojako: i) z uprzednią znajomością liczby i rodzaju podzbiorów oraz z wiedzą dotyczącą przynależności poszczególnych obiektów do tych podzbiorów (wtedy można uzyskać (lub nie) potwierdzenie, ze wybrane zmienne zawierają informację niezbędną do podziału obiektów na takie właśnie podzbiory); lub: ii) bez znajomości struktury wewnętrznej zbioru obiektów. Wykazanie istnienia wewnętrznie jednorodnych podzbiorów będzie wtedy "wartością dodaną" analizy. KONTROLA POJEDYNCZYCH ZMIENNYCH

Transcript of KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym...

Page 1: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z

Źródło: http://chem.pg.edu.pl/documents/175361/28234303/skrypt_lab_I.pdf

http://mitr.p.lodz.pl/raman/jsurmacki/pliki/zajecia/Technologie_informatyczne/Cw5i6/analiza_bledow_skrypt.pdf

SFORMUŁOWANIE PROBLEMU.

1. Modelowanie zależności wybranej cechy od pozostałych zmiennych (nazywanych wówczas zmiennymi objaśniającymi). Rozwiązanie problemu tego rodzaju sprowadza się do odpowiedzi na pytanie, czy istnieje matematyczna zależność jednej, wybranej cechy (opisującej obiekty) od pozostałych cech, oraz czy możliwe jest wyrażenie tej zależności w postaci modelu liniowego.

Na przykład: czy istnieje zależność wagi trzydziestu sąsiadów z bloku od ilości zjadanych w ciągu roku warzyw, owoców, czekolad, kebabów, lodów oraz wypitej coli i kawy, czy też nie ma takiej zależności? (Jeżeli zależność zostanie wykryta, będzie również możliwe ustalenie, które smakołyki i w jaki sposób mają wpływ na wagę sąsiadów.)

2. Analiza podobieństwa zmiennych i obiektów (poznanie wewnętrznej struktury zbioru danych). Rozwiązanie problemu tego rodzaju rozpoczyna się od ustalenia, czy zaproponowany zbiór danych jest jednorodny. Ustalenie takie sprowadza się do odpowiedzi na pytania:i) czy poszczególne zmienne pochodzą z tej samej populacji generalnej?; oraz: ii) czy wszystkie obiekty pochodzą z tej samej populacji generalnej?. Uzyskanie odpowiedzi

pozytywnej na obydwa pytania kończy analizę. Dużo ciekawsza sytuacja zaistnieje wówczas, gdy chociaż na jedno z powyższych pytań odpowiedź będzie negatywna. Należy wtedy wykazać, jaki jest charakter obserwowanej niejednorodności zbioru, czyli określić wewnętrzną strukturę danych.

3. Analiza skupień, pozwalająca na obiektywny podział niejednorodnego zbioru obiektów na jednorodne podgrupy. Do tego typu analizy można podejść dwojako: i) z uprzednią znajomością liczby i rodzaju podzbiorów oraz z wiedzą dotyczącą przynależności

poszczególnych obiektów do tych podzbiorów (wtedy można uzyskać (lub nie) potwierdzenie, ze wybrane zmienne zawierają informację niezbędną do podziału obiektów na takie właśnie podzbiory); lub:

ii) bez znajomości struktury wewnętrznej zbioru obiektów. Wykazanie istnienia wewnętrznie jednorodnych podzbiorów będzie wtedy "wartością dodaną" analizy.

KONTROLA POJEDYNCZYCH ZMIENNYCH

jaki jest charakter rozkładu poszczególnych zmiennych?; czy istnieją przesłanki o konieczności dokonania transformacji zmiennych?; czy wśród zestawu obiektów znajdują się punkty odbiegające?.

I. WYZNACZANIE WARTOŚCI LICZBOWYCH CHARAKTERYSTYK ROZKŁADU.

Kontrolę zestawu danych rozpoczyna się od obliczenia wartości liczbowych kilku charakterystyk rozkładu zmiennych. Najwygodniej jest uczynić to w formie tabeli, znajdującej się bezpośrednio pod tabelą danych wejściowych. I tak, pod każdą z kolumn z wartościami zmiennych powinny znajdować się wiersze zawierające:

Page 2: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z

Funkcje statystyczne:

- średnia:

ŚREDNIA(E2:E11) – zwraca wartość średnią podanych argumentów, które mogą być liczbami lub nazwami, tablicami albo odwołaniami zawierającymi liczby.

-liczebność:

ILE.NIEPUSTYCH(E2:E11) – oblicza ile jest niepustych komórek w zakresie

- odchylenie standardowe:

ODCH.STANDARDOWE(E2:E11) – oblicza odchylenie standardowe

-wartość minimalna/maksymalna:

MAX(E2:E11), MIN(E2:E11)

-mediana:

MEDIANA(E2:E11) – zwraca medianę lub liczbę w środku podanych liczb. Inaczej nazwana: wartością środkową

-dominanta:

WYST.NAJCZĘŚCIEJ(E2:E11)

Page 3: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z

Otrzymane dla każdej zmiennej charakterystyki należy teraz poddać następującym testom:

1) czy wartość MIN/MAX > 0,1 ? 2) czy |d-m| < s ? 3) czy wartość r/s należy do przedziału ? 4) czy |q| < 2 ?Jeżeli dla danej zmiennej odpowiedzi na cztery powyższe pytania brzmią TAK, zmienna ma prawdopodobnie rozkład zbliżony do normalnego. Jeżeli zaś, dla danej zmiennej, odpowiedź na przynajmniej jedno powyższe pytanie brzmi NIE, zmienna staje się "podejrzana". Przyczyny takiego stanu rzeczy mogą być dwie: i) wśród wartości zmiennej występuje punkt lub punkty odbiegające; ii) rozkład zmiennej jest silnie asymetryczny lub wielomodalny. Aby ustalić, dlaczego rozkład danej zmiennej odbiega od rozkładu normalnego, należy wykonać histogram wartości tej zmiennej.

Histogram

Do tworzenia histogramu w programie Excel służy narzędzie Histogram dodatku Analysis ToolPak. Histogram tworzy się z dwóch kolumn danych — jednej na dane, które będą analizowane, i jednej na wartości graniczne przedstawiające interwały, według których będzie mierzona częstotliwość.

Upewnij się, że został załadowany dodatek Analysis ToolPak w celu dodania polecenia Analiza danych do karty Dane. Następnie będzie można utworzyć histogram. Poniżej wyjaśniono, jak to zrobić:

1. W arkuszu wpisz dane wejściowe w jednej kolumnie, dodając ewentualnie etykietę w pierwszej komórce.

Pamiętaj o użyciu ilościowych danych numerycznych, takich jak ilości elementów lub wyniki testów. Narzędzie Histogram nie obsługuje jakościowych danych numerycznych, takich jak numery identyfikacyjne wprowadzone jako tekst.

Page 4: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z

2. W następnej kolumnie wpisz wartości graniczne w kolejności rosnącej, dodając ewentualnie etykietę w pierwszej komórce.

Warto użyć własnych wartości granicznych, ponieważ mogą się okazać przydatniejsze do analizy. Jeśli nie wprowadzisz wartości granicznych, narzędzie Histogram utworzy równomiernie rozłożone interwały graniczne, używając jako punktów początkowych i końcowych wartości minimalnych i maksymalnych w zakresie wejściowym.

3. Kliknij pozycję Dane > Analiza danych.

4. Kliknij pozycję Histogram > OK.

5. W obszarze Wejście zrób tak:

a. W polu Zakres wejściowy wprowadź odwołanie do komórki dotyczącej zakresu danych zawierającego liczby wejściowe.

b. W polu Zakres graniczny wprowadź odwołanie do komórki dotyczące zakresu zawierającego wartości graniczne.

Jeśli w arkuszu były używane etykiety kolumn, możesz je uwzględnić w odwołaniach do komórek.

PORADA : Zamiast ręcznego wprowadzania odwołań możesz kliknąć przycisk  , aby tymczasowo zwinąć okno dialogowe i wybrać zakresy w arkuszu. Ponowne kliknięcie przycisku spowoduje rozwinięcie okna dialogowego.

6. Jeśli etykiety kolumn zostały uwzględnione w odwołaniach do komórek, zaznacz pole wyboru Etykiety.

7. W obszarze Opcje danych wyjściowych wybierz lokalizację danych wyjściowych.

Możesz umieścić histogram w tym samym arkuszu, w nowym arkuszu bieżącego skoroszytu lub w nowym skoroszycie.

8. Zaznacz co najmniej jedno z następujących pól wyboru:

Page 5: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z

9. Pareto (posortowany histogram) Powoduje wyświetlenie danych uporządkowanych według malejącej częstotliwości występowania.

10. Łączny udział procentowy     Powoduje wyświetlenie łącznych udziałów procentowych i dodanie wiersza łącznego udziału procentowego do wykresu histogramu.

11. Wykres wyjściowy     Powoduje wyświetlenie osadzonego wykresu histogramu.

12. Kliknij przycisk OK.

Jeśli chcesz dostosować histogram, możesz zmienić etykiety tekstowe i kliknąć w dowolnym miejscu wykresu histogramu, aby użyć przycisków Elementy wykresu, Style wykresu i Filtry wykresu dostępnych po prawej stronie wykresu.

W wyniku sporządzenia histogramu możemy stwierdzić, że będzie potrzebna transformacja zmiennej:

Transformacja zmiennej polega na przekształceniu wszystkich wartości danej zmiennej za pomocą odpowiedniej funkcji matematycznej. Po dokonaniu transformacji należy ponownie wykonać histogram z otrzymanych wartości danej zmiennej i ocenić, czy jej rozkład stał się przynajmniej symetryczny. Poniższa tabela zawiera przykłady funkcji transformujących, znajdujących zastosowanie w najczęściej występujących sytuacjach:

Przykład: Weźmy na warsztat dwie zmienne z omawianego zbioru danych MIECZE, np. DC oraz DR. Wartości liczbowe charakterystyk rozkładu dla tych zmiennych prezentują się następująco:

wykonaliśmy histogram rozkładu zmiennej DC. Wygląda on w sposób następujący:

Page 6: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z

Histogram zmiennej ujawnia wyraźną skośność rozkładu. Ponieważ mamy do czynienia ze zmienną prawoskośną, zastosowaliśmy funkcję transformującą x* = log10(x+a). Po kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z wartości zmiennej DC* zaczął przypominać rozkład normalny:

czy pomiędzy zaproponowanymi i skontrolowanymi zmiennymi nie występują wyraźne korelacje, to znaczy: czy poszczególne zmienne nie niosą jakiejś wspólnej informacji. Można tego dokonać na dwa, uzupełniające się sposoby: 1) obliczając współczynniki korelacji liniowej (r) i determinacji (d) dla poszczególnych par zmiennych; 2) wykonując wykresy korelacyjne dla wszystkich, możliwych par zmiennych.

. I. OBLICZENIE WSPÓŁCZYNNIKÓW KORELACJI LINIOWEJ ORAZ DETERMINACJI. I.1. Współczynnik korelacji liniowej (r). Aby wyznaczyć r dla wybranej pary zmiennych, warto skorzystać z funkcji Excela: =WSP.KORELACJI(zakres_wartości_pierwszej_zmiennej; zakres_wartości_drugiej_zmiennej) Ponieważ wymagane jest obliczenie wartości r dla wszystkich możliwych par zmiennych, najwygodniejsze będzie zbudowanie tzw. macierzy współczynników korelacji liniowej. Wygląda ona następująco:

Page 7: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z

II.2. Współczynnik determinacji (d). Współczynnik determinacji (d) dla pary zmiennych dany jest mało skomplikowanym wzorem: dI,J = (rI,J)2 Zbudowanie macierzy współczynników determinacji sprowadza się zatem do podniesienia do kwadratu wartości zawartych w macierzy współczynników korelacji liniowej.

II. WYKRESY KORELACYJNE DLA PAR ZMIENNYCH.

wszystkie możliwe wykresy korelacyjne dla par zmiennych, zawierające dodatkowo: wartości r oraz d, a także krótki komentarz dotyczący informacji, jaką niesie wykres.

Oto pytania pomocnicze:

czy widoczna jest liniowa zależność pomiędzy zmiennymi? czy widoczna jest zależność nieliniowa? czy wysoka wartość współczynnika korelacji/determinacji rzeczywiście odpowiada liniowej

zależności? czy obiekty mają tendencję do tworzenia grup? czy widoczne są wyraźne punkty odbiegające?

Przedziały ufności – estymacja przedziałowa

Oszacowanie (estymacja) nieznanej wartości mierzonej wielkości fizycznej za pomocą pojedynczego parametru, np. poprzez wykorzystanie wartości średniej arytmetycznej jako najlepszego przybliżenia wartości prawdziwej, nazywane jest w statystyce metodą estymacji punktowej. Pewną miarą niepewności estymacji z wykorzystaniem średniej arytmetycznej może być odchylenie standardowe z próby, S, choć jak już wspomnieliśmy powyżej rozkład średniej nie pokrywa się z rozkładem mierzonej wielkości x. Wygodnie jest więc w oparciu o rozkład wartości średniej dokonać estymacji przedziałowej wartości mierzonej wielkości, np. metodą przedziałów ufności stworzoną przez polskiego matematyka J. Neymana. Estymacja przedziałowa dokonuje szacunku w postaci podania przedziału wartości, który z dużym prawdopodobieństwem obejmuje wartość prawdziwą. Załóżmy, że dokonamy estymacji przedziałowej wielkości u. Możemy dokładnie policzyć z jakim prawdopodobieństwem wielkość u leży w przedziale (-uα, uα):

Page 8: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z

Możemy również sytuację odwrócić. Wybierając arbitralnie prawdopodobieństwo, z którym chcemy stworzyć ten przedział znajdziemy taką wartość uα , która spełni nasze wymagania:

co jest równoważne przedziałowi ufności dla m:

Page 9: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z
Page 10: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z

Wybrane funkcje dotyczące analizy regresji:

Page 11: KUL · Web viewPo kilku próbach okazało się, że optymalna wartość parametru a = 15, i tym samym funkcja transformująca ma postać: DC* = log10(DC+15). Histogram wykonany z

nachylenie(znane_y;znane_x) – współczynnik nachylenia prostej regresji odcięta(znane_y;znane_x) - współczynnik – wyraz wolny w prostej regresji. r.kwadrat(znane_y;znane_x) – zwraca kwadrat współczynnika Pearsona korelacji iloczynu

momentów dla zadanych punktów danych. regbłstd(znane_y;znane_x) – zwraca błąd standardowy przewidywanej wartości y dla każdej

wartości x w prostej regresji. macierz.iloczyn(tablica1;tablica2) – iloczyn dwóch macierzy macierz.odw(tablica) – macierz odwrotna, aby wyświetlić wszystkie jej elementy jako

tablicę należy zaznaczyć obszar nacisnąć F2 i następnie CTRL+SHIFT+ENTER (więcej na http://pszyperski.republika.pl/FunkcjeTablicowe.htm)

Pełną analizę regresji uzyskać można po wyborze z listy dostępnych narzędzi (Analiza danych), narzędzia: Regresja. Po zaznaczeniu danych wejściowych (Zakres wejściowy Y, Zakres wejsciowy X) oraz opcji (Poziom ufności i Składniki resztowe) w tym samym, lub nowym arkuszu (Opcje wyjscia) generowane jest podsumowanie przeprowadzonych obliczeń.

Zadanie 1:

Na podstawie pliku cheese.txt sporządź histogram występowania siarkowodoru w próbkach sera.

Wsk. Jako wartości graniczne przedziałów przyjmij liczby:

2,4,6,8,10,12

Zadanie 2 Analogicznie sporządź histogram prezentujący zmiany smaku sera.

Zadanie 3. Narysuj krzywą regresji Smak Sera vs Kwas mlekowy