SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

NASI SPONSORZY I PARTNERZY

DZIĘKUJEMY!

Analiza komórek w cytofluorymetrii przepływowej przy pomocy narzędzi

Data Mining serwera SQL 2012

Marcin Szeliga

MarcinSzeliga:Bio.ToPP()

• +15 lat doświadczenia z serwerem SQL

• Trener & konsultant • Autor książek i artykułów • SQL Microsoft

Most Valuable Professional (od 2006)

• Microsoft Specialist (od 2000)

Cele projektu

• Wykazanie przydatności automatycznej analizy danych zebranych w FCM

− FCM jest podstawową techniką identyfikacji subpopulacji komórek w szpiku kostnym i krwi obwodowej, służącą do ustalenia diagnozy oraz monitorowania leczenia w różnego typu białaczkach

• Segmentacja danych pod kątem obecności nieprawidłowych subpopulacji komórek

• Automatyczna klasyfikacja znalezionych subpopulacji i ich opis statystyczny

• Wyszukiwanie komórek nie pasujących do klastrów komórek prawidłowych, z ich oceną ilościową i statystyczną

• Monitorowanie leczenia i ocena tzw. choroby resztkowej

• Ocena zmian subpopulacji komórek u tego samego pacjenta w trakcie leczenia

Prezentacja Betacom S.A. 4

Proces eksploracji danych

Zrozumienie

problemu

Poznanie

danych

Przygotowanie

danych

Utworzenie

modeli

wyników

Wdrożenie

Problem

• Jak wybrać charakterystyczne komórki? − Metoda bramkowania jest nieobiektywna

− Bramki wyznaczane są arbitralnie przez osobę przeprowadzającą analizę

− Bramki ustawiane są sekwencyjnie, co prowadzi do utraty cennych danych − Ryzyko przeoczenia istotnych dla diagnozy i monitorowania

leczenia danych

− Bramkowanie nie umożliwia analizy złożonych danych − Standardem stają się badania jednocześnie 6-9 antygenów

− Interakcje pomiędzy badanymi czynnikami są tak złożone, że metody analizy przy użyciu dwuwymiarowych wykresów punktowych zawodzą

• Jak oceniać efekty leczenia? − Eliminując z analizy 99% danych zmniejszamy

szansę wykrycia choroby resztkowej

• Dane źródłowe zebrano przy użyciu 9-kanałowego cytofluorymetru o 18-bitowej rozdzielczości:

− 17 pacjentów z białaczką (2 266 440 komórek)

− 17 pacjentów w remisji (1 248 712 komórek)

• Oprócz pacjentów w remisji oraz z ostrą białaczką limfoblastyczną, dane źródłowe pochodziły również od pacjentów na różnym etapie leczenia

− U kilku z nich procent komórek białaczkowych nie przekraczał 3%

• Ocena poprawności i reprezentatywności danych źródłowych

• Wyeliminowanie błędnych danych

Model wyboru komórek

Dane źródłowe

Eliminacja błędów FSC-A < 250000 SSC-A < 200000

Pierwsza segmentacja (FSC-A, SSC-A, CD19)

Klastry CD19+ i CD19++ (Leukemia 67% Remission 36%)

Około 80%

Klastry CD19-

Właściwa segmentacja (Wszystkie zmienne)

Około 15%

Model oceny komórek

Właściwa segmentacja (Wszystkie zmienne)

Klastry typowych komórek

Klastry komórek aberrantnych

Klastry komórek

mieszanych

Klasyfikacja

Komórki aberrantne

Ocena porównawcza (wykresy)

Komórki typowe

Zastosowanie modeli w diagnostyce

Dane pacjenta

Eliminacja błędów FSC-A < 250000 SSC-A < 200000

Sprawdzenie przynależności do klastrów CD19+ lub CD19++

Komórki CD19-

Wykrycie nietypowych komórek 1%

Komórki nietypowe

Sprawdzenie przynależności do głównych klastrów

Klasyfikacja

Komórki typowe Komórki białaczkowe

Klastry komórek białaczkowych

Klastry komórek mieszanych

Klastry typowych komórek

Ocena wyników

• Ogólna dokładność modelu wyniosła ponad 82% − Docelowo dokładność przekroczy 90%

• Wiarygodność poprawnych klasyfikacji wyniosła 99,7%

• Wiarygodność błędnych klasyfikacji wyniosła 98,7% − Dla większej i bardziej zróżnicowanej grupy pacjentów może spaść o kilka

procent

• Przydatność: − Analiza skupień komórek pozwoliła osiągnąć wyniki co najmniej tak samo

dobre jak dotychczas stosowane metody bramkowania

− Możliwość wiarygodnego opisu statystycznego zidentyfikowanych subpopulacji komórek (w tym ich liczebności)

− Możliwość określenia prawdopodobieństwa przynależności danej komórki do znalezionych klastrów

− Zastosowana metoda pozwoliła nie tylko wyselekcjonować abberrantne i białaczkowe komórki, ale również podać powód i stopień ich nietypowości

SQLDay 2012

Dziękując Państwu za olbrzymie zainteresowanie polską premierą Microsoft SQL Server 2012, firma Microsoft wspólnie z wydawnictwem Helion przygotowała dla Państwa 300 egzemplarzy* darmowego e-booka „SQL Server. Modelowanie i eksploracja danych”. Aby pobrać e-booka, należy wejść na stronę http://helion.pl/sqlserver2012.phtml a następnie: 1.Zalogować się (lub zarejestrować, jeżeli nie macie Państwo konta w wydawnictwie Helion) 2.Wpisać kod promocyjny Microsoft „NowaGwiazdaSQLServer2012” – uwzględniając duże litery 3.Pobrać książkę w dogodnym dla Państwa formacie. *oferta ważna do wyczerpania zapasów Mamy nadzieję, że lektura e-booka jeszcze bardziej przybliży Państwu możliwe obszary zastosowania SQL Server do modelowania i eksploracji danych W imieniu zespołu Microsoft Server & Tools dr Sławomir Strzykowski Application Platform Product Manager slaweks@microsoft.com

NASI SPONSORZY I PARTNERZY

DZIĘKUJEMY!

SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Technology

Transcript of SQL DAY 2012 | DEV Track | Session 9 - Data Mining Analiza Przepływowa by M.Szeliga

Game Dev School 2016 - Gry i rynek mobilny

SQL DAY 2012 | DEV Track | Session 6 - Master Data Management by W.Bielski 6 views

Case Report Session Glaukoma Fakomorfik

ŁódQA - Session based testing

Session III Visu

WP Track Record Polski 2016

CRM Session 1

2013 Session Guide

Industrial Track Spec En

Mike Tutkowski · 2017-12-14 · SOLIDFIRE . cloudstack@cloudstack.kvm3: cloudstack@cIoudstack-kvm3 sudo fdtsk -I Disk /dev/sda: 107.4 GB, 1073741824ee bytes 255 heads, 63 sectors/track,

Session 15 TP 8

Fast Track to FCE_0582405750

Track Music Bangla

Pom Session i, Mmm

FAST TRACK BAJO

Fast Track Ultra 8R UG (en)

Track 1 Dialog 1

Session Maestra 2012

CFR Session 2

Session N.00345 01. Manejo clínico-programático de la TB ...barcelona.worldlunghealth.org/programme/spanish-track/body/Simposios-TODOS.pdfSession N.00345 01. Manejo clínico-programático