Zastosowanie bioinformatyki w medycynie

Post on 28-Jul-2015

374 views 4 download

Transcript of Zastosowanie bioinformatyki w medycynie

Zastosowanie Bioinformatyki w Medycynie

Jakub Paś

Bioinformatyka

• Bioinformatyka – zastosowanie metod obliczeniowych w biologii, medycynie.

• W praktyce pojecie to stosuje się najczęściej do:

- poznawania sekwencji (kwasy nukleinowe białka), struktury i funkcji cząsteczek biologicznych- Relacji miedzy nimi – porównywanie, analiza filogenetyczna, dokowanie, symulacje dynamiki molekularnej, symulacje szlaków metabolicznych i patternów ekspresji…

Bioinformatyka Medyczna

- Wyszukiwanie targetów do leków- Poszukiwanie leków- Projektowanie nowych lekow

Rodzaje chorób i metody ich leczenia

Choroby genetyczne:

- Substytut produktu uszkodzonego genu- Terapia genowa - przyszłość

Choroby wywołane patogenami:

- unieszkodliwienie patogenu przez blokowanie ekspresji istotnych do jego funkcjonowania genów.

Nowotwory:

- Specyficzne niszczenie komórek nowotworowych.

Podobny algorytm postępowania

Algorytm postępowania w poszukiwaniu leków

- Znajdz gen istotnie różniący się miedzy patogenem a chorym lub miedzy nowotworem a chorym

- Zaprojektuj czasteczke blokującą produkt genu:

mRNA białko (najczęściej)

Postępowanie w przypadku białek:

1.Poznaj strukturę białka2.Znajdź lek3.Zbadaj oddziaływanie

Struktura BiałekI Struktura pierwszorzedowa (sekwencja)

EKKIMTSIVDQKAKIEITLVK...

II Struktura drugorzędowa (lokalna)

Alfa Helisa

Beta kartka

III Struktura trzeciorzędowa (przestrzenna)

IV Struktura czwartorzędowa (kompleksy białek)

Metody poznawania struktury białek

• Krystalografia rentgenowska+ metoda najdokładniejsza- Proces krystalizacji czasochłonny (lata)

• Rezonans magnetyczny+ niedokładny- nie można uzyskać wszystkich białek

• Mikrofotografia elektronowa+ umożliwia obrazowanie dużych kompleksów białek- metoda bardzo zgrubna

• Bioinformatyczne przewidywanie struktury (modelowanie)

Po co modelujemy białka?

• Poznanie struktury- szybsze i tańsze niż metody krystalograficzne i rezonans magnetyczny.- uzyskiwanie struktury białek niemożliwych do otrzymania klasycznymi metodami.

• Symulacje dynamiki molekularnej (MD)• Dokowanie molekularne (Drug Design)• Uzyskiwanie informacji niemożliwej do pozyskania

z sekwencji pierwszorzędowej i drugorzędowej. • Poznawanie ewolucji białek niepodobnych

sekwencyjnie.

Metody modelowania molekularnego struktur

białkowych

• Modelowanie homologiczne

• Fold recognition

• Ab initio (de novo)

Ab initio.• Paradoks Levinthala

Autor oszacował, że liczba konformacji jakie może przyjmować białko równa jest 3N, gdzie N jest liczbą aminokwasów w białku. Zauważył, że nawet jeżeli konfiguracje te będą próbkowane z częstościa 1013 na sekunde to i tak sfałdowanie średniej długości białka zajmie dłużej niż wiek wszechświata jeżeli próbkowanie jest rzeczywiście losowe. Rezultat tego prostego obliczenia stoi w sprzeczności ze znanymi właściwościami białek, które przechodzą do stanu sfałdowanego w czasie sekund lub krótszym.

Próby fałdowania białek Ab initio:

• Dyskretyzacja przestrzeni konformacyjnej (Koliński et al.)• Fałdowanie z użyciem fragmentów (Baker et al.)

Modelowanie homologiczne

Założenie:

Białka o podobnej sekwencji posiadają podobną strukturę.

Procedura modelowania białek poprzez homologię.

1. Dopasowanie liniowe sekwencji badanej do znanej uwzględniając podobieństwa i różnice

2. Dopasowanie przestrzenne sekwencji

3 Właściwy proces modelowania z uwzględnieniem różnic pomiędzy sekwencjami.

4. (Ocena poprawności modelu)

Do modelowania homologicznego potrzebujemy alignement (ułożenie sekwencji)

Ewolucja białek

1 MTFGFGHTRGACYTIMTFGFGHTRGACYTI

2 MTFGFGHTRGACSTV MTFGFGHTRGACYTI

3 MTFGFGHTRAACYTI MTFGFGHTRAACYTI

4 MTFAFGHTRAACYTI

Sekwencja wyjściowa

Sekwencje potomne

Sequence alignment(Ułożenie, uliniowienie,

zestawienie itp.)Zminimalizowanie różnic pomiędzy

sekwencjami

Globalny

1 MTFGFGGGCYTV-2 -T--GFGGACYTI

Lokalny

1 GFGGGCYTV2 GFGGACYTI

Sekwencje

1 MTFGFGGGCYTV2 TGFGGACYTI

BLAST

Heurystyczne poszukiwanie słów o długości W (zwykle 3 dla białek) które mają wartość przynajmniej T, kiedy są ułozone z sekwencja wyjściową przy pomocy matrycy substytucji. Słowa w bazie danych które mają wartość co najmniej T są wydłużane w dwóch kierunkach by otrzymać w końcu optymalnie wycenioną parę (HSP) o wartości co najmniej S lub wartości poniżej zadanej wartości E.

BLAST

Needleman-Wunsch (Smith-Waterman)

• Wartość alignmentu to kumulacyjne wartości dla wszystkich aminikwasów

• Najlepszy ailignment – największa wartość

• Maximum match = largest number resulting from summing the cell values of every pathway.

• Maksymalna warotść jest zawsze gdzieś na dole.

• Alignemnt buduje się krocząc od końca tabeli.

M P R C L C Q R J N C B AP 0 1 0 0 0 0 0 0 0 0 0 0 0B 0 0 1 1 1 1 1 1 1 1 1 2 1R 0 0 2 1 1 1 1 2 1 1 1 1 2C 0 0 1 3 2 3 2 2 2 2 3 2 2K 0 0 1 2 3 3 3 3 3 3 3 3 3C 0 0 1 3 3 4 3 3 3 3 4 3 3R 0 0 2 2 3 3 4 5 4 4 4 4 4N 0 0 1 2 3 3 4 4 5 6 5 5 5J 0 0 1 2 3 3 4 4 6 5 6 6 6C 0 0 1 3 3 4 4 4 5 6 7 6 6J 0 0 1 2 3 3 4 4 6 6 6 7 7A 0 0 1 2 3 3 4 4 5 6 6 7 8

MP-RCLCQR-JNCBA | || | | | | |-PBRCKC-RNJ-CJA

Profil sekwencyjny

• Probabilistyczna reprezentacja substytucji na każdej pozycji alignmentu grupy sekwencji homologicznych.

• Informacja o możliwościach innych niż najczęściej pojawiający się aminokwas jest zachowana i może być użyta do dodania kolejnej sekwencji do profilu.

Klasyczne okno programu clustalX

Metody modelowania typu„fold recognition”.

• Większość białek o podobnej funkcji da się określić przy pomocy podobieństwa sekwencyjnego.

• Obecność białek o podobnej strukturze i funkcji ale o bardzo różnych sekwencjach spowodowała rozwój nowych metod.

• Metody te są wykorzystywane np. do Annotowania Genomu/Proteomu.

Przykład: 1e21 i 1k59 (Rybonukleaza i Mutaza fosfoglicerynianowa)

FQRQHMDSDSSPSSSSTYCNQMMRRRNMTQGRCKPVNTFVHEPLVDVQNVCFQ

DNSRYTHFLTQHYDAKPQG-RDDRYCESIMRRRGLTS-PCKDINTFIHGNKRS

Metody profilowe (profile based methods)

• Wadą metod sekwencyjnych jest to, że traktują aminokwasy w zmienych i niezmiennych miejscach alignemntu z taką samą ważnością

• Założenie ze aminokwasy w konserwowanych miejscach alignemntu są bardziej istotne pozwala na stworzenie zależnych od pozycji matryc substytucji. Najbardziej popularnym programem wykorzystującym ten fakt jest PSI-BLAST który tworzy alignmenty przy pomocy tej metody dla sekwencji szukanej lub RPS-BLAST tworzący profile dla sekwencji o znanych strukturach.

• Inne podobne metody bazują na Ukrytych Modelach Markova(HMM).

• Model opisujący dana rodzinę zawiera prawdopodobieństwo wystąpienia każdego z 20 aminokwasów na każdej pozycji w sekwencji. Dodatkowo HMM zawiera często zależne od pozycji kary za insercje i delecje alignemncie. W większości testów HMM wyprzedzają procedury Bazujące na PSI-BLAST.

• Najprostszy sposób alignowania takich sekwencji to mnożenie wektor razy wektor razy matryca substytucji * czynnik normalizujący razy * inne (struktura drugorzędowa)

Threading (Inverse Folding)– W tym podejściu przeciąga się sekwencję badana poprzez

różne struktury o znanej sekwencji i próbuje się znaleźć najbardziej kompatybilną strukturę. Zwykle do oceny dopasowania używa się uproszczonych funkcji energetycznych.

– W metodzie tej energia wszystkich możliwych mutacji jest obliczana przez sumowanie interakcji na każdej pozycji w sekwencji.

– Niektóre potencjały energetyczne używane w porównaniu sekwencja – struktura zawierają komponenty porównań sekwencja - sekwencja np. hydrofobowosć, struktura drugorzędowa itp.

– Pewne podobieństwa miedzy metodami porównywania sekwencyjnego występują także kiedy energia potencjałów zawiera silną „Pamięć sekwencyjna” poprzez branie pod uwagę kompozycji aminokwasów lub ich wielkości.

– Jest wiele metod które explicite łączą w sobie elementy tych podejść, takich jak rozszerzanie podobieństwa sekwencyjnego przez „zanurzenie?” (burial), struktura drugorzędowa. Algorytmy akie stale są unowocześniane.

Zastosowanie modelowania molekularnego i dokowania

(mechanizm działania receptorów cytoknin)

Cre1 należy do rodziny CHASE

• 200 – 230 aa• Obecna w bakteriach, nizszych

eukariotach i roślinach• Wiąże cytokininy i małe peptydy• Mechanizm wiązanie ligandów oraz

powiazania ewolucyjne nieznane.

Proces modelowaniaMetaserver

3D Jury

Modeller Verrify 3D

Domain Split

Domain selection

Structure Prediction

(Profile)

Structure Evaluation

Molecular modelling Quality check

Alignment corection

Query sequence (CRE1)

Final Model

Metoda profil – profil (GRDB)*• Pierwsze przeszukiwanie• Query sequence vs Sequence Database

• Drugie przeszukiwanie• Query Profile vs Profile Database

alignment

alignment

* von Grotthuss M, Wyrwicz LS, Pas J, Rychlewski L Predicting protein structures accurately Science. 2004 Jun 11;304(5677):1597-9;

Evolutionary relationships to CHASE domain

(GRDB-Gene Related Data Base)

1jogA - sensory domain of the membraneous two-component fumarate - sensor Dcus from E. coli, 1p0zA - sensor kinase cita. 1e4eA, 1ehiA - D-Alanine-D-lactate ligase.

Structures of receptor domains selected by 3DHit as related to 1joga.

Domain 3d-hit score

PDB code

Function Organism Ligand

CACHE 84.3 1p0z Ca2+ channels and chemotaxis receptors

K.pneumoniae Citrate Anion

GAF 55.6 1mc0 cGMP phosphodiesterase, adenyl cyclase, FhlA domain

M.musculus Cyclic guanosine monophosphate

PAS/PYP 47.2 1f98 Periodic clock protein, aryl hydrocarbon receptor and single-minded protein/Photoactive Yellow Protein

E. halophila 4'-Hydroxycinnamic Acid

Profiln 46.2 1g5u monomeric actin binding H. brasiliensis Actin ACT - 1psdA1 Aspartate kinase –

chorismate mutase – TyrA E.coli Nicotinamide-

Adenine-Dinucleotide

Topological representation and evolution of PYP family

Dokowanie cytokinin do receptora CRE1

Model receptora CRE1a z A. thaliana z trans-zeatyną i kinetyną.

Pas J, von Grotthuss M, Wyrwicz LS, Rychlewski L, Barciszewski J

Structure prediction, evolution and ligand interaction of CHASE domainFEBS Lett. 2004 Oct 22;576(3):287-90.

Zastoswanie modelowania i dokowania molekularnego w

poszukiwaniu leków.

Inne kryteria doboru ligandu

• Niepatentowany • Łatwy do zsyntezowania/produkcji • Relatywanie niska cena 5g < $20

Najlepiej sprzedające się leki:

Antybiotyki na 8 miejscu – wcześniej:Wrzody, cholesterol, NAdcisnienie, Alergia, Depresja, Cukrzyca, Anemia, Hormony

Target

• Syntetazy aminoacylo-tRNA (AARS) to zróżnicowana grupa enzymów które zajmuja sią tłumaczeniem linowej informacji genetycznej na strukture 3D reprezentowaną przez białka.

• Katalizują one przyłączanie aminokwasów do tRNA.

• Dotychczas zostało zsekwencjonowane około 800 sekwencji AARS.

• Znanych jest około 100 struktur krystalicznych syntetaz.

GlycylAlanyl

Tyrosyl

Tryptophanyl

Tyrosyl

Phelynalanyl

Leucyl

Phenylalanyl

Lysyl

Aspartyl

Glutamyl

Lysyl

Valyl

Isoleucyl

Methionyl

Leucyl

Cysteinyl

Arginyl

Seryl

Threonyl

Prolyl

Histydyl

Phenylalanyl

Glycyl

Drzewo strukturalne

Drzewo sekwencyjne

Porównanie przedstawicieli grup syntetaz

Metody strukturalne pozwalajaporównać i zidentyfikować geny które wydaja się uniklane i niepodobne do innych*

* Wyrwicz LS, von Grotthuss M, Pas J, Rychlewski L. How unique is the rice transcriptome? Science. 2004 Jan 9;303(5655)

Podział syntetaz

I II

a b a b

Leu I (1a) Phe I (2c)

Tyr (1c)Trp (1c)Ala (2a)

Gly (2a)His (2a)

Phe II (2c) Pro (2a)Thr (2a)Ser (2a)

Arg (1a)Cys (1a)

Leu II (1a)Met (1a)Ile (1a)Val (1a)

Lys I (1b)Glu (1b)

Asp (2b)Lys II (2b)Phe III (2c)

II II

a b a b

AlaLysTyr

ArgTrpVal IleMet

ThreLysLeuProHis

GluGlnPheAspAsnSerGly

I II

a b c a b c d

LeuIleValCysMet

TyrTrp

ArgGlnGlu

HisProSerThr

AspAsnLys

GlyAla

Phe

Sequence Structural

Functional

Topological comparison of AARS

Biologia molekularna Bioinformatyka

Selekcja targetu

OrganizmStrukturasekwencja

Selekcja leku (antibiotic)

Baza dancych: 106 związków

Nowy Lek

BacteryjnaAARS Ludzka AARS

Testy In silico

Modelowanie molekularneDokowanie molekularne

Testy In vitro

Inhibicja syntezy białek(aminoacylacja)

Search for ligands

Heuristic activity / toxicity check

Molecular modeling

Start from amino acid analog

Molecular docking procedures

In vitro tests

Molecular modeling

no

Selekcja organizmu i sekwencji do

projektowania leków

Przygotowanie struktury do

celów obliczeniowych

Eucaryotic structure selection

Is deposited (yes/no)

Prokaryotic AARS structure selection

Is deposited (yes/no)

Known inhibitor?(yes/no)

Target selection

New drugs

no

no

Data verificationWyszukiwanie najlepszego

ligandu

Informacje pomocne w wyborze liganda

Zwiazki dotychczas znane o udokumentowanym działaniu

Związki wyjściowe:

Potencjalne ligandy:

Lista podobnych zwiazków (www.ligand.info)

No Ligand ID Code SMILES

1 2 383 NC(CC1=CC=C(O)C=C1)C(=O)NC(C2C(O)C3(O)COC(C3O)N2O)C(O)=O

2 36 629321 NC(CC1=CC=C(O)C=C1)C(=O)NC(C2C(O)C(O)(CO)C(O)CN2O)C(O)=O

3 37 545321CCCCOC(=O)C(NC(=O)C(N)CC1=CC=C(O)C=C1)C2C(O)C(O)

(CO)C(O)CN2O

4 38 485351 CC1OC(C(O)C(O)C1O)C(NC(=O)C(N)CC2=CC=C(O)C=C2)C(O)=O

5 39 DTY2 (Tyrosine) NC(CC1=CC=C(O)C=C1)C(O)=O

6 45 CSY NC(CO)C1NC(CC2=CC=C(O)C=C2)C(=O)N1CC(O)=O

7 59 AXL CC1(C)SC(NC1C(O)=O)C(NC(=O)C(N)C2=CC=C(O)C=C2)C=O

8 92 GHP NC(C(O)=O)C1=CC=C(O)C=C1

9 26 545CCCCOC(=O)C(NC(=O)C(N)CC1=CC=C(O)C=C1)C2C(O)C(O)

(CO)C(O)CN2O

10 100 CCY66 NC(CS)C1NC(CC2=CC=C(O)C=C2)C(=O)N1CC(O)=O

11 117 TYB3 NC(CC1=CC=C(O)C=C1)C=O

12 124 1661 NC(=N)CCCCC(C1C(O)CC2=CC=C(C=C12)C3=CC=C(O)C=C3)C(O)=O

Wyniki dokowania

Dokowanie ligandu w strukturze Tyr-RS czlowieka i

gronkowca

Dobry ligand wiąże się trwale z targetem

Procedura eksperymentalna

Obecnie prowadzone sa badania eksperymantalne skuteczności wybranych zwiazkow metodami chromatograficznymi oraz na hodowlach komórkowych.

Analiza Bioinformatyczna zastosowanie medyczne

Tenascyny -C

Znajdz gen którego ekspresja w komórkach nowotworych jest istotnie wyższa niż w zdrowych

• Analiza danych mikromacierzy z bazy danych „GEO Profile” NCBI.

• Geny z danego klonu sa normalizowane pod kontem liczby klonow dla kazdej tkanki, Każdy gen zawiera informacje na tema typu tkanki, stadium rozwoju, zastosowanych metod eksperymentalnych.

• Najbardziej obiecującym targetem wynikajacym z tej analizy okazał się gen Tenascyny-C. Analiz wykazała istotne różnice w normalizacji Tenascyny dla mózgu.

Bioinformatyczne metody wyboru celu

Expression analysis of TN-C(Tenascyna-C – duże wielodomenowe białko około 200kDa.)

Analiza danych mikromacierzy z dostępnych baz danych pokazuje zwiększony poziom ekspresji w komórkach nowotworowych)

Aby sprawdzic czy Tenascyna-C nie jest nadmiernie reprezentowana w komórkach nowotworowych poziom ekspresji został zbadany eksperymentalnie.

Analiza budowy transkryptu TN-C

Izoform number

Exons and corresponding protein domains

HSP33,EGFHeptads

FNIII (1-5)

FNIII (6-9) FNIII (10) FNIII (11) FNIII (12) FNIII(13-15),

fibrinogen

Protein molecular mass

(kDa)

1 2-10 11-14 15 16 17 18-28240,8

2 2-10 - 15 - 17 18-28191,3

3 2-10 - 15 16 17 18-28201,3

4 2-10 11-14 15 - 17 18-28230,8

5 2-10 - - - 17 18-28181,5

6 2-10 - - - - 18-28171,3

Budowa TN-C

Przewidywanie struktury domen TN-C

a) domena HSP33, b) region heptad, c) EGF, d) fibronektyna typu III (FNIII) z motywem RGD, e) fibrynogen

Motyw StrukturalnySekwencja

FunkcjaPrzeszukiwanie

hierarhiczneSerwer bazy danych

Użytkownik

Internet

Węzł

y

Klaster Linuxowy

Projektowanie RNAi

• Uwzględnienie struktury drugorzędowej.

• Uwzględnienie motywów sekwencyjnych powodujących reakcje lizozymu

• Uwzględnienie domen ulegających alternatywnemu składaniu

• Uwzględnienie polimorfizmów (formy alleliczne w populacji)

Próby Kliniczne

• Badania przeprowadzone na 37 pacjentach w tym 17 pacjentow w fazie 4 - najbardziej zaawansowane stadium choroby, obszar guza powyzej 40mm

• Bez operacji przezywalnosc - 3 miesiace• Z operacja 6 miesiecy.• Po podaniu tenascyny - 1.5 roku• 7 pacjentow jeszcze zyje (2 lata po zabiegu)

CT przed operacja

WG

Stadium: IV

Rozmiar guza: 57x47x50 mm

MRI po operacji

Podsumowanie

• Budowa TN-C jest bardzo istotnym czynnikiem w procesie powstawania przerzutów.

• Zmienność izoform TN-C może być kluczowa podczas tworzenia markerów specyficznych dla konkretnych typów nowotworów.

• Na podstawie przeprowadzonej analizy ekspresji określiliśmy kolejny cel badań – rak jajnika.

Pas J, Wyszko E, Rychlewsk L, Nowak S, Żukiel R, Barciszewski J,Analysis of structure and function of tenascin-CInternational Journal of Biochemistry and Cell Biology - In press