Analiza właściwości białek

27
Analiza właściwości białek Bazy danych, przeszukiwanie , porównywanie sekwencji aminokwasowych.

description

Analiza właściwości białek. Bazy danych, przeszukiwanie , porównywanie sekwencji aminokwasowych. Bazy danych zawierające sekwencje aminokwasowe białek. SWISS-PROT : powstała w 1986 (A.Bairoch) http://www.expasy.org/sprot/ - PowerPoint PPT Presentation

Transcript of Analiza właściwości białek

Page 1: Analiza właściwości białek

Analiza właściwościbiałek

Bazy danych, przeszukiwanie , porównywanie sekwencji

aminokwasowych.

Page 2: Analiza właściwości białek

Bazy danych zawierające sekwencje aminokwasowe białek.

1. SWISS-PROT: powstała w 1986 (A.Bairoch) http://www.expasy.org/sprot/

2. TrEMBL: powstała w 1996; jest uzupełnieniem SWISS-PROT; dane pochodzą z automatycznych translacji EMBL CDS (« proteomiczna » wersja EMBL)

3. PIR-PSD: Protein Information Resources http://pir.georgetown.edu/

4. PRF: Protein Research Foundation (Japan): Peptide/Protein Sequence Database (PRF/SEQDB) http://www.prf.or.jp/en/index.html

5. GenPept: tworzona przez analizę uaktualnień GenBank dla regionów translacyjnych.

6. Wiele specjalistycznych białkowych baz danych dla specyficznych rodzin i grup białek.

Np. : YPD (yeast proteins), AMSDb (antibacterial peptides), GPCRDB (7 TM receptors), IMGT (immune system) etc.

Page 3: Analiza właściwości białek

PDB (Protein Data Bank)

SCOP (structural classification of proteins (according to the secondary structures)), BMRB (BioMagResBank; RMN results)

DSSP: Database of Secondary Structure Assignments.1. HSSP: Homology-derived secondary structure of

proteins.2. FSSP: Fold Classification based on Structure-Structure Assignments.

Bazy danych zawierające dane na poziomie 2D i 3D

Page 4: Analiza właściwości białek

Metody przeszukiwania sekwencyjnych baz danych

Entrez – na podstawie informacji na temat genu, nazwy i innych nie sekwencyjnych danych.

Fasta, Blast- na podstawie sekwencji nukleotydowej bądź aminokwasowej.

Page 5: Analiza właściwości białek

Fasta BlastFasta3 - przeszukuje białkowe i nukleotydowe bazy danych.

Blastp- służy do wstępnego skanowania baz danych zawierających sekwencje aminokwasowe.

Fastf3- porównuje różnorodne białka do biłakowych baz danych.

Psi-blast – służy do wyszukiwania sekwencji o niskiej homologii. Bardziej czuły niż blastp.

Fastx3 – porównuje sekwencje DNA z białkową bazą danych, porównuje odczytaną sekwencje DNA zgodnie z kierunkiem odczytu i odwrotnie.

Phi-blast- służy do wyszukiwania sekwencji homologicznych na podstawie podanego wzoru i PSSM.

rpsblast- służy do wyszukiwania konserwatywnych domen białkowych.

Page 6: Analiza właściwości białek

>gi|16766394:1-235 DNA-specific endonuclease I [Salmonella typhimurium LT2]MYRNFSFAAALLAAAFSGQALADGINNFSQAKAASVKVNADAPGSFYCGCQIRWQGKKGVVDLESCGYKVRKNENRARRIEWEHVVPAWQFGHQRQCWQDGGRKNCAKDPVYRKMESDMHNLQPAIGEVNGDRGNFMYSQWNGGEGQYGQCAMKVDFKAKIAEPPARARGAIARIYFYMRDQYQLKLSRQQTQLFNVWDKQYPVTAWECERDARIAKVQGNHNPYVQRACQARKS

Format FASTA

>P1;CRAB_ANAPL ALPHA CRYSTALLIN B CHAIN (ALPHA(B)-CRYSTALLIN). MDITIHNPLI RRPLFSWLAP SRIFDQIFGE HLQESELLPA SPSLSPFLMR SPIFRMPSWL ETGLSEMRLE KDKFSVNLDV KHFSPEELKV KVLGDMVEIH GKHEERQDEH GFIAREFNRK YRIPADVDPL TITSSLSLDG VLTVSAPRKQ SDVPERSIPI TREEKPAIAG AQRK*

Format PIR

Page 7: Analiza właściwości białek

Sygnatura Link do bazy danych

Match

Page 8: Analiza właściwości białek

Score S (raw)Jest to suma wartości substytucji i przerw w danym wyrównaniu

a a t t a t t c a| | | | |

a - - t c a t c a

Przerwa (gap) „mismatch”

S = Σ (identyczne, „mismatch”) – Σ (przerwy)

Page 9: Analiza właściwości białek

P – value (prawdopodobieństwo)

Łaczy wyniki zwracane z danych wyrównań z prawdo-podobieństwem ich wystąpienia. Im mniejsza wartość (bliska równa, zeru) tego parametru tym zaufanie względem prawdziwości danego dopasowania jest większe.

Page 10: Analiza właściwości białek

E - ValueLiczba wyrównań z danym „score”, która może być spodziewana losowo podczas przeszukiwania danej bazy danych. Jeżeli E = 10to oznacza to że istnieje szansa na znalezienie tylko 10 takich dopasowań o wysokim (score).

Jako wynik zwracane są tylko te dopasowania („matches”) które, są powyżej wartości E.

Im mniejsza wartość E tym bardziej rygorystyczna analiza zwracająca tylko kilka wyrównań.

Page 11: Analiza właściwości białek

Ustawienie globalne (global aligment) – ustawienie zakładające że sekwencje wejściowe są zasadniczo podobne do siebie na całej swojej długości. Ustawienie polega na próbie porównania ich ze sobą na całej ich długości od końca do końca tak aby znaleść najlepsze wyrównanie (z najwyższym „score” )

Ustawienie lokalne (local aligment) – wyrównanie które, wyszukuje dobrze pasujące do siebie segmenty pomiędzy dwoma sekwencjami. Nie polega ono na próbie porównania całych sekwencji tylko poszukiwaniu regionów o dobrej zgodności zgodnie z wyjściowymi parametrami.

Page 12: Analiza właściwości białek

N’ C’

N’

N’

N’

C’

C’

C’

Wyrównanie globalne

Przerwy (Gap)

Page 13: Analiza właściwości białek

N’ C’

N’

N’

N’

C’

C’

C’

Wyrównanie lokalne

N’

N’

C’

C’

Page 14: Analiza właściwości białek

Gap extention- określa „koszt” jaki ponosi wyrównanie za obecność w nim kolejnych reszt. Koszt ten zwykle powinien być Mniejszy od „kosztu gap open”. W celu zmniejszenia długości przerwy wystarczy zwiększyć karę.

Gap open – określa „koszt” jaki ponosi ustawienie za zainicjowanie przerwy.

Gap end – określa „koszt” jaki ponosi ustawienie za zamknięcie przerwy

Gap distance – kara za oddzielanie przerw

Page 15: Analiza właściwości białek

Niskie wartości dla kar za przerwy powodują zwracanie ustawień z wieloma przerwami i parami aminokwasowymiczy nukleotydowymi, ale ustawienie takie ma mniejsze znaczenie statystyczne w takim przypadku wyrównanie to powinno zostać skonfrontowane ze znaczeniem biologicznym tych podobieństw.

Zbyt wysokie wartości kar mogą jednakże powodować brak możliwości znalezienia jakichkolwiek istotnych podobieństw w przypadku porównywania między sobą sekwencji o odległej homologii . Bądź w przypadku ustawień lokalnych odnajdywać pojedyncze regiony.

Page 16: Analiza właściwości białek

Znaczenie matryc substytucyjnych

•Są istotnym elementem każdego doświadczenia w którym istotna jest wiarygodna ocena uzyskanego wyniku w postaci wyrównania sekwencji.

•Odpowiednio dobrana matryca znacząco wpływa na jakość analizy.

•Matryce są bezpośrednim odzwierciedleniem teorii ewolucji

•Zrozumienie ich właściwości znacznie ułatwia dobór matrycyi zwiększa powodzenie w prowadzeniu badań

Page 17: Analiza właściwości białek

BLOSUM – Block substitution matrix

•Konstruowana jest na podstawie konserwatywnych regionów występujących w zespole ustawień bez możliwości wystąpienia w nich przerw. Opiera się na wyrównaniach lokalnych.

•W odróżnieniu od PAM matryca BLOSUM obliczana jest na podstawie grup ustawień sekwencji, w których nie wszystkie mutacje są obliczane tak samo (nie są równoznaczne)

•Matryca ta jest najlepsza do wykrywania lokalnych wyrównań.

•Blosum 62 jest najlepsza do wykrywania słabych podobieństw pomiędzy białkami.

•Blosum 45 jest najlepsza do wykrywania długich i słabych wyrównań

Page 18: Analiza właściwości białek
Page 19: Analiza właściwości białek

PAM – Point aminoacid mutation

•Bazują na globalnych ustawieniach blisko spokrewnionych ze sobą białek ( w skład ustawień wchodziły także regiony o niskiej homologii)

•Wszystkie matryce tej rodziny wywodzą się z matrycy PAM1wyznaczonej na podstawie wyrównań różniących się od siebie na poziomie 1% (99% identyczności)

•Matryce o dużych wartościach (PAM 250) są bardziej przydatne Do przeszukiwania baz danych niż porównywania sekwencji.

•Matryce o niskiej wartości są bardziej czułe i pozwalają na właściwą ocenę wyrównania pomiędzy sekwencjami blisko spokrewnionych ze sobą białek

Page 20: Analiza właściwości białek

A R N D C Q E G

A 2

R -2 6

N 0 0 2

D 0 -1 2 4

C -2 -4 -4 -5 12

Q 0 1 1 2 -5 4

E 0 -1 1 3 -5 2 4

G 1 -3 0 1 -3 -1 0 5

PAM 250

Page 21: Analiza właściwości białek

BLOSUM 45

PAM 250

BLOSUM 62

PAM 160

BLOSUM 90

PAM 100

0 PDOBIEŃSTWO 100

Page 22: Analiza właściwości białek

Metody porównywania dwóch sekwencji między sobą

Blast 2 sequences – lokalne wyrównanie podobnie jak w klasycznym BLAST (http://www.ncbi.nlm.nih.gov/blast/bl2seq/bl2.html)

EMBOSS PAA --Needle – lokalne wyrównanie -Water - globalne wyrównanie

Page 23: Analiza właściwości białek

Metody porównywania więcej niż dwóch sekwencji

• ClustalW- bazuje na ustawieniach globalnych bądź semi-globalnych. Buduje ustawienia wielokrotne progresywnie z serii wyrównań podwójnych, według rozgałęzień na wyjściowym „guide tree”Ustawia wyrównania od najbardziej podobnych (bedących najbliżej na „guide tree”) do bardziej odległych.Przerwy powstałe na początku generowania wyrównań nie ulęgają zmianie. (automatycznie nie są poprawiane)

• T-COFFEE- kombinacja ustawień lokalnych i globalnych (ClustalW, Lalgin) używa bibliotek ustawień lokalnych i globalnych. Bardziej dokładne ustawienia pomiędzy sekwencjami o niskiej homologii

Page 24: Analiza właściwości białek

Metody konstruowania wyrównań wielokrotnych

Page 25: Analiza właściwości białek

S1

S2

S4

S3

S2

S4

S1

S3

Porównywanie sekwencji międzysobą(6 kombinacji)

Obliczanie dystansu i tworzenieguide tree.

ClustalW etapy (1)

Page 26: Analiza właściwości białek

S4

S2

S1

S3

S4

S2

S1

S3

Wyrównanie pomiędzy najbardziej podobnymi sekwencjami

Wprowadzenie przerw dla optymalizacji wyrównania

Wrównanie pomiędzy kolejnymi sekwencjami według guide tree

ClustalW(2)

Generowanie ustawienia wielokrotnego z wprowadzeniem nowych przerw bez możliwości zmiany przerw z ustawień pomiędzy dwoma sekwencjami (etap wcześniej)

Page 27: Analiza właściwości białek

„ConclusionThe Best Alignment Method:•Your Brain•The Right Data

The Best Evaluation:•Your Eyes•Experimental Information (SwissProt)”

„Bioinformatics course 2001” http://www.ch.embnet.org/CoursEMBnet/Pages01/Material.html