Bioinformatyczne bazy danych

Post on 03-Jan-2016

60 views 1 download

description

Bioinformatyczne bazy danych. Genomowe Proteomowe Publikacje. pierwotne wtórne. Jako merytoryczna weryfikacja danych. Biologiczne bazy danych przeszukuje się głównie w celu znalezienia: sekwencji nukleotydowych sekwencji białkowych struktur białkowych - PowerPoint PPT Presentation

Transcript of Bioinformatyczne bazy danych

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Bioinformatyczne bazy danychBioinformatyczne bazy danych

• Genomowe

• Proteomowe

• Publikacje

Jako merytoryczna weryfikacja danych

Biologiczne bazy danych przeszukuje się głównie w celu znalezienia:

• sekwencji nukleotydowych• sekwencji białkowych• struktur białkowych• informacji merytorycznych i publikacji

pierwotnewtórne

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Wyszukiwarki popularnych serwisówWyszukiwarki popularnych serwisów

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Przeszukiwanie za pomocą słów kluczowychPrzeszukiwanie za pomocą słów kluczowych

• Słowem kluczowym (keyword) może być dowolna fraza (np. hemoglobin) lub numer ID danego rekordu z bazy

• Fraza, czyli zapytanie do wyszukiwania może mieć złożoną formę w celu precyzyjnego określenia celu poszukiwania w wyszukiwaniu zaawansowanym:(hemoglobin) AND ((human) OR (bovine)) NOT (alpha)

• Do przeszukiwania konkretnej bazy w NCBI przydatnym narzędziem jest „historia wyszukiwania”

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Historia wyszukiwania w NCBIHistoria wyszukiwania w NCBI

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Przeszukiwanie za pomocą odnośnikówPrzeszukiwanie za pomocą odnośników

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Przeszukiwanie na podstawie Przeszukiwanie na podstawie wprowadzonej sekwencjiwprowadzonej sekwencji

• http://www.ncbi.nlm.nih.gov/blast/producttable.shtml

• http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

BLASTBLAST

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Etapy dopasowywania sekwencjiEtapy dopasowywania sekwencji

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Kryteria szacowania podobieństwa sekwencjiKryteria szacowania podobieństwa sekwencji

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

• Procent identyczności (względny udział odpowiadających sobie pozycji obsadzonych tymi samymi resztami)

• Długość porównywanych sekwencji (liczba porównywanych pozycji)

• Rozmieszczenie identycznych pozycji wzdłuż porównywanych sekwencji

• Typ reszt okupujących pozycje konserwatywne (sekwencje białkowe)

• Relacje genetyczne/strukturalne między resztami znajdującymi się w odpowiadających sobie nieidentycznych pozycjach (sekwencje białkowe)

Kryteria szacowania podobieństwa sekwencjiKryteria szacowania podobieństwa sekwencji

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Procedura oszacowania stopnia podobieństwa Procedura oszacowania stopnia podobieństwa porównywanych sekwencjiporównywanych sekwencji

Bardzo często oszacowanie stopnia podobieństwa porównywanych sekwencji sprowadzane jest jedynie do określenia względnego udziału pozycji identycznych. Pozostałe kryteria analizy zazwyczaj nie są w ogóle brane pod uwagę (np. bezwzględna długość sekwencji, dystrybucja identycznych pozycji wzdłuż łańcucha). Podejście takie jest niekompletne i stwarza ryzyko błędnej interpretacji otrzymanych wyników.

Przedstawiona niżej metoda oparta jest na prawdopodobieństwie przypadkowego pojawienia sie zadeklarowanego stopnia identyczności. Uwzględnia ona podstawowe parametry mające znaczenie dla opisu faktycznego związku między porównywanymi sekwencjami.

Liczbę wszystkich możliwych stopni identyczności dla danych dwóch sekwencji opisuje poniższe równanie:

Gdzie:x – ilość rodzajów jednostek występujących w sekwencjach (20 dla białek; 4 dla

kwasów nukleinowych)n – długość sekwencji (liczba porównywanych par pozycji)a – ilość pozycji identycznych

anan

a

n xxxa

nxT

1

0

2

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

• Alignment, multiple alignment = dopasowanie (wielu) sekwencji

• Dopasowywanie globalnedopasowanie, którego mechanizm zakłada porównanie całych sekwencji ze sobą

• Dopasowywanie lokalnedopasowywanie na podstawie podobieństwa oddzielnych rejonów porównywanych sekwencji – ta metoda zakłada modularną strukturę białek i dopuszcza istnienie domen

Dopasowywanie dwóch sekwencjiDopasowywanie dwóch sekwencji

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Programowanie dynamiczneProgramowanie dynamiczneopiera się na podziale rozwiązywanego problemu na podproblemy

względem kilku parametrów.

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Dopasowanie globalne (1970) Dopasowanie globalne (1970) The Needleman and Wunsch AlgorithmThe Needleman and Wunsch Algorithm

Mi,j = Mij + max(Mk,j+1 , Mi+1,I)

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Powstawanie dot-matrixPowstawanie dot-matrix

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Dot-matrix ścieżka i alignmentDot-matrix ścieżka i alignment

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

FASTAFASTA

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Dot-matrixDot-matrix

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Dlaczego FAST?Dlaczego FAST?

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Podobieństwa biochemiczne i Podobieństwa biochemiczne i biofizyczne aminokwasówbiofizyczne aminokwasów

Diagram Venn-a

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Macierze substytucji (podstawień)Macierze substytucji (podstawień)

• Jak za pomocą liczby określić podobieństwa biochemiczne i biofizyczne poszczególnych aminokwasów tak, aby liczba ta wyrażała jednocześnie realny wpływ na całe białko podstawienia danego aminokwasu innym w łańcuchu polipeptydowym?

!!! MACIERZE SUBSTYTUCJI !!!

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

PAM i BLOSUMPAM i BLOSUM

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

PAMPAM

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

BLOSUM BLOSUM (62)

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Kara za przerwy Kara za przerwy (gap (gap costscosts, , gappenaltygappenalty))

Kara za otwarcie przerwy – GKara za przedłużenie przerwy – L

Kara = G + Lngdzie:n – długość przerwy

Standardowo:G = 10 - 15L = 1 - 2

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Programowanie Programowanie dynamicznedynamiczne

– – local alignmentlocal alignment

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Algorytmy i narzędzia dopasowań lokalnychAlgorytmy i narzędzia dopasowań lokalnych

• FASTA (FAST Alignment):– Pierwszy program do przeszukiwania baz w celu znalezienia podobnej

sekwencji

– Używa szablonów słów (wielkość słowa)

– Łączenie słów i prosta algorytmiczna optymalizacja

• BLAST (Basic Local Alignment Search Tool )– Idea sąsiadujących słów (podobne, nie identyczne słowa) – pozwala

stosować słowa o dużych rozmiarach

– Kilka wersji BLAST-a

• ClustalW – multiple alignment

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jak używać BLAST do Jak używać BLAST do wyszukiwania sekwencji?wyszukiwania sekwencji?

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jakiego BLAST-a wybrać?Jakiego BLAST-a wybrać?

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Formatka BLAST w NCBIFormatka BLAST w NCBI

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

BLAST – ustawienia zaawansowaneBLAST – ustawienia zaawansowane

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jak używać BLAST do Jak używać BLAST do wyszukiwania sekwencji?wyszukiwania sekwencji?

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jak analizować wyniki z BLAST w NCBIJak analizować wyniki z BLAST w NCBI

Graficzny przegląd wyników

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jak analizować wyniki z BLAST w NCBIJak analizować wyniki z BLAST w NCBI

Szczegóły znalezionych dopasowań

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Jak analizować wyniki z BLAST w NCBIJak analizować wyniki z BLAST w NCBIAlignmenty czyli zestawienia sekwencji

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

BLAST w EBIBLAST w EBI

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

ClustalW w EBIClustalW w EBI

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Analiza wyników ClustalWAnaliza wyników ClustalW

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Podstawy genetyczne Podstawy genetyczne algorytmów do zestawień algorytmów do zestawień

aminokwasów?aminokwasów?Replacement PAM250 BLOSUM62

Arg/Lys 3 2

Lys/Gln 1 1

Arg/Gln 1 1

Lys/Glu 0 1

Arg/Glu -1 0

MetAUG

MetAUG

ArgAGG

ArgAGG

LysAAG

LysAAG

ProCCC

ProCCC

AsnAAC

AsnAAC

ArgAGG

ArgAGG

GlnCAG

GlnCAG

HisCAC

HisCAC

SerAGC

SerAGC

ArgCGG

ArgCGG

ArgCGC

ArgCGC

LysAAG

LysAAG

?

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

AGCU 1

3 2

Q

Q

H

H

Y

Y

E

E

D

D

K

K

N

N

R

R

R

R

W

C

C

G

G

G

G

R

R

S

S

P

P

P

P

S

S

S

S

A

A

A

A

T

T

T

T

L

L

L

L

L

L

F

F

V

V

V

V

I

M

I

I

Diagram of amino acid genetic relationships CAA UAA GAA AAA

CAG UAG GAG AAG

CAC UAC GAC AAC

CAU UAU GAU AAU

CGA UGA GGA AGA

CGG UGG GGG AGG

CGC UGC GGC AGC

CGU UGU GGU AGU

CCA UCA GCA ACA

CCG UCG GCG ACG

CCC UCC GCC ACC

CCU UCU GCU ACU

CUA UUA GUA AUA

CUG UUG GUG AUG

CUC UUC GUC AUC

CUU UUU GUU AUU

Diagram of codon genetic relationshipsAlgorytm semihomologicznyAlgorytm semihomologiczny

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

Dot matrix pairwise alignmentDot matrix pairwise alignment

Internal homology (gene multiplication)

Chicken ovoinhibitor precursor

(7 domains)

Chicken ovomucoid precursor

(3 domains)

BLAST 2 SEQUENCES SEMIHOM

Bioinformatyka 2007/2008 wykład 3

Biotechnologia UWM

dr Jan Paweł Jastrzębski

FinFin