Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski,...

32
Paweł Aleksander Siedlecki Przewidywanie powinowactwa związków niskocząsteczkowych do receptorów białkowych. Zastosowanie w badaniach przesiewowych. 1

Transcript of Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski,...

Page 1: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

Paweł Aleksander Siedlecki

Przewidywanie powinowactwa związków

niskocząsteczkowych do receptorów białkowych.

Zastosowanie w badaniach przesiewowych.

1

Page 2: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

1. Imię i nazwisko

Paweł Aleksander Siedlecki

2. Posiadane dyplomy, stopnie naukowe:

Stopień doktora nauk biologicznych w zakresie biologii uzyskany z wyróżnieniem,

nadany uchwałą Rady Naukowej Instytutu Biochemii i Biofizyki Polskiej Akademii

Nauk dnia 27 czerwca 2006 roku. Rozprawa doktorska pt. „Nowe inhibitory ludzkiej

metylotransferazy DNMT1 - komputerowe projektowanie i weryfikacja”, rozprawa

napisana w języku angielskim „New inhibitors of human DNMT1 methyltransferase -

computer design and evaluation” Promotor: prof. dr hab. Piotr Zielenkiewicz - Zakład

Bioinformatyki, Instytut Biochemii i Biofizyki PAN w Warszawie

Recenzenci:

- prof. dr hab. Andrzej Jerzmanowski, Wydział Biologii UW, Warszawa

- prof. dr hab. Grzegorz Grynkiewicz, Instytut Farmaceutyczny Warszawa

- prof. dr Sandor Suhai, Deutsches Krebsforschungszentrum (DKFZ), Heidelberg

Tytuł magistra biologii o specjalności mikrobiologia uzyskany na Wydziale Biologii

Uniwersytetu Warszawskiego dnia 2 listopada 2000 roku. Praca magisterska pt.

“Ewolucja molekularna białek TBP archeonów, modelowanie struktur tych białek i

badanie czynników ich termostabilności” wykonana w Zakładzie Bioinformatyki

Instytutu Biochemii i Biofizyki PAN - promotor prof. Piotr Zielenkiewicz.

3. Informacje o dotychczasowym zatrudnieniu w jednostkach naukowych

● 2008 – obecnie: adiunkt w Zakładzie Biologii Systemów, Instytut Biologii

Eksperymentalnej i Biotechnologii Roślin Uniwersytetu Warszawskiego.

● 2006 – obecnie: adiunkt w Zakładzie Bioinformatyki, Instytut Biochemii i

Biofizyki PAN

● 2005-2006: Zatrudniony w Instytucie Biochemii i Biofizyki PAN w Zakładzie

Bioinformatyki na stanowisku: biolog

● 2002-2005: Staż w trakcie doktoratu w Deutsches Krebsforschungszentrum

(DKFZ), Heidelberg, Niemcy (w sumie 2 lata)

2

Page 3: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

● 2000-2004: Studia doktoranckie w Szkole Biologii Molekularnej Instytutu

Biochemii i Biofizyki PAN.

4. Wskazane osiągnięcia naukowe wynikające z art. 16, ust. 2 Ustawy z dnia 14

marca 2003 r. o stopniach naukowych i tytule naukowym oraz o stopniach i tytule w

zakresie sztuki (Dz. U. nr 65, poz. 595 ze zm.):

Tytuł osiągnięcia naukowego:

Przewidywanie powinowactwa związków niskocząsteczkowych do receptorów

białkowych. Zastosowanie w badaniach przesiewowych.

a. Wykaz publikacji wchodzących w skład osiągnięcia:

● W skład osiągnięcia naukowego wchodzi 7 publikacji znajdujących się w bazie

Journal Citation Report (JCR).

● Sumaryczny współczynnik oddziaływania czasopism, w których ukazały się

publikacje wchodzące w skład osiągnięcia naukowego, zgodnie z bazą Web of

Science – 32

● Liczba cytowań publikacji wchodzących w skład osiągnięcia naukowego do dnia

złożenia wniosku (wg bazy Web of Science) – 38

● Liczba punktów MNiSW za publikacje wchodzące w skład osiągnięcia naukowego,

wszystkie kategoria A – 280

1. Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki, 2018, “Development of a Protein-Ligand Extended Connectivity (PLEC) fingerprint and its application for binding affinity predictions”, Bioinformatics. 2018 Sep 8 IF: 5,481, MNiSW: 45 2. Marta Stepniewska-Dziubinska, Piotr Zielenkiewicz oraz Paweł Siedlecki, 2018, “Development and evaluation of a deep learning model for protein-ligand binding affinity prediction”, Bioinformatics. 2018 Nov 1;34(21):3666-3674 IF: 5,481, MNiSW: 45

3

Page 4: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

3. Maciej Wójcikowski, Pedro J. Ballester oraz Paweł Siedlecki, 2017, “Performance of machine-learning scoring functions in structure-based virtual screening”, Sci Rep. 2017 Apr 25; 7:46710. IF: 4,259, MNiSW: 40 4. Marta Stepniewska-Dziubinska, Piotr Zielenkiewicz oraz Paweł Siedlecki, 2017, “DeCAF-Discrimination, Comparison, Alignment Tool for 2D PHarmacophores.”, Molecules. 2017 Jul 6;22(7). IF: 2,861, MNiSW: 30 5. Maciej Wójcikowski, Piotr Zielenkiewicz oraz Paweł Siedlecki, 2015, “Open Drug Discovery Toolkit (ODDT): a new open-source player in the drug discovery field.”, J Cheminform. 2015 Jun 22;7:26. IF: 4,547, MNiSW: 45 6. Maciej Wójcikowski, Piotr Zielenkiewicz oraz Paweł Siedlecki, 2014, “DiSCuS: an open platform for (not only) virtual screening results management.”, J Chem Inf Model. 2014 Jan 27;54(1):347-54. IF: 4,068, MNiSW: 40 7. Szymon Kaczanowski*, Paweł Siedlecki* oraz Piotr Zielenkiewicz, 2009, “The High Throughput Sequence Annotation Service (HT-SAS) - the shortcut from sequence to true Medline words.”, BMC Bioinformatics. 2009 May 16;10:148 IF: 3,781, MNiSW: 35

Autor korespondencyjny

* Pierwszy współautor

Powyższe osiągnięcie naukowe zostało udokumentowane w formie cyklu

powiązanych tematycznie publikacji. Składa się na nie siedem artykułów naukowych.

W każdym z nich istotną część pracy wykonałem przy współpracy z doktorantami,

których byłem opiekunem dydaktycznym i naukowym. Jestem głównym autorem lub

autorem korespondencyjnym wszystkich tych publikacji, oprócz publikacji nr 7 której

jestem pierwszym współautorem.

4

Page 5: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

b. Omówienie celu naukowego ww. prac i osiągniętych wyników wraz z

propozycją ich ewentualnego wykorzystania

Wprowadzenie

Poszukiwanie związków nisko-cząsteczkowych zdolnych modulować wybrane funkcje

komórkowe, wpływać na aktywność białek i/lub na ich oddziaływanie ze sobą jest istotnym

elementem kierującym badaczy w stronę danej klasy związków chemicznych. Hillisch et al.

w pracy z 2015r [1] stwierdzają, że ponad połowa obecnie testowanych w I fazie testów

klinicznych nowych związków została opracowana przy współudziale metod in silico.

Metody te można podzielić zasadniczo na dwie gałęzie; 1) oparte o cechy znanych ligandów

(ang. ligand-based) oraz 2) oparte o cechy strukturalne badanych receptorów (ang. receptor

based). W swojej pracy oba typy metodologii starałem się twórczo rozwinąć, stosując je w

praktyce w prowadzonych projektach badawczych. W mojej ocenie szczególnie interesujące

wyniki udaje się uzyskać przy wykorzystaniu struktury celu białkowego; gdy na jego

podstawie można oprzeć przewidywania oddziaływań [2,3].

Kluczowymi elementami przewidywania powinowactwa ligandu do receptora jest

wygenerowanie konformacji przestrzennej takiego kompleksu oraz sposób w jaki kompleks

zostanie oceniony. Dla obu powyższych elementów istnieje szereg metod, przybliżeń oraz

ograniczeń związanych z właściwościami samych kompleksów oraz ograniczeń

obliczeniowymi [4]. Obecne metodologie skupiają się na ocenie kompleksów uzyskanych

dzięki metodom eksperymentalnym lub poprzez metody in silico, m.in. modelowanie

komparatywne [5] czy modelowanie de-novo [6,7]. W przypadku wykorzystania struktury

receptora problemem może być trudność uzyskania prawidłowej, “natywnej” konformacji

ligandu związanej z receptorem, a w konsekwencji nieprawidłowa ocena jego potencjalnej

aktywności [8,9]. Niestety problem ten wynika z właściwości samych celów biologicznych,

których konformacje potrafią się zmieniać, dopasować do związku niskocząsteczkowego. Do

pewnego stopnia rozwiązuje to dynamika molekularna [10], ensemble docking [11] lub w

pełni giętkie dokowanie [12] (ang. fully-flexible docking), jednak są to rozwiązania wrażliwe

na prawidłową parametryzację układów oraz wciąż kosztowne obliczeniowo, co bardzo

ogranicza ich zastosowanie w badaniach przesiewowych.

5

Page 6: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

Na tym tle, dokowanie molekularne może mieć szereg zastosowań. W skrócie metoda polega

na zdefiniowaniu przestrzeni obejmującej fragment makromolekuły-receptora, np. centrum

aktywnego enzymu. Przestrzeń tą przeszukuje się konformacyjnie w celu znalezienia

skutecznie oddziałującej cząsteczki - najczęściej niedużego związku organicznego, peptydu,

fragmentu kwasu nukleinowego. Na tym etapie generowanych jest przeważnie kilka-

kilkanaście zróżnicowanych, potencjalnie korzystnych konformacji danego związku, w

których oddziałuje z receptorem. W badaniach porównawczych, w których odtwarzano

natywne kompleksy receptor-związek drobnocząsteczkowy, dokowanie molekularne osiąga

skuteczność rzędu 70-80% [13]. Natomiast dużo poważniejszym problemem całej

metodologii jest ocena kompleksu [4], tj. ocena siły oddziaływania ligandu z receptorem.

Proces oceny wygenerowanych konformacji jest obecnie najbardziej krytycznym elementem

skrinigu in silico; wpływa bezpośrednio na jego efektywność, oraz decyduje o poziomie

sukcesu (ang. success rate). Wygenerowane konformacje muszą zostać poddane ocenie aby

można było wybrać najbardziej prawdopodobną z nich oraz aby móc porównywać

konformacje różnych ligandów między sobą. W badaniach przesiewowych in silico (ang.

high throughput virtual screening - HTVS) to funkcje oceny odpowiadają za wskazywanie

nowych związków chemicznych, które mogą być aktywne i które warto testować

eksperymentalnie.

W kampaniach HTVS najczęściej przeszukuje się bibliotekę wielu setek tysięcy bądź

milionów związków chemicznych w celu wyłowienia tych kilku, które mogłyby potencjalnie

wiązać się z receptorem. Niestety w takim wypadku szybkie i dokładne oszacowania energii

wiązania nie jest możliwe [14]. W dokowaniu molekularnym stosuje się więc uproszczenia i

przybliżenia; funkcje oceniające powinowactwo ligandu na podstawie jego konformacji w

centrum aktywnym (ang. scoring functions”). Główna zaletą funkcji oceny jest szybkość,

dużo gorzej jest jednak z ich dokładnością [2,15]. Funkcje oceny są opracowywane w oparciu

o kompleksy rozwiązane metodami eksperymentalnymi, gdzie dopasowanie ligandu do

centrum jest bardzo wysokie. W przypadku dokowania natomiast często udaje się uzyskać

wiele konformacji sub-optymalnych (nie w pełni dopasowaną do struktury receptora), które

są wyzwaniem dla takich funkcji [4,16]. Inną wadą jest wykorzystywanie ograniczonej liczby

kompleksów do tworzenia funkcji oceny [13], co powoduje że nie wszystkie składowe

oddziaływań ligand-receptor mogą być dostatecznie częste w zestawie treningowym [17].

Funkcje oceny można zbudować na kilka różnych sposobów; wykorzystując do tego m.in.

6

Page 7: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

pola siłowe, funkcje empiryczne oparte o potencjały statystyczne lub wszelkiego rodzaju

hybrydy wspomnianych kategorii [18]. Niezależnie od typu, wspomniane funkcje

charakteryzują się dobrze zdefiniowanym liniowym równaniem, którego elementy (typy

oddziaływań oraz ich wagi) są stałe [2]. Takie klasyczne funkcje oceny, oprócz

niewątpliwych zalet takich jak szybkość działania oraz łatwe zrozumienie “oceny” jaką

kompleks ligand-receptor otrzymuje, mają też podstawowe wady w postaci niskiej

dokładności i czułości [15].

Celem moich badań, które prowadziłem po uzyskaniu stopnia doktora, było znalezienie

takiego opisu struktury kompleksu ligand-receptor, który pozwoliłby uwzględniać

różnorodne, zależne od typu kompleksu siły wpływające na powinowactwo ligandu do

receptora oraz wykorzystać takie modele w badaniach przesiewowych zwiększając czułość i

specyficzność przeszukań. Badałem możliwość wykorzystania danych strukturalnych

dostępnych w publicznych bazach danych do dwóch rodzajów przewidywań: 1) wskazania

jakie związki drobnocząsteczkowe będa potencjalnie aktywne dla danej struktury receptora,

oraz 2) przewidywania potencjalnych celów molekularnych dla nowego związku

niskocząsteczkowego. Zarysowany problem jest bardzo złożony ale jednocześnie niezwykle

istotny z naukowego oraz aplikacyjnego punktu widzenia. Można podejść do niego na wiele

sposobów, wykorzystując różne źródła informacji, np. strukturę samego ligandu [19], pełne

struktury 3D kompleksów ligand-receptor [3,20] czy różne kombinacje powyższych [2,21].

W mojej pracy rozwijałem metody bio- i cheminformatyczne aby móc określić w jaki sposób

można wykorzystać elementy informacji strukturalnej do przewidywania powinowactwa

danego ligandu do receptora. Byłem szczególnie zainteresowany aby moje badania mogły

być stosowane w badaniach przesiewowych, gdzie liczy się szybkość porównywania oraz

możliwość uszeregowania związków potencjalnie oddziałujących od najbardziej do najmniej

prawdopodobnych (listy najlepiej ocenionych związków t.j. listy rankingowe - ang. ranking

lists). Poniżej przedstawiam niektóre z moich prac oraz komentarz dotyczący przyszłych

kierunków rozwoju moich badań.

DiSCuS

Moje badania rozpocząłem od klasycznych eksperymentów z dokingiem molekularnym,

zajmując się bardziej praktycznym aspektem badań przesiewowych. W ramach grantu PBS

“Nowe leki służące do celowanej terapii szpiczaków mnogich”, w którym kierowałem

7

Page 8: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

zadaniem skriningowym, szukałem nowych związków niskoczasteczkowych mogących

wiązać się specyficznie i selektywnie z domeną PIN ludzkiego białka DIS. Poszukiwałem

dwóch typów związków; zdolnych chelatować jon/jony metalu, oraz związków

kompetytywnych, uniemożliwiających jonowi metalu przyjęcie pozycji pozwalającej na

przeprowadzenie reakcji chemicznej. Konieczne było więc wygenerowanie szeregu struktur

DIS3 i dla każdej z nich przeprowadzenie osobnego skriningu. Zależało mi na stworzeniu

systemu, który pozwoliłoby integrować ze sobą dane z symulacji in silico razem z danymi

eksperymentalnymi. Dzięki temu możliwa byłaby korekta modelu predykcyjnego (tj. modelu

statystycznego przewidującego wartość powinowactwa ligandu do receptora), złożonego z

kilku znanych funkcji oceny, na podstawie nowo-generowanych danych eksperymentalnych

o powinowactwie. System byłby więc “uczony”, która kombinacja i jakich funkcji daje

wyniki najbardziej zbliżone do modelu eksperymentalnego. Ten prosty system, w którym to

nie funkcja oceny jest poddawana modyfikacji ale jedynie jej waga w procesie oceny został z

powodzeniem rozwinięty w oprogramowaniu DiSCuS [20] - platformie do zarządzania i

analizowania wyników badań przesiewowych.

Najważniejszym od strony naukowej elementem DiSCuS jest moduł RankScore, służący do

znajdowania optymalnego modelu oceny konsensusowej. Moduł ten pozwala dopasowanie

udziału poszczególnych składników (funkcji) w znormalizowanej ocenie. Gdy

eksperymentalnie zmierzone aktywności są dostępne, DiSCuS pozwala wyliczyć wartości

AUC dla krzywych ROC [22] i wykorzystać je w celu zmierzenia wydajności każdej z

funkcji. Następnie system może automatycznie dopasować procedurę oceny poprzez

wprowadzenie różnych wag i/lub całkowite wyłączenie którejś z funkcji. Krzywa ROC jest

graficzną reprezentacją wydajności metody; pozwala na ocenę poprawności modelu

(klasyfikatora) poprzez opis jego czułości i specyficzności. Każdy punkt takiej krzywej jest

macierzą błędu dla innego poziomu odcięcia przy którym mierzymy wydajność metody.

Przykładowo jesli za punktu odcięcia przyjmiemy czułość 0,8 (metoda przewidziała

prawidłowo 80% aktywnych związków) to krzywa ROC pozwoli określić ile nieaktywnych

związków zostało przez model predykcyjny nieprawidłowo uznanych za aktywne.

Wyliczając pole powierzchni pod krzywą ROC (ROC AUC) otrzymujemy pojedynczą

wartość w przedziale [0,1], dzięki której możemy porównywac modele predykcyjne między

sobą [23]. Interpretacja AUC ROC to prawdopodobieństwo, że badany model predykcyjny

oceni wyżej losowy element klasy pozytywnej od losowego elementu klasy negatywnej.

8

Page 9: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

Warto zauważyć iż nie ma jednej wartości granicznej, od której model uznać można za

“dobry”; zależy ona od typu danych czy specyfiki problemu. Jednakże gdy porównujemy

różne modele predykcyjne dla tych samych danych ROC AUC jest narzędziem bardzo

przydatnym.

DiSCuS może być używany do analizowania prostych eksperymentów dokowania z

pojedynczym celem, chociaż wiele jego zalet można zobaczyć dopiero podczas analizy

dużych danych (ang. “big data”) czyli dużych kampanii przesiewowych przeciwko wielu

celom. W ramach wspomnianego grantu wykonano w DiSCuS dokowanie około 1,9 miliona

związków niskocząsteczkowych z różnych baz danych, do pięciu modeli receptora przy

pomocy 3 różnych programów dokujących. Każdy związek posiadał średnio 5 różnych

konformacji dla pojedynczego receptora. Ostatecznie więc w DiSCuS wykonano analizę

około 140 milionów kompleksów ligand-receptor [20].

Oprócz analizy samych eksperymentów przesiewowych, w DiSCuS został opracowany nowy

sposób opisu interakcji występujących kompleksie ligand-receptor, nazwany “Binding

Profile”. Dzięki niemu można znaleźć szeroki zakres interakcji fizycznych obecnych w

kompleksie oraz zapisać je jako jednowymiarowe ciągi znaków (1D). Takie profile można

użyć do filtrowania lub do wzbogacania bibliotek ligandów. Co ważne można je porównać

pomiędzy ligandami lub konformacjami pojedynczego liganda. Obecnie w literaturze opisano

już kilka sposobów tworzenia takich profili [24–26], a sam profil interakcji stał się ważnym

narzędziem cheminformatycznym.

Ostatecznie DiSCuS został zbudowany jako system modułowy, z myślą o integracji różnych

narzędzi zewnętrznych. Ważne jest, aby myśleć o nim nie jako o zastępstwie dla znanych

narzędzi, ale raczej jako o centrum informacji, pozwalającym na wybranie istotnych cech z

różnych programów i zintegrowaniu ich w ujednoliconą platformę decyzyjną. Więcej

informacji o interfejsie, instalacji, dokumentacji użytkownika i źródłach znajduje się na

stronie DiSCuS: http://discus.ibb.waw.pl.

9

Page 10: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

Figura 1. Wybrane funkcjonalności systemu DiSCuS. Po lewej moduł “Binding Profile”, po prawej moduł “RankScore” służący do analizy wyników dokowania i oceny konsensusowej.

ODDT

Zbudowanie systemu DiSCuS i wykorzystywanie go w projektach zarówno naukowych

(granty NCBiR: PBS oraz Lider) jak i komercyjnych (startupy Metheor Corp. i NooTech Sp.

z o.o.) uświadomiło mi, że aby zacząć stosować bardziej zaawansowane techniki analizy

interakcji ligand-receptor oraz w sposób wydajny testować hipotezy, wymagane będzie

przygotowanie cheminformatycznego warsztatu pracy. W tym celu został zaprojektowany

Open Drug Discovery Toolkit (ODDT) [27]; zestaw narzędzi i algorytmów dostosowanych

do pracy z danymi strukturalnymi kompleksów ligand-receptor. ODDT integruje w sobie dwa

najbardziej rozbudowane zestawy narzędzi; OpenBabel, w dużej części przeznaczony do

pracy z strukturami biomolekuł (receptorów) oraz RDKit posiadający wiele funkcji

skierowanych w stronę drobnocząsteczkowych związków chemicznych. Pośród wielu

zaimplementowanych metod, zarówno własnych jak i opracowanych przez innych badaczy,

najbardziej istotne w perspektywie czasu i wykorzystania oprogramowania stały się trzy

autorskie moduły: analiza interakcji białko-ligand, moduł służacy do dokowania oraz oceny

10

Page 11: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

siły oddziaływania (ang. “docking and scoring”), oraz biblioteka umożliwiająca

projektowanie własnych wysokoprzepustowych protokołów (HTS).

Moduł analizy interakcji (ang. interaction module) to zestaw narzędzi pozwalających

analizować interakcje receptor-ligand. Pełna lista interakcji obecnie analizowanych przez

ODDT składa się z wiązań wodorowych, mostków solnych, kontaktów hydrofobowych,

wiązań halogenowych, układów pi (ang. “pi stacking”; face-to-face i edge-to-face), π-kation,

π-metal i koordynacji jonów. Dodatkowo interakcje kierunkowe, takie jak wiązania

wodorowe czy mostki solne, mają dwa tryby pracy: wersję “dokładną” (ang. “strict”), która

wskazuje czy parametry kątowe i odległościowe mieszczą się w granicach wartości

dopuszczalnych, oraz wersję “zgrubną” (ang. “crude”) gdy spełnione są tylko określone

kryteria odległości. Ta funkcjonalność jest szczególnie przydatna w przypadku pracy z

modelami komparatywnymi gdy struktura receptora może nie być dokładna. Interakcje są

wykrywane za pomocą własnych funkcji i mogą być analizowane w poszukiwaniu

charakterystycznego wzoru wiązań lub używane jako deskryptory dla funkcji oceny.

Moduł dokowania oraz oceny siły oddziaływania dostarcza jednolite narzędzie do

przygotowania danych wejściowych (np. baz ligandów) niezależne od wymagań konkretnego

oprogramowania dokującego oraz przeprowadza procedurę dokowania wybranym

algorytmem dokującym. Dostarcza również własną implementację dwóch ważnych modeli

(funkcji oceny) opartych o uczenie maszynowe: NNscore v2 [28] oraz trzy wersje RFscore

[29]. ODDT wykorzystuje pakiet sklearn [30] jako główny mechanizm uczenia

maszynowego i oceny działania funkcji oraz ffnet [31] do konstrukcji sieci neuronowych.

Moduł obsługuje również wielowątkowość nawet jeśli sam program dokujący takiej

funkcjonalności nie posiada co znacznie poprawia wykorzystanie wszystkich dostępnych

zasobów obliczeniowych.

Dla moich badań najistotniejszy był moduł pozwalający projektować nowe sposoby oceny

konformacji ligand-receptor. Dzięki ODDT zostało stworzone środowisko, w którym

możliwe jest efektywne testowanie nowych funkcji oceny opartych o nowe deskryptory i

uczenie maszynowe. Dwa główne typy modeli uczenia maszynowego to: regresory, dla

danych ciągłych takich jak wartości IC50, EC50, Ki/Kd; oraz klasyfikatory, stosowane do

danych kategorycznych np. ligandów oznaczonych jako aktywne lub nieaktywne. ODDT

pozwala na obsługę obu typów danych, dostarczając zestaw modeli predykcyjnych takich jak:

lasy losowe (ang. random forests), maszyny wektorów nośnych (SVM, ang. support vector

11

Page 12: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

machines) oraz sztuczne sieci neuronowe (pojedyncze i wielowarstwowe). Wykazano, że

modele te sprawdzają się przy ocenie kompleksów białko-ligand [28,29,32] oraz w

metodologiach SAR i QSAR [33,34]. Bardzo istotna cechą ODDT są równiez wbudowane

mechanizmy pozwalające oceniać siłę przewidywania generowanych modeli. W jednym

podejściu można wyliczyć pole powierzchni pod krzywą (ROC AUC) oraz współczynnik

wzbogacania EF (ang. Enrichment Factor) w określonym procencie listy rankingowej.

Współczynnik wzbogacenia EF [35] jest metodą szczególnie przydatną w badaniach

przesiewowych. Współczynnik ten mówi o tym o ile więcej związków aktywnych znajduje

się w wybranym górnym procencie listy rankingowej, w stosunku do losowego rozkładu dla

zbioru związków o danej wielkości. Innymi słowy o ile lepszy jest model predykcyjny od

modelu losowego; w przypadku metod przesiewowych EF sugeruje jaki procent listy

związków należy poddać testom eksperymentalnym aby znaleźć związki aktywne.

Przykładowo, EF0,1% = 10 oznacza, że w najlepiej ocenionym 0,1% wszystkich związków

poddanych analizie jest 10 razy więcej związków aktywnych niż wynikałoby to z rozkładu

losowego. Może to oznaczać, że metoda która uzyskała taki wynik jest zdecydowanie lepszą

alternatywa w stosunku do “ślepego” testowania związków drobnocząsteczkowych [36].

Pamiętać jednak należy, iż w praktyce nie istnieje w pełni losowa bibliotek związków, w

której wszystkie możliwe układy cech są obecne w jednolitym rozkładzie. Współczynniki

wzbogacenia danego modelu predykcyjnego dla dwóch różnych baz związków mogą być

więc różne. Jeśli jednak wyniki osiągane przez model predykcyjny (np. funkcję oceny) różnią

się znacznie między zestawami danych poddawanych analizie, co gorsza dla nowych danych

przewidywania są znacząco słabsze, należy zwrócić baczną uwagę na problem przeuczenia

modelu [37].

W skrócie przeuczenie to sytuacja, w której model nie odtwarza trendów obecnych w danych

lecz odtwarza same dane. Dla przykładu, gdy model zawiera zbyt dużo parametrów w

stosunku do danych na których jest trenowany, poprzez minimalizację błędów na tych

danych wytworzony zostanie wzór opisujący praktycznie każdy element danych

wejściowych, również szum który się w nich znajduje. Powoduje to bardzo dobre

dopasowanie modelu do danych treningowych lecz słabą generalizację modelu czyli jego

przydatność do opisu nowych, nieznanych danych [38]. Aby kontrolować i unikać takiej

sytuacji można wykorzystać szereg metod walidacyjnych; w ODDT można zastosować

bardzo popularny sprawdzian krzyżowy (ang. cross validation). Sprawdzian krzyżowy, czy

12

Page 13: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

walidacja krzyżowa, to metoda w której dane wejściowe dzielone są na podzbiory, następnie

część z nich jest wykorzystywana do stworzenia modelu natomiast pozostała część do

testowania jego wydajności. W ODDT zaimplementowano różne odmiany walidacji

krzyżowej: k-krotną walidację (ang. k-fold cross validation) oraz LOO / LPO (ang.

Leave-One-Out oraz Leave P Out).

Dzięki wspomnianym narzędziom ODDT obejmuje wszystkie elementy związane z budową

nowych modeli predykcyjnych opartych o uczenie maszynowe; od operacji na danych

wejściowych (struktury biomolekuł dostępne w PDBbind [13], DUD-E [39] oraz CASF

[13]), trenowanie, testowanie i walidację modelu, aż po ocenę jakości przewidywań

generowanych modeli. O ODDT można myśleć właśnie w kategorii warsztatu czy

laboratorium, gdzie pod ręką mamy zestaw narzędzi i metod, którymi możemy projektować

eksperymenty i analizować wyniki. Więcej informacji o ODDT mozna znaleźć na stronie

https://github.com/oddt/oddt.

Figura 2. Przegląd najważniejszych funkcjonalności Open Drug Discovery Toolkit (ODDT). Po lewej graficzne przedstawienie wybranych możliwości analizy danych na przykładzie aktywnych i nieaktywnych ligandów kinazy CK2. Po prawej przykładowy (rzeczywisty) kod ODDT, pozwalający zadokować (przy pomocy programu Autodock Vina) zestaw aktywnych ligandów o zadanych parametrach fizykochemicznych oraz ocenić je przy pomocy funkcji RF-score v1.

13

Page 14: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

RF-Score-VS

Jak wspomniano wcześniej jednym z podstawowych problemów badawczych w ocenie

kompleksów ligand-receptor jest wykorzystanie konformacji sub-optymalnych pochodzących

z dokowania do przewidywania oddziaływania. Trzy najważniejsze elementy wprowadzające

szum do danych to 1) niedokładna konformacja ligandu w kompleksie z receptorem, 2)

sztywna, nie dopasowująca się do ligandu struktura receptora, oraz 3) nie uwzględnione

efekty biofizyczne takie jak efekt desolwatacji czy efekty entropowe. Bezpośrednie

symulacja tych elementów, np. giętkości kompleksu poprzez dynamikę molekularną,

prowadzi do poważnego wzrostu kosztu obliczeń powinowactwa, uniemożliwiając

zastosowanie takich rozwiązań do badań przesiewowych.

W moich poszukiwaniach zakładałem, że dwa pierwsze problemy, będące ze sobą

powiązane, można do pewnego stopnia rozwiązać stosując reprezentację kompleksu mniej

restrykcyjną niż klasyczne koordynaty kartezjańskie. Natomiast część efektów biofizycznych

będzie można uwzględnić pośrednio, wykorzystując większą liczbę danych strukturalnych

niż to dotychczas robiono trenując funkcje oceny.

Poszukując własnego rozwiązania dla reprezentacji danych rozwiązanie znalazłem w pracach

dr Pedro Ballestera, w szczególności [29], który zaproponował opis kompleksu

ligand-receptor oparty o zliczanie atomów tworzących otoczenie danego liganda. Było to

niezwykle interesujące z mojego punktu widzenia rozwiązanie przede wszystkim dlatego, że

opis kompleksu w dużo mniejszym stopniu opierał się na idealnym dopasowaniu molekuł,

pozwalając na bardziej korzystny opis konformacji sub-optymalnych występujących w

dokowaniu molekularnym. W metodzie tej dla każdego atomu ligandu tworzona jest sfera o

zadanym promieniu (na przykład 12Å) obejmująca atomy receptora. Następnie osobno

zostają zsumowane wszystkie znajdujące się w sferze typy atomów receptora i zapisane w

postaci jednowymiarowego ciągu sum. Przechodząc po kolei po atomach ligandu buduje się

ciągi lokalnych środowisk dla całego związku drobnocząsteczkowego. Przedstawioną

powyżej procedurę można modyfikować, np. podzielić sferę na mniejsze “pod-sfery” i w

zależności od odległości od centrum przypisać inną wagę lub też dodać dodatkowe

informacje, jak np. ocenę uzyskaną z innych, niezależnych funkcji oceny.

Opierając się na różnych sposobach opisu kompleksów zaproponowanych przez P. Ballestera

stworzyliśmy swój własny model predykcyjny, oparty o drzewa losowe [40,41], zwracający

powinowactwo danego związku do receptora. To co wyróżnia nasze rozwiązanie i co czyni je

14

Page 15: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

wyjątkowym to wykorzystanie danych negatywnych w procesie uczenia modelu. Nasze

modele zostały wytrenowane na 102 różnorodnych celach białkowych, m.in. receptorach

GPCR, chemokinach, kinazach czy proteazach wirusowych, do których zostało

zadokowanych około 20.000 aktywnych i około 800.000 nieaktywnych związków z bazy

DUD-E [39]. Dane negatywne, czyli kompleksy białko-nieaktywny ligand stanowią więc

około 97,5% całego naszego zestawu danych. Takie dane nie są standardowo

wykorzystywane, a wręcz unika się ich przy trenowaniu modeli predykcyjnych; przyjmuje się

że wprowadzają one szum do zestawu treningowego [42]. Jednak w przypadku metod

przesiewowych to właśnie tego typu proporcje powinny być analizowane, gdyż właśnie z

takimi danymi model będzie miał do czynienia. To właśnie dyskryminacja pomiędzy

aktywnymi a nieaktywnymi związkami jest kluczową cechą jaką funkcja oceny powinna

posiadać.

Stosując ten tok myślenia zbudowaliśmy model predykcyjny nazwany RF-Score-VS [2],

którego podstawowym zastosowaniem jest ocena kompleksów ligand-receptor pod kątem ich

potencjalnego powinowactwa. Jednym z naszych głównych wyników jest uderzająca

poprawa rozróżniania związków aktywnych od nieaktywnych w górnych zakresach listy

rankingowej. Współczynnik wzbogacenia EF1% liczony jako średnia po wszystkich celach

białkowych wyniósł 39 dla modelu ogólnego zbudowanego dla wszystkich celów

białkowych, oraz 43.43 dla modelu budowanego dla każdego celu osobno. Najlepszy

klasyczny model funkcji oceny uzyskał 16.86, co daje około 2,2 razy więcej związków

aktywnych w górnym 1% listy przy wykorzystaniu naszej metody, pokazując nieprzeciętną

poprawę procesu przesiewowego. RF-Score-VS w porównaniu z funkcją oceny Autodock

Vina daje również 3 krotnie lepszą wartość korelacji aktywności, liczoną jako korelacja

Pearsona (odpowiednio Rp=0.56 vs Rp=-0.18). Oba te wyniki stały się podstawą do

napisania bardzo dobrze przyjętej publikacji, w krótkim czasie cytowanej przez wielu

badaczy [2]. Zaproponowane przez nas połączenie mniej restrykcyjnego modelu opisu

kompleksu ligand-receptor w połączeniu z dużo większym, bardziej zróżnicowanym

zestawem danych wzbogaconym o dane negatywne okazało się bardzo interesującym

rozwiązaniem. Warto zauważyć iż najliczniejszą klasą w naszych danych są nieaktywne

ligandy w kompleksie z receptorami (dane negatywne), natomiast wydajność naszej metody

jest liczona jako umiejętność znajdowania aktywnych ligandów w kompleksach. Reasumując

zastosowanie przygotowanych wg. naszego pomysłu danych oraz techniki nadzorowanego

15

Page 16: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

uczenia maszynowego jaką są lasy losowe sprawiło, że udało się stworzyć nowy model oceny

wyników badań przesiewowych o wysokiej czułości i specyficzności, kilkukrotnie lepszej od

stosowanych dotychczas rozwiązań. Nasza praca w 2018 roku znalazła się na liście 100

najczęściej czytanych artykułów opublikowanych w Scientific Reports

(https://www.nature.com/collections/zzcpmcdkqp/content/76-100)

.

Figura 3. Wyniki uzyskane dzięki opracowaniu RF-Score-VS. Na panelu górnym porównanie rozrzutu i korelacji między rzeczywistymi wartościami powinowactwa związków aktywnych a przewidywaniami klasycznej funkcji oceny (Vina, po lewej) oraz RF-Score-VS (po prawej). Na panelu dolnym po lewej wyniki współczynnika wzbogacenia dla popularnych klasycznych funkcji oceny oraz RF-Score-VS. Na panelu dolnym po prawej sposób reprezentacji kompleksu ligand-receptor; dla atomu fluoru w ligandzie stworzona jest sfera 12A, następnie wszystkie typy atomów są zliczane do jednowymiarowego wektora sum. Dokładny opis metod oraz wyników znajduje się w [2].

16

Page 17: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

Pafnucy

Sukces RF-Score-VS potwierdził, że zastosowanie mniej restrykcyjnej reprezentacji

kompleksów ligand-receptor pozwala na zbudowanie bardziej wydajnego modelu

przewidującego oddziaływania ligand-receptor. Zostało to jednak potwierdzone dla

ograniczonej liczby receptorów, t.j. 102 struktur. W publicznych bazach danych znajduje się

obecnie ponad 12 tysięcy rozwiązanych eksperymentalnie układów ligand-receptor [43,44].

Czy wykorzystanie większej liczby kompleksów spowoduje polepszenie czy pogorszenia

wyników przewidywań; czy sposób reprezentacji kompleksów zastosowany w RF-Score-VS

nie ogranicza odgórnie wydajności funkcji oceny opartej o niego? Próbując odpowiedzieć na

te pytania chciałem zbudować model, w którym reprezentacja kompleksu będzie pozwalać

modelowi samodzielnie wybierać elementy, które są istotne dla przewidywania oddziaływań.

Innymi słowy aby jak najbardziej ograniczyć inżynierię cech, które zostają wykorzystane do

trenowania modelu. Rozwiązaniem okazało się stworzenie sieci neuronowej mogącej służyć

jako funkcja oceny. W literaturze znane były już sieci pozwalające na klasyfikację ligandu

jako aktywny/nieaktywny [45,46]. My natomiast za cel postawiliśmy sobie aby nasza sieć

zwracała wartość powinowactwa dla kompleksu ligand-receptor; dzięki temu będzie mogła

być w pełni wykorzystana w badaniach przesiewowych.

Aby zwiekszyć liczbę struktur wykorzystalismy kompleksy ligand-receptor dostępne w bazie

PDBbind [13]. Baza została podzielona na 3 zestawy danych - treningowe, testowe oraz

zestaw walidacyjny wykorzystywany do kontroli procesu uczenia (t.j. oceny jak

minimalizacja błędu przewidywania dla zbioru treningowego poprawia wyniki dla

niezależnego zbioru danych). Zbiór treningowy obejmował 11906 kompleksów. W dwóch

zestawach testowych znalazło się 195 unikalnych kompleksów z podzbioru PDBBind „core

set 2013” i 290 kompleksów ze zbioru “core set 2016”. Zbiór walidacyjny to 1000 losowo

wybranych kompleksów z bazy PDBBind. Oczywiście żaden z kompleksów nie jest obecny

w zbiorze treningowym i testowym, tak aby nie występował problem wycieku danych (ang.

data leakage).

W naszym podejściu kompleks został opisany jako sześcian o bokach 20Å, zbudowany

wokół geometrycznego środka natywnego ligandu. Następnie atomy znajdujące się wewnątrz

takiego sześcianu zostały sprowadzone na trójwymiarową siatkę o rozdzielczości 1Å co

pozwoliło reprezentować kompleks jako macierz o ustalonym rozmiarze. Podejście to

pozwoliło na reprezentacje danych wejściowych w formie czterowymiarowych tensorów,

17

Page 18: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

gdzie trzy z jego wymiarów to koordynaty kartezjańskie, zaś czwarty jest wektorem

opisującym “cechy” atomu. Wykorzystaliśmy 19 cech do opisania atomu:

● 9 bitów (1 jeśli obecny) odpowiadających typom atomów: B, C, N, O, P, S, Se,

halogen i metal.

● 1 liczba całkowita odpowiadająca hybrydyzacji

● 1 liczba całkowita odpowiadająca sumie wiązań z atomami ciężkimi

● 1 liczba całkowita odpowiadająca sumie wiązań z heteroatomami

● 5 bitów (1 jeśli obecny) odpowiadające obecności jednej z pięciu cech

zdefiniowanych wzorem SMARTS: hydrofobowy, aromatyczny, akceptor, donor oraz

pierścień

● 1 liczba odpowiadająca ładunkowi cząstkowemu (ang. partial charge)

● 1 liczba całkowita do rozróżniania ligandu (1) od receptora (-1)

Dzięki powyższej reprezentacji stworzyliśmy bardzo neutralne podejście do opisu

kompleksu, w którym receptor i ligand mają te same typy atomów (różniące się tylko jednym

bitem). Podejście to pełni funkcję regularyzacji [47] gdyż wymusza aby sieć wykrywała

interakcje między atomami receptora a liganda.

Do budowy modelu została wykorzystana biblioteka Tensorflow [48]. Po warstwie

wejściowej obsługującej dane następują 3 warstwy konwolucyjne (z redukcją wymiarowości

typu „max pooling”), a następnie 3 warstwy gęste. Warstwa wyjściowa składała się z jednego

neuronu liniowego zwracającego wartość powinowactwa. Aby poprawić uczenie modelu

zastosowaliśmy dwa sposoby regularyzacji. Pierwszym był tzw. „dropout” na poziomie 0.5

dla warstw gęstych, co oznacza, że podczas uczenia 50% neuronów było maskowanych i nie

brało udziału w przewidywaniu. Drugim sposobem regularyzacji była kara za zwiększenie

wag typu L2. To drugie podejście pozwoliło nam też śledzić jak zmieniają się wartości kar

dla poszczególnych cech atomów.

Tak skonstruowany model został wytrenowany z wykorzystaniem wspomnianych wcześniej

kompleksów ligand-receptor. Model osiągnął znacznie lepszą dokładność (korelację między

strukturą kompleksu a wartością powinowactwa) od wszystkich 20 powszechnie używanych

funkcji oceny. Najlepsza funkcja X-score osiągnęła współczynnik korelacji Pearsona na

poziomie 0.6, podczas gdy sieć neuronowa uzyskała R=0.7 dla zbioru testowego z 2013 roku

oraz R=0.78 dla zbioru z roku 2016 [3]. Nasze badania potwierdziły więc hipotezę iż

wykorzystanie większej liczby danych strukturalnych jest możliwe i zwiększa wydajność

18

Page 19: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

modelu predykcyjnego. Dodatkowo wydaje się iż najważniejsze, najbardziej istotne elementy

konieczne do przewidywania powinowactwa znajdują mogą być odnalezione w danych

strukturalnych (t.j. kompleksach ligand-receptor rozwiązanych eksperymentalnie). Innymi

słowy struktura kompleksu ligand-receptor, przy założeniu jej w miarę prawidłowej

konformacji, niesie w sobie dostatecznie dużo informacji aby zadanie przewidywania

powinowactwa można było rozwiązać w dostatecznie dobrym przybliżeniu.

Ważnym celem naszych badań było też zrozumienie w jaki sposób model wybiera cechy

które wykorzystuje do przewidywania powinowactwa; w jaki sposób odróżniania sygnału od

szumu i jak stabilne są uzyskane wyniki. W przypadku sieci neuronowych nie jest to zadanie

łatwe. W pierwszej kolejności zbadaliśmy jak wygląda zakres kar za zwiększenie wag dla

poszczególnych cech atomów które sieć analizowała. Ich zakres pośrednio mówi o wpływie

jaki dana cecha miała na model; jeśli kary dla danej cechy różnią się znacząco od

wyjściowego “0”, cecha taka musi nieść informację istotną dla modelu i zwracanego

przewidywania. Cechą o najszerszym zakresie jest cecha odróżniająca receptor od ligandu.

Wynik ten wskazuje, że powinowactwo wiązania zależy od związku między tymi dwiema

cząsteczkami i że rozpoznanie ich przez sieć jest kluczowe. Ponadto wagi dla typów atomów

selenu i boru (odpowiednio Se i B) zmieniły się nieznacznie i są bliskie zeru. Wynik ten

można interpretować na dwa sposoby: albo sieć znalazła inne cechy kompleksów

białko-ligand, ważniejsze dla powinowactwo wiązania, lub z powodu rzadkiego

występowania tych typów atomów w ligandach, sieć nie była w stanie znaleźć żadnych

ogólnych wzorów dla ich wpływu na powinowactwo wiązania.

Aby dokładniej sprawdzić, w jaki sposób sieć wykorzystuje dane wejściowe,

przeanalizowaliśmy wpływ brakujących danych na przewidywania. W tym celu wybraliśmy

jeden z kompleksów PDE10A z inhibitorem benzimidazol (kompleks PDB ID: 3WS8, ligand

PDB ID: X4C). następnie zostały wygenerowane 343 “uszkodzone” kompleksy z

brakującymi danymi. Brakujące dane zostały wygenerowane przez usunięcie sześcianu o

boku 5Å z oryginalnych danych i systematyczne przesuwanie krokiem 3Å we wszystkich

kierunkach. Następnie obróciliśmy kompleks o 180° wokół osi X i wykonaliśmy tę samą

procedurę, uzyskując kolejne 343 uszkodzone dane wejściowe. Dla każdej z dwóch

orientacji, analizowaliśmy 15 uszkodzonych wejść, które miały największy spadek

przewidywanego powinowactwa aby ustalić, które brakujące atomy kompleksu spowodowały

największe spadki w przewidywaniach. Dla obu orientacji został zidentyfikowany ten sam

19

Page 20: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

region zawierający ligand i jego najbliższe sąsiedztwo. Zawiera on aminokwasy

uczestniczące w oddziaływaniach z ligandem, tj. Gln726 i Tyr693 tworzące wiązanie

wodorowe z ligandem, Phe729, który tworzy oddziaływanie π-π oraz Met713, który tworzy

hydrofobowe kontakty. Metodologia przedstawiona powyżej może być zastosowana do

innych kompleksów w celu wyjaśnienia konkretnych interakcji ligand-receptor z

najsilniejszym wpływem na przewidywanie.

Nasz model jest zdolny nie tylko do rozróżniania związków aktywnych od nieaktywnych, ale

co ważne dostarcza wartość powinowactwa. Może być więc przydatny w wielu

zastosowaniach, w tym podczas wirtualnego badania przesiewowego. Jeden z naszych

recenzentów stwierdził nawet, że "chciałbym pochwalić autorów za świetną pracę, z której

powinni być dumni. Będzie to miało znaczącą korzyść dla szerszej społeczności i być może

zainicjuje nową rewolucję w funkcjach scoringowych " (ang. “I would like to applaud the

authors for an excellent piece of work of which they should be proud. This will be of

significant benefit to the wider community and perhaps spearhead a new revolution in scoring

functions”). Kod źródłowy oraz oprogramowanie dostępne jest jako repozytorium git pod

adresem: http://gitlab.com/cheminfIBB/pafnucy.

20

Page 21: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

Figura 4. Zastosowanie głębokiej, konwolucyjnej sieci neuronowej [3] do przewidywania powinowactwa kompleksów ligand-receptor. U góry wyniki korelacji Pearsona (Rp) dla dwóch zestawów danych (core 2013 - 195 kompleksów, core2016- 295 kompleksów). U dołu po lewej graficzna reprezentacja rozrzutu kar dla cech atomów kompleksu, wskazująca które cechy były dla modelu istotne. U dołu po prawej przykład przewidywania dla kompleksu białka PDE10 i inhibitora benzoimidazolowego (PDB ID: 3WS8; ligand PDB ID: X4C). Poprzez analizę, które usunięte fragmenty danych były odpowiedzialne za zmniejszoną wydajność przewidywania, można w naszej metodzie odtworzyć wzór wiązania związku do receptora. DeCAF

Szukając nowych rozwiązań związanych z przewidywaniem powinowactwa ligand-receptor

badałem metody w których to struktura związku niskocząsteczkowego (liganda) niosłaby

informację poddawaną analizie, zaś struktura receptora nie byłaby uwzględniana. Taki układ

ma podstawową zaletę; nie jest konieczne generowanie konformacji kompleksu

ligand-receptor [49]. W tego typu metodach problemem jest natomiast uwzględnienie

możliwych konformacji przestrzennych związku [50]. Konformacje mogą znacząco wpływać

21

Page 22: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

na właściwości liganda, szczególnie istotne dla potencjalnego wiązania z receptorem.

Niejednokrotnie niewielka różnica między konformacjami tego samego związku prowadzi do

uzyskiwania bardzo różnych wyników porównania [51]. Niemniej uważałem, że

uwzględnienie w reprezentacji liganda jego cech przestrzennych będzie korzystne dla

zwiększenia możliwości przewidywania projektowanej metodologii.

Generowanie dużej liczby konformacji ligandu oraz porównywanie takich konformacji

powoduje znaczne wydłużenie obliczeń. Aby rozwiązać ten problem, opracowaliśmy własną,

rozszerzoną reprezentację cząsteczki, która jest mniej złożona niż model 3D, ale uwzględnia

rozmieszczenie przestrzenne cech. Zaproponowane rozwiązanie opiera się na wykorzystaniu

względnych odległości między poszczególnymi atomami liganda. Dzięki temu związek mógł

zostać opisany jako graf, w którym długości krawędzi pomiędzy wierzchołkami są równe

liczbie wiązań dzielących odpowiadające im atomy. Same atomy zaś zostały zamienione na

punkty farmakoforowe. Pozwoliło to na wprowadzenie “cech” atomów (np. donor/akceptor

wiązania wodorowego) do porównania. Wykorzystanie grafu pozwoliło ominąć generowanie

konformacji i umożliwiło szybkie i wydajne porównywanie związków. Dodatkowym

elementem wzbogacającym reprezentację było zastosowanie wag dla poszczególnych cech

farmakoforowych. Wagi te odpowiadają częstości obserwowania danego elementu struktury

w porównywanych cząsteczkach z których stworzono farmakofor; można je też ręcznie

modyfikować, wprowadzając w ten sposób dodatkową informację do modelu [19].

Stworzona reprezentacja w pierwszej kolejności miała służyć do porównywania związków

między sobą i znajdowania części wspólnej. Nasza metoda oferuje więc miarę podobieństwa

cząsteczek opartą o ich cechy fizyko-chemiczne i przestrzenne, abstrahując od szczegółów

budowy. Pozwala więc na wyszukiwanie cząsteczek podobnych do danego liganda lub do

bardziej złożonego modelu, opisującego całą grupę cząsteczek aktywnych. To właśnie dzięki

tym właściwościom można wykorzystać naszą metodę - DeCAF (Discrimination,

Comparison, Alignment Tool for 2D PHarmacophores) do przewidywania aktywności

nowych związków drobnocząsteczkowych w badaniach przesiewowych.

Nasza metodologa została przetestowana na kilka różnych sposobów na dwóch zestawach

danych: 1) zestawie opracowanym przez Riniker i Landrum [52] składającym się z 88 celów

białkowych (receptorów) pozwalając porównać się z obecnie stosowanymi metodami 2D

(tzw. odciski palców, ang. fingerprints), oraz 2) zestawie 73 receptorów odtworzonym przez

nas na podstawie Lounkine et al. [53] Zestaw ten pozwolił porównać się z bardziej

22

Page 23: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

wyrafinowaną metodą porównywania cząsteczek (SEA - Similarity Ensemble Approach -

[53] ), zmniejszającą liczbę fałszywych pozytywnych wyników.

Z przeprowadzonych przez nas eksperymentów jasno wynikało, że nasza metoda nie jest

znacząco lepsza ani gorsza od 14 przetestowanych typów odcisków palców. Swoją przewagę

natomiast ujawnia przede wszystkim we wczesnym wzbogaceniu EF. W wysokim zakresie

listy rankingowej zapewnia dużą liczbę prawdziwie pozytywnych wyników odznaczających

się wysoka oceną, a także małą liczbę fałszywie pozytywnych przewidywań z wysoką oceną.

Taka kombinacja nie jest dostępna dla żadnego z testowanych odcisków palców [19].

Ciekawe okazały się też porównania z USRCAT, metodą 3D wykorzystującą rozpoznawanie

kształtu. Wybraliśmy USRCAT, ponieważ uważany jest za dokładny i efektywny algorytm

porównujący cząsteczki. Jego jedynym czasochłonnym etapem jest proces generowania

konformerów. Z naszych porównań wynika że skuteczność DeCAF była porównywalna lub

lepsza niż USRCAT. Natomiast brak konieczności generowania konformerów dla każdej

cząsteczki w przypadku naszej metody pozwala ją zastosować do znacznie większych

zbiorów danych.

Uzyskane przez nas rezultaty pokazują, że dla większości receptorów zastosowanie naszego

rozwiązania w postaci pakietu DeCAF [19] pozwala lepiej oceniać aktywność cząsteczek niż

najczęściej używany algorytm SEA [53], używający wyłącznie reprezentacji 2D. Dodatkowo

nasze rozwiązanie, wykorzystujące informację 3D można wykorzystać w badaniach

przesiewowych, co wyróżnia je na tle konkurencji. W przypadku USRCAT [54], choć samo

przeszukanie jest porównywalnie szybkie, etap generowania modeli dla zestawu związków

jest na tyle długi że nie udało nam się w skończonym czasie ich wygenerować dla wszystkich

testowanych receptorów.

Podsumowując pakiet oprogramowania pod nazwą DeCAF pozwolił nam na stworzenie

szybkiego i skutecznego narzędzia do oceny aktywności cząsteczek chemicznych.

Opracowana metoda ma wiele potencjalnych zastosowań związanych z komputerowym

projektowaniem leków. Oprogramowanie można pobrać z repozytorium:

https://bitbucket.org/marta-sd/decaf/

23

Page 24: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

Figura 5. Konstrukcja modelu DeCAF opartego o strukturę ligandu oraz niektóre uzyskane wyniki. U góry schematyczne przedstawienie metody opartej o cechy farmakoforowe i odległości między atomami. U dołu po lewej porównanie przewidywania modelu DeCAF z metodą SEA na zestawie 35 receptorów. U dołu szczegółowe porównanie przewidywania modelu DeCAF i różnych metod 2D. Bardziej szczegółowy opis metodologii oraz wyników znajduje się w [19] PLEC FP

Kontynuując moje poszukiwania nowych sposobów reprezentowania kompleksu

białko-ligand, w celu ograniczenia wykorzystania współrzędnych kartezjańskich, badałem

możliwość wykorzystania odcisków palców do opisu interakcji kompleksu ligand-receptor

(ang. interaction fingerprints, IFP). Odciski palców (ang. fingerprints, FP) są jednym z

kluczowych metod w cheminformatyce, pozwalających na efektywną reprezentację

cząsteczek przy pomocy wektorów o stałej długości zawierające typy boolowskie lub liczby

całkowite. Odciski palców (FP) mogą również służyć do reprezentowania oddziaływań

wewnątrzcząsteczkowych. Niektóre interesujące przykłady takiego zastosowania obejmują

SiFT (Structural Interaction Fingerprints - [55]), PyPLIFs (Protein–Ligand Interaction

Fingerprints - [25]) lub bardziej zaawansowany (Structural Protein–Ligand Interaction

Fingerprint [24]). Wszystkie one wykorzystują zdefiniowane wcześniej, znane typy

oddziaływań, takie jak wiązania wodorowe, wiązania halogenowe lub układy π-π. Istnieją

24

Page 25: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

również warianty IFP, które grupują znane interakcje według typu aminokwasu z którym

oddziałuje ligand; np. SILIRID - Simple Ligand–Receptor Interaction Descriptor [26].

Z moich poprzednich prac, szczególnie wyników uzyskanych dzięki RF-Score-VS oraz

eksperymentów z uczeniem głębokim, wywnioskowałem że nie jest konieczne dokładne

zdefiniowanie interakcji między ligandem i receptorem i stosowanie ich do opisu kompleksu.

To stwierdzenie jest prawdziwe szczególnie w przypadku zaszumionych danych, w moim

przypadku wyników wysokoprzepustowych badań przesiewowych [2] lub też gdy

wykorzystuje się duże zbiory danych strukturalnych uzyskanych w wyniku eksperymentów o

różnej dokładności, w różnych warunkach fizykochemicznych i/lub różnej metodologii [3].

W przypadku przewidywań powinowactwa wystarczy prosta, (a nawet uproszczona)

reprezentacja informacji 3D, w której interakcje nie są zdefiniowane jawnie (ang. explicit),

ale raczej wynikają pośrednio (an. implicit) w procesie uczenia statystycznego. W

opisywanym projekcie próbowałem połączyć ten pomysł z koncepcją IFP, aby zapewnić

prosty, zunifikowany sposób opisywania kompleksu białko-ligand, jednak wystarczająco

“bogaty” aby interakcje ligand-receptor mogły zostać pośrednio zakodowane.

Nasze rozwiązanie (nazwane PLEC FP - Protein-Ligand Extended Connectivity Fingerprint

[21]) opiera się na odcisku palca ECFP przedstawionym przez [56] i wykorzystującym

otoczenie atomu w przestrzeni, nie zaś obecności (lub braku) zdefiniowanych grup

funkcyjnych czy podstruktur. W przeciwieństwie do ECFP w naszym podejściu używamy

tylko atomów liganda mających kontakt z inną molekułą. Wektor PLEC FP przechowuje

więc otoczenia atomów z obu wzajemnie oddziałujących elementów kompleksu, a sposób ich

kodowania pozwala na wysoce wydajne przetwarzanie i porównywanie.

Aby poznać mocne i słabe strony naszego podejścia, testowaliśmy PLEC FP pod kątem

wykorzystania reprezentacji do przewidywania powinowactwa. Do tego celu użyliśmy bazy

PDBBind [44]: “general set” do treningu oraz zestawów “core set” v.2013 i v.2016 do

testów. Dodatkowo wykorzystaliśmy zestaw porównawczy CASF-2013 [13] do porównania

naszych wyników z 20-ma aktualnie wykorzystywanymi funkcjami oceny (ang. scoring

functions, SF). Trzy typy modeli uczenia maszynowego zostały wytrenowane z

wykorzystaniem reprezentacji PLEC FP do przewidywania wartości powinowactwa

kompleksów ligand-receptor; 1) regresja liniowa, 2) lasy losowy (ang. random forests) i 3)

sieć neuronowa typu FC, ang. fully connected).

25

Page 26: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

Pierwszym ważnym wnioskiem płynącym z naszych porównań jest to, że wyniki trzech

różnych modeli wytrenowanych na PLEC FP są dość podobne. Taka spójna wydajność

przewidywań, tj. stabilność wyników, jest najprawdopodobniej spowodowana zakodowaniem

w reprezentacji PLEC ważnych globalnych cech kompleksu. Chociaż niewielki wzrost

wydajności jest możliwy poprzez zmianę modelu liniowego na bardziej złożony, taki jak las

losowy czy sieć neuronowa, preferowana jest regresja liniowa ze względu na swoją prostotę.

Współczynniki takiego modelu można interpretować bezpośrednio, określając wpływ danej

cechy na przewidywanie powinowactwa ligandu. Co ważne, każdy bit w PLEC FP można

przypisać do macierzystej podstruktury w kompleksie, co bardzo rozszerza możliwości

zastosowania PLEC FP.

Bardzo obiecujące były również wyniki wydajności przewidywań modeli wytrenowanych na

reprezentacji PLEC FP. Zarówno model liniowy jak i sieć neuronowa testowane na zestawie

v.2016 osiągnęły Rp = 0,817. Dla zestawu v.2013 model liniowy i sieć neuronowa uzyskały

odpowiednio Rp = 0,771 i Rp = 0,764. Model liniowy był również nieznacznie lepszy niż

najnowsza funkcja oceny oparta o ML: RF-Score v3 (Rp = 0.803, test na zestawie v.2016),

zapewniając jednocześnie znacznie prostszy i łatwiejszy do interpretacji wynik. Ponadto

wyniki dla zestawu porównawczego CASF-2013 wykazały, że model liniowy PLEC jest

wyraźnie lepszy niż wszystkie 20 funkcji oceny przetestowane na tym zestawie. Najlepsza

funkcja X-Score uzyskała Rp = 0,614, w porównaniu do Rp = 0,757 dla PLEC FP. Zgodnie z

naszą najlepszą wiedzą model liniowy wytrenowany na reprezentacji PLEC FP jest

najlepszym opublikowanym modelem testowanym na tych zestawach danych, a ponadto jest

też najmniej skomplikowany.

Na koniec w porównaniu z innymi metodami stosowanymi do reprezentowania kompleksów

receptor-ligand, nasze rozwiązanie również dawało konsystentne i bardzo dobre wyniki

korelacji przewidywań z wartościami eksperymentalnymi. Tu również obserwowaliśmy iż

nawet najprostszy model liniowy zbudowany na reprezentacji PLEC (Rp= 0.817) był lepszy

niż najbardziej wydajne modele ML wytrenowane na innych IFP. Na zestawie testowym

v.2016 model liniowy oparty na reprezentacji SILIRID uzyskał Rp = 0,36, a sieć neuronowa

osiągnęła Rp = 0,52. Z kolei reprezentacja SPLIF pozwoliła uzyskać znacznie lepszą choć

wciąż niższą korelację; Rp = 0,78 zarówno dla modelu liniowego oraz sieci neuronowej.

Podsumowując, wykazaliśmy że reprezentacja PLEC FP jest dokładna i działa wyjątkowo

dobrze nawet z prostym modelem regresji liniowej. Dodatkowo analiza współczynników

26

Page 27: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

równania liniowego może pokazać wpływ danego kontaktu na przewidywane powinowactwo

ligandu. Chociaż podjęto wiele prób opracowania wszechstronnych odcisków palców

interakcji (IFP), nadal brakuje ogólnego, prostego i łatwego do interpretacji rozwiązania.

Wierzę, że nasze wyniki uprawniają nas do przedstawić FP PLEC jako kandydata do tego

zadania.

PLEC FP jest zaimplementowany w ODDT, Open Drug Discovery Toolkit,

https://github.com/oddt/oddt. Dodatkowo PLEC FP i inne funkcjonalności

zaimplementowane w ODDT można łatwo przetestować za pomocą przeglądarki

internetowej za pomocą MyBindera, patrz https://github.com/oddt/notebooks.

HTSAS

Oprócz metod przewidywania oddziaływania związków drobnocząsteczkowych z

receptorami szukałem także metod, które pozwalały znajdywać nowe receptory - cele

molekularne dla związków. W związku z tym zająłem się metodami automatycznego

poszukiwania informacji w literaturze naukowej, w szczególności skierowanymi w stronę

automatycznej adnotacji funkcjonalnej białek. Wynikiem tych zainteresowań były prace dwie

prace w BMC Bioinformatics [57] (jestem jednym z dwóch pierwszych autorów) oraz

Bioinformatics [58] (drugi współautor). Prace te pozwoliły mi rozwinąć warsztat statystyczny

oraz programistyczny, przede wszystkim skierowany na wyszukiwanie istotnych sygnałów w

bardzo zaszumionych danych. Dzięki uzyskanym wynikom zainteresowałem się wieloma

innymi celami molekularnymi i nawiązałem współpracę z szeregiem pracowni czego efektem

były prace które omawiam w rozdziale “pozostałe osiągnięcia naukowe”.

Podsumowanie

Przewidywanie powinowactwa związków niskocząsteczkowych do celów białkowych

(receptorów) jest skomplikowanym i wieloaspektowym problemem nad którym pracuje wielu

badaczy na całym świecie. Istnieje przekonanie, że dane strukturalne nie niosą w sobie

wystarczającej informacji aby problem ten skutecznie rozwiązać. Do pewnego stopnia jest to

prawda; jasne jest, że dane uzyskiwane dzieki krystalografii rentgenowskiej, NMR, CryoEM

czy modelowaniu nie opisują np. właściwości ADME (ang. absorption, distribution,

metabolism, excretion). Niemniej moje eksperymenty i opublikowane wyniki wskazują, iż

dane strukturalne zawierają dużo więcej informacji niż standardowo poddawanych jest

27

Page 28: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development
Page 29: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

doi:10.1093/bioinformatics/bty374

4. Chaput L, Mouawad L. Efficient conformational sampling and weak scoring in docking programs? Strategy of the wisdom of crowds. J Cheminform. 2017;9: 37.

5. Siedlecki P, Garcia Boy R, Comagic S, Schirrmacher R, Wiessler M, Zielenkiewicz P, et al. Establishment and functional validation of a structural homology model for human DNA methyltransferase 1. Biochem Biophys Res Commun. 2003;306: 558–563.

6. Xu D, Zhang Y. Ab initio protein structure assembly using continuous structure fragments and optimized knowledge-based force field. Proteins. 2012;80: 1715–1735.

7. Kmiecik S, Gront D, Kolinski M, Wieteska L, Dawid AE, Kolinski A. Coarse-Grained Protein Models and Their Applications. Chem Rev. 2016;116: 7898–7936.

8. Law V, Knox C, Djoumbou Y, Jewison T, Guo AC, Liu Y, et al. DrugBank 4.0: shedding new light on drug metabolism. Nucleic Acids Res. 2014;42: D1091–7.

9. Morra G, Genoni A, Neves MAC, Merz KM Jr, Colombo G. Molecular recognition and drug-lead identification: what can molecular simulations tell us? Curr Med Chem. 2010;17: 25–41.

10. Warren GL, Do TD, Kelley BP, Nicholls A, Warren SD. Essential considerations for using protein-ligand structures in drug discovery. Drug Discov Today. 2012;17: 1270–1281.

11. Sliwoski G, Kothiwale S, Meiler J, Lowe EW Jr. Computational methods in drug discovery. Pharmacol Rev. 2014;66: 334–395.

12. Crunkhorn S. Computational chemistry: Novel virtual screening approach. Nat Rev Drug Discov. 2016;16: 18.

13. Li Y, Han L, Liu Z, Wang R. Comparative assessment of scoring functions on an updated benchmark: 2. Evaluation methods and general results. J Chem Inf Model. 2014;54: 1717–1736.

14. Gilson MK, Given JA, Bush BL, McCammon JA. The statistical-thermodynamic basis for computation of binding affinities: a critical review. Biophys J. 1997;72: 1047–1069.

15. Huang S-Y, Grinter SZ, Zou X. Scoring functions and their evaluation methods for protein-ligand docking: recent advances and future directions. Phys Chem Chem Phys. 2010;12: 12899–12908.

16. Waszkowycz B, Clark DE, Gancia E. Outstanding challenges in protein-ligand docking and structure-based virtual screening: Outstanding challenges in protein-ligand docking and structure-based virtual screening. WIREs Comput Mol Sci. 2011;1: 229–259.

17. Voth AR, Khuu P, Oishi K, Ho PS. Halogen bonds as orthogonal molecular interactions to hydrogen bonds. Nat Chem. 2009;1: 74–79.

18. Xu W, Lucke AJ, Fairlie DP. Comparing sixteen scoring functions for predicting biological activities of ligands for protein targets. J Mol Graph Model. 2015;57: 76–88.

19. Stepniewska-Dziubinska MM, Zielenkiewicz P, Siedlecki P. DeCAF-Discrimination, Comparison, Alignment Tool for 2D PHarmacophores. Molecules. 2017;22. doi:10.3390/molecules22071128

20. Wójcikowski M, Zielenkiewicz P, Siedlecki P. DiSCuS: an open platform for (not only) virtual screening results management. J Chem Inf Model. 2014;54: 347–354.

21. Wójcikowski M, Kukiełka M, Stepniewska-Dziubinska M, Siedlecki P. Development of a Protein-Ligand Extended Connectivity (PLEC) Fingerprint and Its Application for Binding Affinity Predictions. 2018; doi:10.26434/chemrxiv.5928406.v1

22. Metz CE. Basic principles of ROC analysis. Semin Nucl Med. 1978;8: 283–298.

29

Page 30: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

23. DeLong ER, DeLong DM, Clarke-Pearson DL. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics. 1988;44: 837–845.

24. Da C, Kireev D. Structural protein-ligand interaction fingerprints (SPLIF) for structure-based virtual screening: method and benchmark study. J Chem Inf Model. 2014;54: 2555–2561.

25. Radifar M, Yuniarti N, Istyastono EP. PyPLIF: Python-based Protein-Ligand Interaction Fingerprinting. Bioinformation. 2013;9: 325–328.

26. Chupakhin V, Marcou G, Gaspar H, Varnek A. Simple Ligand-Receptor Interaction Descriptor (SILIRID) for alignment-free binding site comparison. Comput Struct Biotechnol J. 2014;10: 33–37.

27. Wójcikowski M, Zielenkiewicz P, Siedlecki P. Open Drug Discovery Toolkit (ODDT): a new open-source player in the drug discovery field. J Cheminform. 2015;7: 26.

28. Durrant JD, McCammon JA. NNScore 2.0: a neural-network receptor-ligand scoring function. J Chem Inf Model. 2011;51: 2897–2903.

29. Ballester PJ, Mitchell JBO. A machine learning approach to predicting protein-ligand binding affinity with applications to molecular docking. Bioinformatics. 2010;26: 1169–1175.

30. Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine Learning in Python. J Mach Learn Res. 2011;12: 2825–2830.

31. Wojciechowski M. Feed-forward neural network for python. Technical University of Lodz (Poland), Department of Civil Engineering, Architecture and Environmental Engineering, http://ffnet sourceforge net. 2011;

32. Zilian D, Sotriffer CA. SFCscore(RF): a random forest-based scoring function for improved affinity prediction of protein-ligand complexes. J Chem Inf Model. 2013;53: 1923–1933.

33. Varnek A, Baskin I. Machine learning methods for property prediction in chemoinformatics: Quo Vadis? J Chem Inf Model. 2012;52: 1413–1437.

34. Cruz-Monteagudo M, Medina-Franco JL, Perera-Sardiña Y, Borges F, Tejera E, Paz-Y-Miño C, et al. Probing the Hypothesis of SAR Continuity Restoration by the Removal of Activity Cliffs Generators in QSAR. Curr Pharm Des. 2016;22: 5043–5056.

35. Bender A, Glen RC. A Discussion of Measures of Enrichment in Virtual Screening: Comparing the Information Content of Descriptors with Increasing Levels of Sophistication. J Chem Inf Model. American Chemical Society; 2005;45: 1369–1375.

36. Truchon J-F, Bayly CI. Evaluating virtual screening methods: good and bad metrics for the “early recognition” problem. J Chem Inf Model. 2007;47: 488–508.

37. Empereur-Mot C, Guillemain H, Latouche A, Zagury J-F, Viallon V, Montes M. Predictiveness curves in virtual screening. J Cheminform. 2015;7: 52.

38. Tetko IV, Livingstone DJ, Luik AI. Neural network studies. 1. Comparison of overfitting and overtraining. J Chem Inf Comput Sci. American Chemical Society; 1995;35: 826–833.

39. Mysinger MM, Carchia M, Irwin JJ, Shoichet BK. Directory of useful decoys, enhanced (DUD-E): better ligands and decoys for better benchmarking. J Med Chem. 2012;55: 6582–6594.

40. Ho TK. The random subspace method for constructing decision forests. IEEE Trans Pattern Anal Mach Intell. 1998;20: 832–844.

41. Breiman L. Random Forests. Mach Learn. 2001;45: 5–32.

42. Chawla NV. Data Mining for Imbalanced Datasets: An Overview. In: Maimon O, Rokach L, editors. Data

30

Page 31: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development

Mining and Knowledge Discovery Handbook. Boston, MA: Springer US; 2005. pp. 853–867.

43. Wang R, Fang X, Lu Y, Yang C-Y, Wang S. The PDBbind database: methodologies and updates. J Med Chem. 2005;48: 4111–4119.

44. Liu Z, Su M, Han L, Liu J, Yang Q, Li Y, et al. Forging the Basis for Developing Protein-Ligand Interaction Scoring Functions. Acc Chem Res. 2017;50: 302–309.

45. Wallach I, Dzamba M, Heifets A. AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery [Internet]. arXiv [cs.LG]. 2015. Available: http://arxiv.org/abs/1510.02855

46. Ragoza M, Hochuli J, Idrobo E, Sunseri J, Koes DR. Protein-Ligand Scoring with Convolutional Neural Networks. J Chem Inf Model. 2017;57: 942–957.

47. Hinton GE, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov RR. Improving neural networks by preventing co-adaptation of feature detectors [Internet]. arXiv [cs.NE]. 2012. Available: http://arxiv.org/abs/1207.0580

48. Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, et al. TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems [Internet]. arXiv [cs.DC]. 2016. Available: http://arxiv.org/abs/1603.04467

49. Eckert H, Bajorath J. Molecular similarity analysis in virtual screening: foundations, limitations and novel approaches. Drug Discov Today. 2007;12: 225–233.

50. Renner S, Schneider G. Scaffold-hopping potential of ligand-based similarity concepts. ChemMedChem. 2006;1: 181–185.

51. Shin W-H, Zhu X, Bures MG, Kihara D. Three-dimensional compound comparison methods and their application in drug discovery. Molecules. 2015;20: 12841–12862.

52. Riniker S, Landrum GA. Better Informed Distance Geometry: Using What We Know To Improve Conformation Generation. J Chem Inf Model. 2015;55: 2562–2574.

53. Lounkine E, Keiser MJ, Whitebread S, Mikhailov D, Hamon J, Jenkins JL, et al. Large-scale prediction and testing of drug activity on side-effect targets. Nature. 2012;486: 361–367.

54. Schreyer AM, Blundell T. USRCAT: real-time ultrafast shape recognition with pharmacophoric constraints. J Cheminform. 2012;4: 27.

55. Deng Z, Chuaqui C, Singh J. Structural interaction fingerprint (SIFt): a novel method for analyzing three-dimensional protein-ligand binding interactions. J Med Chem. 2004;47: 337–344.

56. Rogers D, Hahn M. Extended-connectivity fingerprints. J Chem Inf Model. 2010;50: 742–754.

57. Kaczanowski S, Siedlecki P, Zielenkiewicz P. The High Throughput Sequence Annotation Service (HT-SAS) - the shortcut from sequence to true Medline words. BMC Bioinformatics. 2009;10: 148.

58. Gladki A, Siedlecki P, Kaczanowski S, Zielenkiewicz P. e-LiSe--an online tool for finding needles in the “(Medline) haystack.” Bioinformatics. 2008;24: 1115–1117.

59. Cerqueira NMFSA, Sousa SF, Fernandes PA, Ramos MJ. Virtual screening of compound libraries. Methods Mol Biol. 2009;572: 57–70.

60. Schneider G. Virtual screening: an endless staircase? Nat Rev Drug Discov. 2010;9: 273–276.

61. Lounnas V, Ritschel T, Kelder J, McGuire R, Bywater RP, Foloppe N. Current progress in Structure-Based Rational Drug Design marks a new mindset in drug discovery. Comput Struct Biotechnol J. 2013;5: e201302011.

31

Page 32: Paweł Aleksander Siedlecki Przewidywanie powinowactwa … · 2019. 9. 10. · Maciej Wójcikowski, Michał Kukiełka, Marta Stepniewska-Dziubinska oraz Paweł Siedlecki , 2018, “Development