Uusi koneoppimisen menetelmä nopeuttaa lääkeaineiden seulontaa satakertaisesti

Itä-Suomen yliopistossa seulottiin virtuaalisesti 1,56 miljardia molekyyliä kahdelle lääkekohde-ehdokkaalle. Seulonta oli maailman suurin lajissaan.

Suurin osa käytössä olevista lääkkeistä on suunniteltu niin, että niiden kohdemolekyyleinä ovat elimistön proteiinit. Kun proteiiniperheen yhden jäsenen rakenne on selvitetty, voidaan muiden samaan perheeseen kuuluvien proteiinien rakenne ennustaa mallintamalla. Toimiva lääke voidaan kehittää esimerkiksi siten, että seulotaan isosta kirjastosta molekyyli, jonka kolmiulotteinen rakenne mahdollistaa vuorovaikutuksen kohdeproteiinin kanssa.

Professori Antti Poson tutkimusryhmässä etsittiin kahden lääkevaikutuskandidaatin, SurA-kaperonin ja GAK-kinaasin kanssa reagoivia molekyylejä. Hankkeessa testattiin seulontaan kehitetyn HASTEN-algoritmin toimivuutta ja luotiin uusi koneoppimisen malli.

”Nämä kohdeproteiinit, eli SurA ja GAk, olivat meille entuudestaan tuttuja, olemassa olevista akateemisista tutkimushankkeista. Massiivisten seulontojen tuloksia voidaan nyt hyödyntää muissa tutkimuksissa. Emme siis pelkästään validoineet menetelmää vaan voimme myös auttaa erillisiä akateemisia tutkimushankkeita”, sanoo Poso.

Kaperonit auttavat proteiinien laskostumisessa ja säätelevät proteiinien välisiä vuorovaikutuksia. Kinaasit toimivat mm. solujen signaalienvälittäjinä.

”SurA –kaperoni liittyy Tübingenin yliopiston yhteistyöhankkeeseen, jossa tavoitteena on kehittää uusia antibiootteja. Kinaasit taas ovat iso proteiiniperhe. Syöpälääkkeistä iso osa on kinaasi-inhibiittoreita. Kinaaseja on noin 500 erilaista ja GAK (Cyclin-G-associated kinase) on yksi niistä. GAK:n potentiaali on syöpälääkkeissä ja virusinfektoiden torjunnassa.”

Poson ryhmässä tutkitaan lääkeaineiden vuorovaikutuksia proteiinien kanssa ja rakennetaan kohdeproteiinimalleja. Kohdeproteiinin rakenteesta voidaan yleensä tunnistaa lääkeaineen sitoutumispaikka proteiinin ja saada siten lääkeaine toimimaan. Mallia voidaan erityisesti käyttää virtuaaliseulontaan, jossa suurista molekyylitietokannoista etsitään uusia ideoita lääkekehitykseen.

”Kaperoni on proteiinirakenteeltaan hyvin erityyppinen kuin kinaasi. Kyseessä on siis kaksi hyvin erilaista kohdeproteiinia, joita oli hyvä testata yhdessä.”

Tekoäly osasi ennustaa molekyylien sitoutumisen proteiineihin

Enamine Real-tietokannan täysi versio sisältää jo 48 miljardia rakennetta. Pelkästään molekyylirakenteiden muuttaminen kolmiulotteiseen muotoon on aikaavievää ja työlästä näin ison datamäärän ollessa kyseessä, mutta HASTEN-algoritmin avulla tämä vaihe voidaan ”ohittaa” ja materiaali käydään läpi muutamassa päivässä. Kuva: Ina Pöhner.

Kahden lääkeaihion rakenteen erilaisuus oli tärkeä tekijä, koska algoritmin pitää toimia kaikissa proteiiniperheissä.

”Kahdella lääkeaineaihiolla testattiin, miten Orionin Tuomo Kalliokosken kehittämä HASTEN-algoritmi toimisi CSC:n superlaskentaympäristössä. Skaalautuvuus onnistui.”

Kohdeproteiinien seulontaa tehtiin vertailun vuoksi HASTEN-algoritmilla ja perinteisellä telakointi -menetelmällä (docking). Telakoinnissa hakualgoritmi laskee vuorovaikutukset proteiinin ja tietokannassa olevan lääkeainekandidaatin välillä. Algoritmin antama lukuarvo kertoo, miten hyvin lääkeaine sitoutuu proteiiniin.

Poson ryhmässä seulottiin 1,56 miljardia lääkeainekandidaattia sisältävää molekyyliä. Molekyylit seulottiin ison ukrainalaisen kemian alan yrityksen Enaminen REAL-tietokannasta.

”Ensin laskettiin joka ikinen tietokannassa oleva piirretty kaksiulotteinen molekyyli ja ne muutettiin kolmiulotteiseen muotoon. Sitten tietokoneohjelma yritti sovittaa kunkin molekyylin GAK:n tai SurA:n sisään. Yksittäinen sovitus voi käsittää jopa satojatuhansia potentiaalisia vaihtoehtoja.”

Sitten tutkijat kokeilivat, miten koneoppimisen malli pärjäsi telakointiin verrattuna. Koneoppimiseen käytettiin HASTEN-algoritmia.

”Valitsimme ensin satunnaisesti miljoona molekyyliä ja katsoimme, miten telakointi sujui. Sitten tämä tulos kerrottiin tekoälylle. Kone siis opetteli miljoonan molekyylin perusteella ennustamaan tuloksen. Eli kun molekyyli näyttää tietynlaiselta, se telakoituu tiettyyn kohtaan.”

Tämän jälkeen tekoälylle syötettiin kaikki 1,56 miljardia molekyyliä ja ennustetiin tulokset perustuen miljoonan molekyylin tuloksiin. Parhaiksi ennustetut telakoitiin ja tulosten perusteella koneoppimine tehtiin uudelleen. Muutaman kierroksen jälkeen tekoäly ennusti telakoinnin 90% tarkkuudella.

”Opetettu kone pystyi tekemään seulonnan huomattavasti nopeammin kuin perinteisen telakointimenetelmän avulla. Kun telakoinnin laskemiseen meni pari kuukautta tehokkaillakin tietokoneilla, koneoppimisen avulla oppimisprosessi ja ennustaminen vei muutaman päivän.”

Poson mukaan nyt tutkijat pystyvät rutiininomaisesti seulomaan miljardeja molekyylejä samassa ajassa kuin missä aiemmin seulottiin miljoona. Lisäksi koneoppimisen mallin takia miljardien molekyylien seulonnan voi nyt tehdä ilman supertietokonetta.

”Nyt tietenkin voidaan supertietokoneella seuloa vieläkin suuremmista tietokannoista tuhansia miljardeja molekyylejä tämän menetelmän avulla. ”

Poson ryhmä tutkii seuraavaksi ns. vivid screening-menetelmää.

”Sen sijaan, että ennustetaan jokin tietty yksittäinen aktiivisuus tai telakointi, voidaankin samaan aikaan ennustaa useita erilaisia ominaisuuksia, esim. välttää jotakin sivuvaikutuksen omaavaa sitoutumispaikkaa samalla kun pidetään sitoutuminen oikeaan kohteeseen hyvänä.”

Tutkimuksessa käytettiin Suomen ELIXIR-keskuksen CSC:n superlaskentaresursseja, datantallennusta sekä tarvittavien työkalujen kontitusta.

Ari Turunen

31.8.2024

Lue artikkeli PDF-muodossa

Sitaatti:

Turunen, A., & Nyrönen, T. (2024). New machine learning method speeds up drug screening hundred-fold. https://doi.org/10.5281/zenodo.13691983

Lisätietoja:

Toni Sivula, Laxman Yetukuri, Tuomo Kalliokoski, Heikki Käsnänen, Antti Poso & Ina Pöhner (2023): Machine Learning-Boosted Docking Enables the Efficient Structure-Based Virtual Screening of Giga-Scale Enumerated

Chemical Libraries. J. Chem. Inf. Model. DOI: 10.1021/acs.jcim.3c01239. Available at: https://pubs.acs.org/doi/full/10.1021/acs.jcim.3c01239

HASTEN-algoritmi

https://github.com/TuomoKalliokoski/HASTEN

Itä-Suomen yliopisto

https://www.uef.fi/fi

CSC – Tieteen tietotekniikan keskus Oy

on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.

http://www.csc.fi https://research.csc.fi/cloud-computing

ELIXIR

rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.

https://www.elixir-finland.org

http://www.elixir-europe.org

Uusi koneoppimisen menetelmä nopeuttaa lääkeaineiden seulontaa satakertaisesti

Tekoäly osasi ennustaa molekyylien sitoutumisen proteiineihin

ELIXIR SUOMI

ELIXIR PÄÄMAJA

MUUT MAAT