• Suomi
  • English

Uusi koneoppimisen menetelmä nopeuttaa lääkeaineiden seulontaa satakertaisesti

Itä-Suomen yliopistossa seulottiin virtuaalisesti 1,56 miljardia molekyyliä kahdelle lääkekohde-ehdokkaalle. Seulonta oli maailman suurin lajissaan.

Suurin osa käytössä olevista lääkkeistä on suunniteltu niin, että niiden kohdemolekyyleinä ovat elimistön proteiinit. Kun proteiiniperheen yhden jäsenen rakenne on selvitetty, voidaan muiden samaan perheeseen kuuluvien proteiinien rakenne ennustaa mallintamalla. Toimiva lääke voidaan kehittää esimerkiksi siten, että seulotaan isosta kirjastosta molekyyli, jonka kolmiulotteinen rakenne mahdollistaa vuorovaikutuksen kohdeproteiinin kanssa.

Professori Antti Poson tutkimusryhmässä etsittiin kahden lääkevaikutuskandidaatin, SurA-kaperonin ja GAK-kinaasin kanssa reagoivia molekyylejä. Hankkeessa testattiin seulontaan kehitetyn HASTEN-algoritmin toimivuutta ja luotiin uusi koneoppimisen malli.

”Nämä kohdeproteiinit, eli SurA ja GAk, olivat meille entuudestaan tuttuja, olemassa olevista akateemisista tutkimushankkeista. Massiivisten seulontojen tuloksia voidaan nyt hyödyntää muissa tutkimuksissa. Emme siis pelkästään validoineet menetelmää vaan voimme myös auttaa erillisiä akateemisia tutkimushankkeita”, sanoo Poso.

Kaperonit auttavat proteiinien laskostumisessa ja säätelevät proteiinien välisiä vuorovaikutuksia. Kinaasit toimivat mm. solujen signaalienvälittäjinä.

”SurA –kaperoni liittyy Tübingenin yliopiston yhteistyöhankkeeseen, jossa tavoitteena on kehittää uusia antibiootteja. Kinaasit taas ovat iso proteiiniperhe. Syöpälääkkeistä iso osa on kinaasi-inhibiittoreita. Kinaaseja on noin 500 erilaista ja GAK (Cyclin-G-associated kinase) on yksi niistä. GAK:n potentiaali on syöpälääkkeissä ja virusinfektoiden torjunnassa.”

Poson ryhmässä tutkitaan lääkeaineiden vuorovaikutuksia proteiinien kanssa ja rakennetaan kohdeproteiinimalleja. Kohdeproteiinin rakenteesta voidaan yleensä tunnistaa lääkeaineen sitoutumispaikka proteiinin ja saada siten lääkeaine toimimaan. Mallia voidaan erityisesti käyttää virtuaaliseulontaan, jossa suurista molekyylitietokannoista etsitään uusia ideoita lääkekehitykseen.

”Kaperoni on proteiinirakenteeltaan hyvin erityyppinen kuin kinaasi. Kyseessä on siis kaksi hyvin erilaista kohdeproteiinia, joita oli hyvä testata yhdessä.”

 

Tekoäly osasi ennustaa molekyylien sitoutumisen proteiineihin

 

Enamine Real-tietokannan täysi versio sisältää jo 48 miljardia rakennetta. Pelkästään molekyylirakenteiden muuttaminen kolmiulotteiseen muotoon on aikaavievää ja työlästä näin ison datamäärän ollessa kyseessä, mutta HASTEN-algoritmin avulla tämä vaihe voidaan ”ohittaa” ja materiaali käydään läpi muutamassa päivässä. Kuva: Ina Pöhner.

Kahden lääkeaihion rakenteen erilaisuus oli tärkeä tekijä, koska algoritmin pitää toimia kaikissa proteiiniperheissä.

”Kahdella lääkeaineaihiolla testattiin, miten Orionin Tuomo Kalliokosken kehittämä HASTEN-algoritmi toimisi CSC:n superlaskentaympäristössä. Skaalautuvuus onnistui.”

Kohdeproteiinien seulontaa tehtiin vertailun vuoksi HASTEN-algoritmilla ja perinteisellä telakointi -menetelmällä (docking). Telakoinnissa hakualgoritmi laskee vuorovaikutukset proteiinin ja tietokannassa olevan lääkeainekandidaatin välillä. Algoritmin antama lukuarvo kertoo, miten hyvin lääkeaine sitoutuu proteiiniin.

Poson ryhmässä seulottiin 1,56 miljardia lääkeainekandidaattia sisältävää molekyyliä. Molekyylit seulottiin ison ukrainalaisen kemian alan yrityksen Enaminen REAL-tietokannasta.

”Ensin laskettiin joka ikinen tietokannassa oleva piirretty kaksiulotteinen molekyyli ja ne muutettiin kolmiulotteiseen muotoon. Sitten tietokoneohjelma yritti sovittaa kunkin molekyylin GAK:n tai SurA:n sisään. Yksittäinen sovitus voi käsittää jopa satojatuhansia potentiaalisia vaihtoehtoja.”

Sitten tutkijat kokeilivat, miten koneoppimisen malli pärjäsi telakointiin verrattuna. Koneoppimiseen käytettiin HASTEN-algoritmia.

”Valitsimme ensin satunnaisesti miljoona molekyyliä ja katsoimme, miten telakointi sujui. Sitten tämä tulos kerrottiin tekoälylle. Kone siis opetteli miljoonan molekyylin perusteella ennustamaan tuloksen. Eli kun molekyyli näyttää tietynlaiselta, se telakoituu tiettyyn kohtaan.”

Tämän jälkeen tekoälylle syötettiin kaikki 1,56 miljardia molekyyliä ja ennustetiin tulokset perustuen miljoonan molekyylin tuloksiin. Parhaiksi ennustetut telakoitiin ja tulosten perusteella koneoppimine tehtiin uudelleen. Muutaman kierroksen jälkeen tekoäly ennusti telakoinnin 90% tarkkuudella.

”Opetettu kone pystyi tekemään seulonnan huomattavasti nopeammin kuin perinteisen telakointimenetelmän avulla. Kun telakoinnin laskemiseen meni pari kuukautta tehokkaillakin tietokoneilla, koneoppimisen avulla oppimisprosessi ja ennustaminen vei muutaman päivän.”

 

Poson mukaan nyt tutkijat pystyvät rutiininomaisesti seulomaan miljardeja molekyylejä samassa ajassa kuin missä aiemmin seulottiin miljoona. Lisäksi koneoppimisen mallin takia miljardien molekyylien seulonnan voi nyt tehdä ilman supertietokonetta.

”Nyt tietenkin voidaan supertietokoneella seuloa vieläkin suuremmista tietokannoista tuhansia miljardeja molekyylejä tämän menetelmän avulla. ”

Poson ryhmä tutkii seuraavaksi ns. vivid screening-menetelmää.

”Sen sijaan, että ennustetaan jokin tietty yksittäinen aktiivisuus tai telakointi, voidaankin samaan aikaan ennustaa useita erilaisia ominaisuuksia, esim. välttää jotakin sivuvaikutuksen omaavaa sitoutumispaikkaa samalla kun pidetään sitoutuminen oikeaan kohteeseen hyvänä.”

Tutkimuksessa käytettiin Suomen ELIXIR-keskuksen CSC:n superlaskentaresursseja, datantallennusta sekä tarvittavien työkalujen kontitusta.

Ari Turunen

31.8.2024

Lue artikkeli PDF-muodossa

Lisätietoja:

Toni Sivula, Laxman Yetukuri, Tuomo Kalliokoski, Heikki Käsnänen, Antti Poso & Ina Pöhner (2023): Machine Learning-Boosted Docking Enables the Efficient Structure-Based Virtual Screening of Giga-Scale Enumerated 

Chemical Libraries. J. Chem. Inf. Model. DOI: 10.1021/acs.jcim.3c01239. Available at: https://pubs.acs.org/doi/full/10.1021/acs.jcim.3c01239

 

HASTEN-algoritmi

https://github.com/TuomoKalliokoski/HASTEN

 

Itä-Suomen yliopisto

 

https://www.uef.fi/fi

 

CSC – Tieteen tietotekniikan keskus Oy

on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.

http://www.csc.fi https://research.csc.fi/cloud-computing

 

ELIXIR

rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.

https://www.elixir-finland.org

http://www.elixir-europe.org