
Neznámé molekuly objevují s pomocí AI vědecké týmy ÚOCHB a ČVUT
27. 05. 2025
Letošní nositel Ceny Neuron pro mladé nadějné vědce Tomáš Pluskal z Ústavu organické chemie a biochemie AV ČR spolu se svým studentem Romanem Bushuievem a kolegy z Českého institutu informatiky, robotiky a kybernetiky ČVUT, Josefem Šivicem a Antonem Bushuievem, vyvinuli model strojového učení nazvaný DreaMS, který výrazně urychluje analýzu dosud neznámých molekul. Studii publikoval časopis Nature Biotechnology.
Příroda je plná chemických látek, které zatím čekají na své objevení. Předpokládá se, že neznáme naprostou většinu přírodních molekul. Jejich popis může přitom otevřít cestu k novým lékům, šetrnějším pesticidům, hlubšímu porozumění biologických procesů nebo k pokročilejšímu výzkumu života ve vesmíru.
Každá látka má unikátní vzor, podobný lidskému otisku prstu, kterému se říká hmotnostní spektrum a který dokáže zachytit metoda zvaná hmotnostní spektrometrie. Ačkoliv lze touto cestou získat obrovské množství dat, mimořádně obtížné je jim porozumět a odhalit přesné molekulární struktury. Získané datové sady se často jeví jen jako rozsáhlé tabulky čísel bez zjevného významu.
K rozluštění tajemství neznámých molekul použil tým z ÚOCHB AV ČR a CIIRC ČVUT umělou inteligenci. Podobně jako se velké jazykové modely typu ChatGPT učí porozumět jazyku, i když dopředu neznají význam slov, pokouší se model DreaMS porozumět hmotnostním spektrům, aniž by znal jejich chemické struktury. „ChatGPT dokáže z velkého množství slov odvodit jejich význam a souvislosti mezi nimi a neuronová síť DreaMS pomocí samořízeného strojového učení zase rozpoznává, jaké molekulární struktury se za spektry skrývají. Využívá přitom údaje z milionů spekter,“ vysvětluje Josef Šivic.
“Model DreaMS trénoval na desítkách milionů spekter z různých organismů a prostředí – z rostlin, mikrobů, potravin, tkání i půdních vzorků. Díky tomu dokáže nacházet skryté podobnosti mezi spektry, mezi nimiž na první pohled žádná souvislost není,” popisuje Tomáš Pluskal. Výsledkem je propojená síť usnadňující orientaci v obrovském množství chemických dat. Tuto síť, kterou je možné si představit jako internet hmotnostních spekter, nazvali vědci DreaMS Atlas. Každé spektrum je jako webová stránka spojená s ostatními. Na tomto „internetu spekter“ lze vyhledávat, sledovat objevené souvislosti a klást si nové otázky. Například, co mají společného pesticidy, potraviny a lidská kůže? DreaMS mezi nimi totiž odhalil nečekané chemické podobnosti a navrhl hypotézu, že určité pesticidy by mohly souviset s autoimunitním onemocněním, jako je lupénka.
Kromě propojování spekter z různých studií lze DreaMS využít i k dalším praktickým úlohám. Například k odhadu, kolik má molekula určitých fragmentů nebo jestli obsahuje konkrétní chemické prvky. „Překvapilo nás zejména, že se model naučil detekovat fluor,“ říká Roman Bushuiev: „Fluor se vyskytuje přibližně ve třetině všech léčiv a agrochemikálií, z hmotnostního spektra jsme ho dřív ale prakticky nedokázali odhalit. DreaMS, předtrénovaný na milionech spekter, jsme doladili na několika tisících příkladů molekul obsahujících fluor a najednou to fungovalo.“
Vědci teď pracují na dalším kroku. Učí model předpovídat celé molekulární struktury. Pokud se jim to podaří, zásadně to ovlivní náš pohled na chemickou rozmanitost, ať už na planetě Zemi, nebo dokonce ve vesmíru.
Odkaz na publikaci:
R. Bushuiev, A. Bushuiev, R. Samusevich, C. Brungs, J. Sivic and T. Pluskal, Self-supervised learning of molecular representations from millions of tandem mass spectra using DreaMS Nature Biotechnology (2025)
https://doi.org/10.1038/s41587-025-02663-3
Více informací:
Veronika Sedláčková
ÚOCHB – Komunikace
veronika.sedlackova@uochb.cas.cz
+420 602 160 135
Přečtěte si také
- Mezinárodní konference o vysokoenergetické astrofyzice
- Medaile AV ČR obdrželi historici a parazitolog
- Mikrobiologický ústav AV ČR vstupuje do společnosti AffiPro
- Netopýři ve městě: Nový výzkumný projekt zkoumá soužití lidí a netopýrů
- Euraxess slaví výročí: 20 let pomáhá vědcům a vědkyním najít domov v Česku
- Biosmršť 2025: Vědci a veřejnost znovu spojí síly při mapování nepůvodních druhů
- Nová příručka Mentoring v medicíně cílí na kultivaci medicínského prostředí
- Říp jako zkamenělé lávové jezero: nový pohled na původ legendární hory
- Vědci z ÚOCHB předpovídají nový fyzikální jev
- Cílení na mechaniku nádorů naznačuje možnou cestu k léčbě rakoviny jater
Aplikovaná fyzika
Vědecká pracoviště
- Ústav fotoniky a elektroniky AV ČR
Ústav fyziky materiálů AV ČR
Ústav fyziky plazmatu AV ČR
Ústav přístrojové techniky AV ČR
Ústav teoretické a aplikované mechaniky AV ČR
Ústav termomechaniky AV ČR
Základní fyzikální zákony jsou v ústavech této sekce východiskem pro výzkum nových struktur a makroskopických vlastností pevných látek, tekutin a plazmatu. Studium mikrostruktury a mikroprocesů otvírá cestu k řešení problémů „materiálových věd“, jako jsou např. vlastnosti kompozitních materiálů a konstrukcí, poruchová mechanika a dynamika nebo biomechanika. Modelování prostorově vysoce strukturovaného turbulentního proudění rozličných tekutin, výzkum dynamiky kapalin a plynů biosféry či plazmových technologií jsou často výrazně aplikačně orientované. Studium vysokoteplotního plazmatu se soustřeďuje především na pulsní výkonové systémy a problémy udržení a ohřevu plazmatu v tokamaku. Bádání v oblasti aplikované fyziky má často interdisciplinární charakter a jeho výsledky také nacházejí použití v nejrůznějších oblastech vědy a techniky. Například umělá syntéza přirozené a dobře srozumitelné české řeči je důležitým úkolem v oboru zpracování číslicových signálů. Unikátní přístroje a měřící techniky byly vyvinuty pro spektroskopii a elektronovou mikroskopii živých objektů. Sekce zahrnuje 6 ústavů s přibližně 920 zaměstnanci, z nichž je asi 580 vědeckých pracovníků s vysokoškolským vzděláním.