AI a învăţat să „vorbească dialectul” genetic pentru a anticipa evoluţia viitoare a mutaţiilor SARS-CoV-2

AI a învăţat să „vorbească dialectul” genetic pentru a anticipa evoluţia viitoare a mutaţiilor SARS-CoV-2

O echipă de cercetători a dezvoltat un model de inteligenţă artificială capabil să prezică mutaţiile viitoare ale virusului SARS-CoV-2, virusul care a provocat pandemia de Covid-19. Utilizând un model de limbaj numit ProtBERT, sistemul analizează proteina spike şi identifică mutaţiile care respectă „gramatica” biologică a virusului, facilitând astfel o prognoză mai precisă a evoluţiei sale. Această descoperire ar putea ajuta cercetătorii să anticipeze variantele viitoare ale virusului şi să îmbunătăţească strategiile de sănătate publică.

Au trecut cinci ani de când Covid-19 a fost declarată o pandemie globală. Pe măsură ce SARS-CoV-2 devine un virus endemic, apar întrebări despre evoluţia sa viitoare. 

Noile variante ale virusului vor continua să apară, fiind selectate pentru caracteristici precum transmisibilitatea crescută, durata mai lungă a infecţiei şi capacitatea de a evita sistemul imunitar. Aceste modificări i-ar putea permite virusului să se răspândească în rândul populaţiilor deja imunizate, declanşând noi valuri de infecţie.

Prezicerea mutaţiilor viitoare ale virusurilor este esenţială pentru avansarea cercetării în ştiinţele vieţii, în special pentru înţelegerea modului în care virusurile evoluează, se răspândesc şi afectează sănătatea publică. De obicei, cercetătorii se bazează pe experimente de laborator pentru a studia mutaţiile, dar aceste metode sunt costisitoare şi consumatoare de timp.

Acum, cercetătorii cu ajuorul AI pot indica mutaţiile SARS-CoV-2 printr-un nou model lingvistic al proteinelor. Ei au creat un algoritm inteligent, bazat pe învăţare profundă poate identifica mutaţiile viitoare ale coronavirusului folosind reguli „gramaticale” ale proteinelor. Metoda analizează mutaţiile în funcţie de contextul biologic şi impactul asupra structurii proteinei spike (de vârf).

Cercetătorii de la Colegiul de Inginerie şi Ştiinţe ale Calculatoarelor de la Universitatea Atlantic din Florida au dezvoltat o nouă metodă pentru a estima mutaţiile în secvenţele proteice, numită Căutare profundă a mutaţiilor noi (Deep Novel Mutation Search/DNMS). Acest model de AI utilizează reţele neuronale profunde pentru a identifica mutaţiile probabile ale virusului.

Pentru acest studiu, cercetătorii s-au concentrat pe proteina spike a SARS-CoV-2, responsabilă de pătrunderea în celulele umane. Ei au utilizat un model de limbaj proteic numit ProtBERT pentru a prezice posibile mutaţii care nu au fost încă observate.

Modelul analizează mutaţiile şi le clasifică pe baza unor factori precum gramaticalitatea (probabilitatea ca mutaţia să fie „corectă” conform regulilor biologice învăţate de model), schimbarea semantică (cât de asemănătoare este secvenţa mutantă cu proteina originală) şi schimbarea atenţiei (modificările în structura şi funcţionalitatea proteinei).

Rezultatele studiului, publicate în jurnalul Communications Biology, arată că modelul DNMS poate clasifica secvenţele în funcţie de similitudinea lor şi poate estima mutaţiile viitoare prin identificarea modificărilor minore în structura şi funcţia proteinelor. Acest lucru este important deoarece, în majoritatea cazurilor, virusurile precum SARS-CoV-2 evoluează prin modificări mici care le permit să se adapteze fără a-şi altera funcţia principală.

Modelul DNMS foloseşte toate informaţiile disponibile despre secvenţă şi mutaţii pentru a genera o prognoză mai precisă a schimbărilor probabile. Spre deosebire de cercetările anterioare, care se bazau pe compararea unei secvenţe proteice de referinţă, DNMS introduce un model de predicţie pe bază de relaţii părinte-copil. O secvenţă părinte (o secvenţă proteică existentă) este utilizată pentru a genera mutaţii, care sunt apoi analizate în funcţie de modul în care ar putea evolua în timp.

Modelul analizează mutaţiile potenţiale ale proteinei spike simulând toate modificările posibile într-o poziţie a secvenţei şi evaluează probabilitatea acestora de a respecta regulile „gramaticale” ale proteinei. În plus, sistemul ia în considerare schimbările de atenţie, o metodă utilizată anterior pentru a studia structura şi funcţia proteinelor, dar niciodată aplicată pentru predicţia mutaţiilor.

Această metodă este inovatoare deoarece evaluează mutaţiile în contextul evoluţiei virale, nu doar în raport cu o secvenţă de referinţă. Se aseamănă cu modul în care dialectele limbajului natural se schimbă în timp – secvenţele virale mutante evoluează ca ramificaţii într-un arbore filogenetic.

Rezultatele studiului arată că mutaţiile cu gramaticalitate ridicată, schimbare semantică redusă şi schimbare minimă a atenţiei sunt asociate cu o capacitate de replicare mai mare a virusului. Acest lucru sugerează că mutaţiile care respectă „regulile biologice” ale proteinei şi care provoacă modificări minime ale structurii sau funcţiei sale sunt mai susceptibile de a fi benefice pentru virus.

Pentru a testa eficienţa metodei DNMS, cercetătorii au realizat o analiză statistică şi au constatat că acest model oferă rezultate mai precise decât metodele anterioare, deoarece combină mai mulţi factori relevanţi într-o singură prognoză.

Această tehnică poate ghida cercetările experimentale prin furnizarea unor predicţii despre mutaţii înainte ca acestea să fie observate în populaţie, ajutând astfel autorităţile de sănătate publică să monitorizeze şi să se pregătească pentru noile variante ale virusului.

viewscnt