VIDEO Semnalele creierului transformate în vorbire cu ajutorul AI

VIDEO Semnalele creierului transformate în vorbire cu ajutorul AI

Tot mai multe teste clinice încununate de succes în cazul dispozitivelor de tip interfaţă computer-creier, care transformă semnalele cerebrale în vorbire. În două noi studii, astfel de dispozitive au prezis cuvintele pe care oamenii doreau să le rostească cu o precizie de 92 până la 100%.

O echipă de cercetători din Ţările de jos, de la universitatea Radboud şi de la UMC Utrecht, a reuşit să transforme semnalele cerebrale în vorbire audibilă.

Prin decodificarea semnalelor din creier cu ajutorul unor implanturi şi inteligenţei artificiale (AI), aceştia au reuşit să prezică cuvintele pe care oamenii doreau să le rostească cu o precizie de 92 până la 100%.

Studiul a fost publicat în Journal of Neural Engineering.

Cercetarea indică o evoluţie promiţătoare în domeniul interfeţelor creier-computer, potrivit autorului principal, Julia Berezutskaya, cercetător la Institutul Donders pentru creier, cogniţie şi comportament ( Universitatea Radboud şi la UMC Utrecht).

Echipa a folosit implanturi cerebrale la pacienţii cu epilepsie.

„În cele din urmă, sperăm să punem această tehnologie la dispoziţia pacienţilor în stare de blocaj, care sunt paralizaţi şi incapabili să comunice", spune Berezutskaya.

„Aceşti oameni îşi pierd capacitatea de a-şi mişca muşchii şi, prin urmare, de a vorbi. Prin dezvoltarea unei interfeţe creier-computer, putem analiza activitatea creierului şi le putem oferi din nou o voce", a adăugat Berezutskaya.

Pentru experimentul din acest studiu, cercetătorii au cerut persoanelor neparalizate cu implanturi cerebrale temporare să rostească un număr de cuvinte cu voce tare, în timp ce activitatea lor cerebrală era măsurată.

Ei au putut apoi să stabilească o corelare directă între activitatea cerebrală şi vorbire.

„Am folosit modele avansate de AI pentru a traduce activitatea cerebrală direct în vorbire audibilă. Asta înseamnă că nu am fost capabili doar să ghicim ce spuneau oamenii, ci am putut transforma imediat acele cuvinte în sunete inteligibile şi de înţeles. În plus, discursul reconstruit semăna chiar cu vorbitorul original în ceea ce priveşte tonul vocii şi modul de a vorbi", a explicat cercetătoarea.

Oamenii de ştiinţă din întreaga lume lucrează la modalităţi de recunoaştere a cuvintelor şi propoziţiilor în astfel de modelele cerebrale.

Ei au reuşit să reconstruiască un discurs inteligibil cu seturi de date relativ mici, demonstrând că aceste modele pot identifica cartografierea complexă dintre activitatea cerebrală şi vorbire chiar şi cu date limitate.

Cercetătorii au efectuat teste de ascultare cu voluntari pentru a evalua cât de identificabile au fost cuvintele sintetizate.

Rezultatele pozitive ale acestor teste indică faptul că tehnologia nu reuşeşte doar să identifice corect cuvintele, ci şi să le redea în mod audibil şi inteligibil, la fel ca o voce reală.

„Deocamdată, există încă o serie de limitări", avertizează Berezutskaya.

„În aceste experimente, le-am cerut participanţilor să spună cu voce tare douăsprezece cuvinte, iar acestea au fost cuvintele pe care am încercat să le detectăm", a precizat ea.

În general, prezicerea cuvintelor individuale este mai puţin complicată decât prezicerea unor propoziţii întregi. În viitor, modelele lingvistice mari care sunt folosite în cercetarea în AI ar putea ajuta în acest sens.

„Scopul nostru este de a prezice propoziţii întregi şi paragrafe din ceea ce oamenii încearcă să spună doar pe baza activităţii lor cerebrale. Pentru a ajunge acolo, vom avea nevoie de mai multe experimente, de implanturi mai avansate, de seturi de date mai mari şi de modele avansate de AI. Toate aceste procese vor dura încă un număr de ani, dar se pare că ne îndreptăm în direcţia cea bună", a mai precizat Berezutskaya.

AI redă vocea unei femei paralizate

O altă cercetare, publicată luna aceasta, pe 23 august, descrie reuşita unei echipe de la Stanford Medicine care a impantat în creierul unei femei, incapabilă să vorbească inteligibil după ce a paralizat, patru senzori de mărimea unei aspirine pentru bebeluşi, pentru pentru a-i reda capacitatea de a vorbi în mod inteligibil.

Femeia, acum în vârstă de 68 de ani, un fost director de resurse umane care făcea jogging zilnic, a fost diagnosticată în 2012 cu scleroză laterală amiotrofică (SLA), o boală neurodegenerativă progresivă care atacă neuronii răspunzători de controlul mişcării, provocând slăbiciune musculară şi, în cele din urmă, paralizie.

De obicei, SLA se manifestă mai întâi la periferia corpului - braţe şi picioare, mâini şi degete. Pentru Pat Bennett, deteriorarea a început nu în măduva spinării, aşa cum este tipic, ci în trunchiul cerebral.

Femeia încă se poate deplasa, se poate îmbrăca singură şi îşi poate folosi degetele pentru a tasta, deşi cu tot mai multă dificultate, dar nu-şi mai poate folosi muşchii buzelor, limbii, laringelui şi maxilarelor pentru a enunţa clar fonemele - unităţi de sunet, cum ar fi „sh" (în limba engleză) - care sunt elementele de bază ale vorbirii.

Deşi creierul lui Bennett încă poate genera aceste foneme, muşchii ei nu pot executa comenzile.

În loc să antreneze AI să recunoască cuvinte întregi, în acest caz cercetătorii au creat un sistem care decodifică cuvintele din foneme şi acum femeia poate vorbi cu ajutorul computerului, printr-un avatar.

[ot-video][/ot-video]

Folosind această abordare, computerul trebuie să înveţe doar 39 de foneme pentru a descifra orice cuvânt în limba engleză. Acest lucru a îmbunătăţit atât acurateţea sistemului, cât şi viteza acestuia, făcându-l de trei ori mai rapid.

La 29 martie 2022, un neurochirurg de la Stanford Medicine a plasat câte doi senzori minusculi în două regiuni separate - ambele implicate în producerea vorbirii - de-a lungul suprafeţei creierului femeii.

Senzorii sunt componente ale unei interfeţe creier-computer intracorticale, sau iBCI.

În combinaţie cu un software de decodare de ultimă generaţie, aceştia sunt concepuţi pentru a traduce activitatea cerebrală, care însoţeşte încercările de vorbire, în cuvinte, pe un ecran.

La aproximativ o lună după operaţie, o echipă de oameni de ştiinţă de la Stanford a început sesiuni de cercetare de două ori pe săptămână pentru a antrena software-ul de interpretare a discursului.

După patru luni, încercările de exprimare ale femeii au fostu convertite în cuvinte pe un ecran de calculator cu 62 de cuvinte pe minut - de peste trei ori mai repede decât recordul anterior pentru comunicarea asistată de BCI.

Aceste rezultate iniţiale au dovedit conceptul, iar în cele din urmă tehnologia va recupera decalajul pentru a-l face uşor accesibil persoanelor care nu pot vorbi.

Aproape de viteza vorbirii

Ritmul de vorbire al lui Pat Bennett începe să se apropie de rata de aproximativ 160 de cuvinte pe minut a conversaţiei naturale între vorbitorii de limba engleză, a declarat dr. Jaimie Henderson, chirurgul care a efectuat operaţia.

„Am demonstrat că se poate decoda vorbirea intenţionată prin înregistrarea activităţii dintr-o zonă foarte mică de pe suprafaţa creierului", a spus dr. Henderson.

Un articol care descrie rezultatele a fost publicat pe 23 august, în revista Nature, laolată cu alte două, unul care detaliază studiul de caz, vorbirea prin intermediul unui avatar, şi altul care detaliază neuroprotezele pentru vorbire printr-o interfaţă creier-computer (BCI), al doctorului Edward Chang.

În 2021, cercetători din această echipă au fost coautorii unui alt studiu publicat în revista Nature, care descria succesul în convertirea scrisului de mână al unei persoane paralizate în text pe un ecran cu ajutorul unui algoritm inteligent iBCI, atingând o viteză de 90 de caractere, sau 18 cuvinte pe minut - un record mondial până în prezent pentru o metodologie legată de iBCI.

În 2021, femeia a aflat despre munca echipei de cercetători, i-a contactat şi s-a oferit voluntar pentru a participa la un studiu clinic.

Cum funcţionează

Senzorii pe care dr. Henderson i-a implantat femeii în cortexul cerebral, stratul cel mai exterior al creierului, sunt reţele pătrate de electrozi mici de siliciu.

Fiecare matrice conţine 64 electrozi, aranjaţi în grile de opt pe opt cu o distanţă între ei de aproximativ jumătate din grosimea unei cărţi de credit.

Electrozii pătrund în cortexul cerebral până la o adâncime aproximativ egală cu cea a două monede de 25 de cenţi, puse una peste alta.

Reţelele implantate sunt ataşate la fire fine de aur care ies prin platforme înşurubate în craniu, fiind conectate prin cablu la un computer.

Un algoritm de inteligenţă artificială primeşte şi decodifică informaţiile electronice furnizate de creierul femeii, învăţând în cele din urmă să distingă activitatea cerebrală distinctă asociată cu încercările ei de a formula fiecare dintre cele 39 de foneme care compun engleza vorbită.

Acesta alimentează cea mai bună presupunere a sa cu privire la secvenţa de foneme încercate de femeie într-un aşa-numit model lingvistic, în esenţă un sistem sofisticat de autocorectare, care converteşte fluxurile de foneme în secvenţa de cuvinte pe care le reprezintă.

„Acest sistem este antrenat să ştie ce cuvinte ar trebui să vină înaintea altora şi ce foneme formează ce cuvinte", au explicat autorii.

„Dacă unele foneme au fost interpretate greşit, sistemul poate totuşi să facă o presupunere corectă".

(Foto: O participantă la studiul doctorului Edward Chang privind neuroprotezele pentru vorbire este conectată la computere care îi traduc semnalele cerebrale în timp ce încearcă să vorbească, în vorbirea şi mişcările faciale ale unui avatar, luni, 22 mai 2023, în El Cerrito, California. Credit: Noah Berger)

Repetiţia e mama învăţăturii

Pentru a învăţa algoritmul să recunoască ce tipare de activitate cerebrală erau asociate cu ce foneme, femeia a participat la 25 de sesiuni de antrenament, fiecare dintre ele durând aproximativ patru ore, în timpul cărora a încercat să repete propoziţii alese la întâmplare dintr-un set mare de date format din mostre de conversaţii între persoane care vorbesc la telefon.

Un exemplu: „A fost aşa doar în ultimii cinci ani" Un altul: „Am plecat chiar pe la mijloc".

În timp ce încerca să rostească fiecare propoziţie, activitatea cerebrală a femeii, tradusă de decodor într-un flux de foneme şi apoi asamblată în cuvinte de către sistemul AI de autocorectare, era afişată pe ecran sub original. Apoi, o nouă propoziţie apărea pe ecran.

Femeia a repetat între 260 şi 480 de propoziţii pe fiecare sesiune de antrenament. Întregul sistem a continuat să se îmbunătăţească pe măsură ce se familiariza cu activitatea cerebrală a femeii în timpul încercărilor sale de a vorbi.

Capacitatea iCBI de traducere a vorbirii intenţionate a fost testată pe propoziţii diferite de cele utilizate în sesiunile de antrenament.

Atunci când propoziţiile şi modelul lingvistic de asamblare a cuvintelor au fost limitate la un vocabular de 50 de cuvinte (caz în care propoziţiile folosite au fost extrase dintr-o listă specială), rata de eroare a sistemului de traducere a fost de 9,1%.

Când vocabularul a fost extins la 125 000 de cuvinte (suficient de mare pentru a compune aproape orice ar dori un vorbitor să spună), rata de eroare a crescut la 23,8% - departe de a fi perfectă, dar un pas uriaş faţă de stadiul anterior al tehnologiei.

„Imaginaţi-vă cât de diferită va fi desfăşurarea activităţilor de zi cu zi, cum ar fi mersul la cumpărături, participarea la întâlniri, comanda de mâncare, intrarea într-o bancă, vorbitul la telefon, exprimarea dragostei sau a aprecierii - chiar şi certurile - atunci când persoanele nonverbale îşi vor putea comunica gândurile în timp real", a scris Pat Benett.

Dispozitivul descris în acest studiu a fost licenţiat doar pentru utilizare în scopul studiilor clinice şi nu este disponibil încă în comerţ.

(Foto: O participantă la studiul doctorului Edward Chang privind neuroprotezele pentru vorbire este conectată la computere care îi traduc semnalele cerebrale în timp ce încearcă să vorbească, în vorbirea şi mişcările faciale ale unui avatar, luni, 22 mai 2023, în El Cerrito, California. În stânga se află coordonatorul de cercetare clinică al UCSF, Max Dougherty. Credit: Noah Berger)

viewscnt