O lume a culorilor şi texturilor ar putea deveni în curând mai accesibilă persoanelor nevăzătoare sau cu deficienţe de vedere prin intermediul unui nou software care povesteşte ceea ce înregistrează o cameră foto. Cercetătorii au fructificat oportunitatea de a utiliza modelele AI din ce în ce mai capabile pentru a crea descrieri automate şi adaptabile în timp real.
Instrumentul, denumit WorldScribe, a fost conceput de cercetătorii de la Universitatea din Michigan (U-M) şi va fi prezentat săptămâna aceasta la Simpozionul ACM privind software-ul şi tehnologia interfeţei cu utilizatorul, care are loc între 13 - 16 octombrie în Statele Unite, în Pittsburgh.
Instrumentul utilizează modele lingvistice de inteligenţă artificială generativă (GenAI) pentru a interpreta imaginile camerei şi a produce descrieri text şi audio în timp real, pentru a ajuta utilizatorii să conştientizeze mai rapid împrejurimile.
Pe măsură ce un utilizator scanează cu camera telefonului interiorul unei încăperi, WorldScribe va crea scurte descrieri audio ale obiectelor înregistrate de camera foto.
Acesta poate ajusta nivelul de detaliere în funcţie de comenzile utilizatorului sau de durata de timp în care un obiect se află în cadrul camerei, iar volumul se adaptează automat la medii zgomotoase, cum ar fi camerele aglomerate, străzile aglomerate şi muzica dată tare.
Un studiu de prezentare şi utilizare a instrumentului, pe care organizatorii l-au identificat ca fiind unul dintre cele mai bune de la conferinţă, va fi prezentat miercuri.
„Pentru noi, nevăzătorii, acest lucru ar putea revoluţiona cu adevărat modul în care interacţionăm cu lumea în viaţa de zi cu zi”, a declarat, într-un comunicat, Sam Rau, care s-a născut orb şi a participat la studiul experimental WorldScribe.
„Nu am niciun concept despre lumea reală, dar când am încercat instrumentul, mi-am făcut o imagine şi am fost încântat de toate culorile şi texturile la care nu aş avea acces altfel”, a spus Rau. „Nu ştiu dacă pot exprima în cuvinte ce miracol uriaş este acesta pentru noi”.
În timpul studiului experimental, Rau a purtat o cască echipată cu un smartphone (telefon inteligent) şi s-a plimbat prin laboratorul de cercetare. Camera telefonului a transferat fără fir imaginile către un server, care a generat aproape instantaneu descrieri text şi audio ale obiectelor din cadrul camerei: un laptop pe un birou, un teanc de hârtii, un televizor şi picturi montate pe peretele din apropiere.
Descrierile se modificau constant pentru a se potrivi cu ceea ce se afla în vizorul camerei, acordând prioritate obiectelor care erau cel mai aproape de utilizator. O privire scurtă asupra unui birou a produs o descriere simplă dintr-un singur cuvânt, dar inspectarea mai lungă a furnizat informaţii despre dosarele şi hârtiile aranjate deasupra.
Instrumentul poate ajusta nivelul de detaliu al descrierilor sale prin comutarea între trei modele diferite de limbaj AI. Modelul Yolo World generează rapid descrieri foarte simple ale obiectelor care apar pentru scurt timp în cadrul camerei. Descrierile detaliate ale obiectelor care rămân în cadru pentru o perioadă mai lungă de timp sunt gestionate de GPT-4, modelul din spatele ChatGPT. Un alt model, Moondream, oferă un nivel intermediar de detaliu.
„Multe dintre tehnologiile de asistenţă existente care valorifică inteligenţa artificială se concentrează pe sarcini specifice sau necesită un fel de interacţiune pas cu pas. De exemplu, faceţi o fotografie, apoi obţineţi un anumit rezultat”, a declarat Anhong Guo, profesor asistent de ştiinţa şi ingineria calculatoarelor şi unul dintre autorii corespondenţi ai studiului.
„Furnizarea de descrieri bogate şi detaliate pentru o experienţă live este o mare provocare pentru instrumentele de accesibilitate”, a explicat Guo.
Cercetătorii au fructificat oportunitatea de a utiliza modelele AI din ce în ce mai capabile pentru a crea descrieri automate şi adaptabile în timp real.
Întrucât se bazează pe GenAI, WorldScribe poate, de asemenea, să răspundă la sarcini sau întrebări furnizate de utilizator, cum ar fi prioritizarea descrierilor oricăror obiecte pe care utilizatorul le-a cerut instrumentului să le găsească. Unii participanţi la studiu au observat că instrumentul a avut probleme în detectarea anumitor obiecte, cum ar fi o sticlă cu picurător.
În starea sa actuală, instrumentul pare încă un pic greoi pentru utilizarea de zi cu zi, dar Rau spune că l-ar folosi zilnic dacă ar putea fi integrat în ochelari inteligenţi sau într-un alt dispozitiv portabil.
Cercetătorii de la U-M au solicitat protecţia brevetului şi caută parteneri care să contribuie la perfecţionarea tehnologiei şi la introducerea acesteia pe piaţă.
Credit: Universitatea Michigan, octombrie 2024