Car-tech

Sistemele de recunoaștere a vorbirii trebuie să devină mai desterate, spune profesorul

Zeci de profesori braşoveni au învăţat să comunice mai bine cu elevii

Zeci de profesori braşoveni au învăţat să comunice mai bine cu elevii
Anonim

"Din experiența consumatorilor, oamenii găsesc aceste sisteme foarte frustrant" Allen, care este președintele științei informaticii de la Universitatea din Rochester, vorbește înainte de conferința SpeechTEK din 2010, care a avut loc săptămâna aceasta la New York.

Majoritatea sistemelor computerizate de recunoaștere a vorbirii pot înțelege ce spune un om până la 98% și totuși oamenii încă se bate la utilizarea sistemelor automate de help-desk telefon. Cheia pentru a face aceste sisteme mai puțin frustrante de a le folosi ar fi să le dea o înțelegere mai profundă a limbajului și a le face mai interactive, a spus Allen.

[Citirea suplimentară: PC-ul dvs. nou are nevoie de aceste 15 programe gratuite, excelente] Până acum, departamentele de servicii pentru clienți ale celor mai multe organizații mari oferă sisteme automate de asistență telefonică. Un utilizator apelează numărul de ajutor și o voce artificială îi întreabă pe apelant o serie de întrebări. Cele mai multe dintre aceste sisteme se bazează pe cadre care sunt, în principiu, arbori de decizie mari. Cu astfel de sisteme, "nu aflați ce vrea persoana, urmăriți un scenariu", a spus el.

Sistemele sunt, de fapt, compuse dintr-o serie de tehnologii diferite. Una dintre acestea este recunoașterea vorbirii sau abilitatea unui computer de a înțelege sau de a traduce cu succes în text ceea ce spune vorbitorul.

Cealaltă tehnologie, procesarea limbajului natural (NLP), încearcă fie să transforme mesajul vorbitorului într-o comandă pe care computerul le poate executa sau care poate fi rezumat pentru un operator uman.

În ultimele decenii s-au înregistrat progrese importante atât în ​​recunoașterea vocii, cât și în NLP, dar în mare parte acestea au adus frustrare utilizatorilor lor. "Numesc banca doar atunci cand am o problema si ma lupt cu aceste sisteme. [Intreaba] ce pot sa raspund pentru a ajunge la o persoana cat mai repede posibil", a spus Allen. în căutarea unor modalități prin care "putem vorbi cu o mașină în același fel în care putem vorbi cu o persoană", a afirmat el.

Conversațiile dintre doi oameni pot fi precise în modurile în care computerele au dificultăți de potrivire. Allen a arătat o lucrare timpurie pe care a făcut-o ca student absolvent, în care a înregistrat conversații la un birou de informare al gării. Într-o singură interacțiune, un pasager se îndreaptă spre cabină și spune "8:50 la Windsor", iar participantul răspunde "Poarta 10, întârzierea cu 20 de minute". In timp ce insotitorul stia exact ce informatii cautam, sistemele computerizate ar gasi prima declaratie a pasagerului.

Cum il vede Allen, doua elemente lipsesc din sistemele moderne: Abilitatea de a analiza ceea ce vorbeste vorbitorul si abilitatea de a vorbi cu vorbitorul pentru a afla mai multe despre ceea ce vorbitorul intenționează să spună.

"O mulțime de NLP de pe raft are tendința de a fi superficială, nu avem tehnologie care să vă dea o semnificație a propozițiilor" el a spus. Instrumentele de procesare statistică și serviciul de definire a cuvintelor, cum ar fi WordNet, pot ajuta la definirea unui cuvânt, dar și la relațiile unui cuvânt, astfel încât un sistem va ști că, de exemplu, o "filială" face parte dintr-o "companie". comunicațiile bidirecționale între utilizatori și computere sunt, de asemenea, necesare. Când vorbim despre nevoile lor, oamenii pot furniza informații în nici o ordine particulară. Ar trebui să fie de până la calculator să se combine aceste informații și să nu împovăreze utilizatorul cu întrebări ale căror răspunsuri au fost deja furnizate.

"Acesta este viitorul, aceasta este într-adevăr ceea ce doriți ca sistemele să facă și putem construi dialog sisteme care pot sustine aceasta gama de complexitate ", a spus el.

Pentru a ilustra aceasta idee, Allen si o echipa de cercetatori au proiectat un program intitulat Cardiac care ar putea imita intrebarile pe care o asistenta le-ar cere unui pacient cu boli de inima. Programul a fost creat cu finanțare de la Institutul Național de Sănătate din S.U.A. Cu acest sistem, odată ce un utilizator furnizează informații, sistemul nu-l va cere din nou, a spus Allen. Sistemul ar raționa cu privire la ce material a fost deja furnizat și la ceea ce era încă necesar.

Un alt program conceput de Allen și echipa sa, numit Plough, poate învăța cum să realizeze sarcini comune pe un computer. "Acesta este un sistem care vă permite să utilizați dialogul în mod esențial pentru a vă antrena sistemul cum să faceți lucrurile pentru dvs.", a spus el.

De exemplu, Allen a demonstrat programul de învățare cum să găsească restaurantele din apropiere folosind un browser. Utilizatorul va deschide un browser, va naviga către un site de localizare a restaurantului, va introduce tipul de restaurant căutat și locația, apoi va tăia și va lipi rezultatele într-o pagină goală. Utilizatorul a descris fiecare etapă așa cum a fost efectuată.

În acest proces, Plough ar înregistra fiecare pas și va răspunde audibil când se înțelege pasul. Mai târziu, când utilizatorul ar dori să caute un alt restaurant, programul va trece prin toate aceleași mișcări, producând automat o altă listă de restaurante. Agenția US Defense Advanced Research Projects a finanțat dezvoltarea acestui program.

Mai multe date sunt cheia pentru mai multe sisteme de procesare a limbilor asemănătoare omului, a declarat omul de știință șef al Microsoft pentru discursul Larry Heck, într-o altă discuție la conferință. "Dacă nu aveți datele, nu contează cât de sofisticate sunt algoritmii dvs.", a spus el.

Un loc pentru a găsi mai multe date ar fi în interogările motorului de căutare, a sugerat el. Serviciile pentru motoarele de căutare au un număr masiv de întrebări, toate acestea fiind legate de răspunsuri. "Eu văd căutarea ca un văr apropiat de tehnologia de procesare a limbii", a spus Heck.

Aceste zile, oamenii sunt instruiți să structureze interogările lor ca un set de cuvinte cheie. În schimb, în ​​cazul în care utilizatorii urmau să introducă propoziții complete descriind ceea ce au nevoie, setul de date rezultat ar putea merge mult în a ajuta sistemele să înțeleagă mai bine ce caută oamenii.

Heck a prezis că, deoarece mai mulți oameni utilizează servicii de căutare activate prin voce de la Microsoft și Google, ei vor deveni mai obișnuiți să-și structureze interogările ca propoziții complete, care ar putea ajuta sistemele NLP să anticipeze mai bine nevoile utilizatorilor.

Joab Jackson acoperă programele informatice și tehnologia generală de ultimă oră pentru

IDG News Serviciul

. Urmăriți-l pe Joab pe Twitter la @ Joab_Jackson. Adresa de e-mail a lui Joab este [email protected]