Google a construit o nouă tehnologie pentru a-și alimenta căutarea vocală, despre care compania spune că o va face și mai rapidă și mai precisă. Noua tehnologie folosește clasificarea conexionistă temporală (CTC) și tehnici de instruire discriminatorii de secvență. În 2012, Google a trecut de la Gaussian Mixture Model (GMM) la Deep Neural Networks (DNNs), ceea ce a permis companiei să evalueze mai bine ce sunet producea un utilizator în acel moment și a oferit o precizie crescută a recunoașterii vorbirii.
Modelele noastre acustice îmbunătățite se bazează pe rețele neuronale recurente (RNN). RNN-urile au bucle de feedback în topologia lor, permițându-le să modeleze dependențele temporale: atunci când utilizatorul vorbește / u / în exemplul precedent, aparatul lor articulator provine de la un sunet / j / și un sunet / m / înainte. Încercați să spuneți cu voce tare - „muzeu” - curge foarte natural într-o singură respirație, iar RNN-urile pot capta asta. Tipul de RNN utilizat aici este un RNN cu memorie lungă pe termen scurt (LSTM) care, prin celulele de memorie și un mecanism sofisticat de închidere, memorează informații mai bine decât alte RNN-uri. Adoptarea unor astfel de modele a îmbunătățit deja calitatea recunoscătorului nostru în mod semnificativ.
Schimbarea tehnologiei a fost făcută de Google și este folosită acum pentru a alimenta căutările vocale în aplicația Google atât pe iOS, cât și pe Android, precum și dictarea pe dispozitivele Android.
Sursa: Google Research Blog