Saltar al contenido

Cómo Apple finalmente hizo que Siri sonara más humano

julio 2, 2021


La primera vez Alex acero vio Su, lo miró como una persona normal. La segunda vez, no vio la película en absoluto. Acero, el ejecutivo de Apple a cargo de la tecnología detrás de Siri, se sentó allí con los ojos cerrados, escuchando cómo Scarlett Johansson expresaba su personaje artificialmente inteligente, Samantha. Prestó atención a cómo le hablaba a Theodore Twombly, interpretado por Joaquin Phoenix, y cómo Twombly le respondía. Acero estaba tratando de discernir qué de Samantha podía hacer que alguien se enamorara sin siquiera verla.

Cuando le pregunto a Acero qué aprendió sobre por qué la voz funcionó tan bien, se ríe porque la respuesta es muy obvia. «¡Es natural!» él dice. «¡No era robótico!» Esto difícilmente cuenta como una revelación para Acero. Principalmente, confirmó que su equipo en Apple ha pasado los últimos años en el proyecto correcto: hacer que Siri suene más humano.

Este otoño, cuando iOS 11 llegue a millones de iPhones y iPads en todo el mundo, el nuevo software le dará a Siri una nueva voz. No incluye muchas funciones nuevas ni cuenta mejores chistes, pero notarás la diferencia. Siri ahora toma más pausas en las oraciones, alarga las sílabas justo antes de una pausa y el habla sube y baja mientras habla. Las palabras suenan más fluidas y Siri también habla más idiomas. Es más agradable escuchar y hablar.

Apple pasó años rediseñando la tecnología detrás de Siri, transformándola de un asistente virtual en el término general para toda la inteligencia artificial que alimenta su teléfono. Se ha expandido implacablemente a nuevos países e idiomas (a pesar de todos sus defectos, Siri es, con mucho, el asistente más mundano del mercado). Y lentamente al principio, pero más rápido ahora, Apple ha trabajado para que Siri esté disponible en cualquier lugar y en todas partes. Siri ahora está bajo el control de Craig Federighi, el jefe de software de Apple, lo que indica que Siri ahora es tan importante para Apple como iOS.

Todavía pasará un tiempo antes de que la tecnología sea lo suficientemente buena como para que te enamores de tu asistente virtual. Pero Acero y su equipo creen que han dado un gran paso adelante. Y creen firmemente que si pueden hacer que Siri suene menos como un robot y más como alguien que conoces y en quien confías, pueden hacer que Siri sea genial incluso cuando falla. Y eso, en estos primeros días de la inteligencia artificial y la tecnología de voz, podría ser el mejor de los casos.

Siri crece

Si quieres un buen ejemplo de por qué a Apple le gusta controlar todo sobre sus productos, solo mira a Siri. Seis años después de su lanzamiento, Siri, según la mayoría de las cuentas, se ha quedado atrás en la carrera de asistentes virtuales. Alexa de Amazon tiene más soporte para desarrolladores; El Asistente de Google sabe más cosas; ambos están disponibles en muchos tipos de dispositivos de muchas empresas diferentes.

Apple dice que no es culpa suya. Cuando se lanzó Siri por primera vez, otra empresa proporcionó la tecnología de back-end para el reconocimiento de voz. Todas las señales apuntan a Nuance como esa compañía, aunque ni Apple ni Nuance confirmaron una asociación. Sea quien sea, Apple felizmente los culpa por los primeros problemas de Siri. «Era como correr una carrera y, ya sabes, alguien más nos estaba frenando», dice Greg Joswiak, vicepresidente de marketing de productos de Apple. Joswiak dice que Apple siempre tuvo grandes planes para Siri, «esta idea de un asistente con el que podrías hablar en tu teléfono y hacer que hiciera estas cosas por ti de una manera más fácil», pero la tecnología no era lo suficientemente buena. «Ya sabes, basura entra, basura sale», dice.

Hace unos años, el equipo de Apple, dirigido por Acero, tomó el control del back-end de Siri y renovó la experiencia. Ahora se basa en el aprendizaje profundo y la inteligencia artificial y, como resultado, ha mejorado enormemente. El reconocimiento de voz en bruto de Siri compite con todos sus competidores, identificando correctamente el 95 por ciento del habla de los usuarios. La IA funciona en dos partes distintas y críticas del sistema: voz a texto, en la que Siri intenta averiguar lo que dijiste; y texto a voz, en el que Siri responde.

Uno de los trabajos más importantes de Siri implica distinguir su voz de la de los demás, especialmente a medida que estos sistemas se vuelven más personalizados. Cuantos más datos tiene Siri y mejores se vuelven los modelos de Apple, más puede discernir entre las personas y comprender incluso los acentos fuertes. También es un problema de seguridad: los investigadores descubrieron recientemente que podían comunicarse con Siri en frecuencias demasiado altas para que los humanos las escuchen, lo que hace que el hack sea invisible. Siri necesita aprender a separar el habla humana del habla automática, y su habla del de los demás.

Aprender a hablar

Una forma útil de comprender cómo funcionan estos sistemas es a través del proceso de Apple de enseñarle a Siri un nuevo idioma. Al llevar a Siri a un nuevo mercado, digamos Shanghai, el equipo primero encuentra bases de datos preexistentes de habla local. Complementan eso contratando locutores locales y haciéndoles leer libros, periódicos, artículos web y más.

El equipo de Apple transcribe esas grabaciones, relaciona las palabras con los sonidos y, lo que es más importante, identifica los fonemas, los sonidos individuales que componen todo el habla. (En inglés, «catorce» es una palabra, el sonido de la «e» con dientes en el medio es un fonema.) Intentan capturar estos fonemas hablados de todas las formas imaginables: disminuyendo al final de la palabra, más difícil al principio. , más antes de una pausa, levantándose en una pregunta. Cada enunciado tiene una onda de sonido ligeramente diferente, que los algoritmos de Apple analizan para encontrar el mejor ajuste para una oración determinada. Cada oración que pronuncia Siri contiene docenas o cientos de estos fonemas, reunidos como recortes de revistas en una nota de rescate. Es probable que ninguna de las palabras que escuchas decir a Siri haya sido grabada de la forma en que se pronuncian.



Source link

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *