El resultado de una de las últimas investigaciones publicadas por la división de aprendizaje automático de Apple se apoya en 32.000 grabaciones de gente que tartamudea. Cada registro lleva una etiqueta que describe lo ocurrido: bloqueos, prolongaciones, repeticiones de sonidos, repeticiones de palabras e interjecciones. La idea es entrenar con estos archivos de sonido los modelos algorítmicos que reconocen el lenguaje de los usuarios de Siri, el asistente de voz de Apple, para que éste entienda y dé un mejor servicio a aquellas personas con trastornos en el habla. Según los datos de la propia compañía, el uso de estas grabaciones ha contribuido a mejorar la comprensión de dichos usuarios hasta un 28%.
Uno de los problemas para emprender un proyecto de este tipo es que no hay suficiente material sonoro en archivos públicos. “Pese al creciente interés en esta área, los datasets —conjuntos de datos— públicos son demasiado pequeños para construir sistemas de detección y carecen de suficientes anotaciones”, señalan los autores del estudio, publicado el pasado febrero. Una parte de las grabaciones empleadas procedían de podcasts públicos. La otra la obtuvieron de FluencyBank, una entidad sin ánimo de lucro que hace cinco años lanzó una base de datos en la que investigadores y terapeutas de todo el mundo pueden compartir vídeos, grabaciones de voz y transcripciones de niños y adultos con problemas de tartamudez.
“Nos permite hacer cosas mucho más robustas e intentar nuevas ideas sin gastar un montón de dinero”, explica Nan Berstein Ratner, profesora de Ciencias de la Escucha y el Discurso e El resultado de una de las últimas investigaciones publicadas por la división de aprendizaje automático de Apple se apoya en 32.000 grabaciones de gente que tartamudea. Cada registro lleva una etiqueta que describe lo ocurrido: bloqueos, prolongaciones, repeticiones de sonidos, repeticiones de palabras e interjecciones. La idea es entrenar con estos archivos de sonido los modelos algorítmicos que reconocen el lenguaje de los usuarios de Siri, el asistente de voz de Apple, para que éste entienda y dé un mejor servicio a aquellas personas con trastornos en el habla. Según los datos de la propia compañía, el uso de estas grabaciones ha contribuido a mejorar la comprensión de dichos usuarios hasta un 28%.
Uno de los problemas para emprender un proyecto de este tipo es que no hay suficiente material sonoro en archivos públicos. “Pese al creciente interés en esta área, los datasets —conjuntos de datos— públicos son demasiado pequeños para construir sistemas de detección y carecen de suficientes anotaciones”, señalan los autores del estudio, publicado el pasado febrero. Una parte de las grabaciones empleadas procedían de podcasts públicos. La otra la obtuvieron de FluencyBank, una entidad sin ánimo de lucro que hace cinco años lanzó una base de dato n la Universidad de Maryland y codirectora de FluencyBank. “Hay muy buenas investigaciones sobre la tartamudez, pero no se podía acceder a mucha de la información recopilada”.
Abrir a todo el mundo el acceso a estos datos permite interacciones con otras comunidades científicas. La aportación de Apple es solo un ejemplo entre muchos. “La petición más frecuente viene de gente que está desarrollando tecnologías de reconocimiento del lenguaje, que quieren que sus sistemas puedan ver a través del tartamudeo porque la gente con este problema encuentra muchas dificultades para utilizar asistentes de voz”, asegura Bernstein.
Primeros pasos
El germen de Fluency Bank está en los años 80. Bernstein colaboró entonces con el otro padre de esta torre de Babel del habla no fluida, Brian MacWhinney, en la creación de Childes, un banco para el intercambio de datos sobre adquisición del lenguaje en niños. De hecho, la investigadora fue una de las primeras en ceder grabaciones —en concreto las de su tesis doctoral— en el recién creado foro. “Mi disertación era sobre el modo en que las madres hablan a los bebés. Durante los años posteriores hemos rastreado el uso de mis datos. Se han empleado para enseñar lenguaje a los ordenadores, para enseñarles a reconocer el habla, para identificar las diferencias entre el discurso claro y el que no lo es, para establecer hipótesis sobre cómo de generalizado es el discurso entre culturas… Jamás habría imaginado nada de esto. Esa es la magia de compartir datos. Cada uno de nosotros tiene una imaginación limitada, pero cuando los datos están ahí, la gente con nuevas ideas puede hacer algo con ellos”, enumera.
El éxito de Childes impulsó la puesta en marcha de proyectos parecidos pero centrados en otros fenómenos y afecciones: afasia, trastornos del hemisferio derecho, demencia… “A partir de cierto punto, nos dimos cuenta de que muchos de estos bancos estaban centrados en el contenido. En lo que la gente dice y no en el modo en que lo dicen”, recuerda Bernstein. Entonces llegó el turno de FluencyBank, fundada en 2016 y que en este momento está en proceso de renovar su financiación por cinco años más. En este compendio de grabaciones y transcripciones los nuevos registros conviven con otros obtenidos desde mediados de los años 90 hasta la actualidad. Hay casi 3.000 registros de medio millar de sujetos entre los que figuran niños y adultos con y sin trastornos del lenguaje y aprendices de segundos idiomas.
Archivo histórico
La base de datos se convierte así en una suerte de proyecto de preservación del fruto del esfuerzo de generaciones anteriores de investigadores, que de otra manera acabaría siendo destruido u olvidado en algún fichero. “¿Qué pasa cuando te retiras? ¿Tu jefe llama al personal de limpieza y todos tus datos se van a la basura? Necesitamos preservar esto. Son datos de muy alta calidad que la gente puede revisar para hacer más cosas con ellos”. El coste de no tener en cuenta el futuro ya lo ha pagado Childes: entre sus registros más antiguos están las investigaciones del reputado psicólogo Roger W. Brown, que datan de los años 60, pero solo en forma de transcripción. “Tenía financiación, pero no suficiente, así que grababa sobre las cintas usadas”, resume Bernstein.
En paralelo al crecimiento de la base de datos, se han desarrollado programas informáticos gratuitos que permiten integrar grabaciones de diferentes idiomas —incluido español, portugués, chino mandarín y cantonés o francés, entre otros— y combinar los datos. En este sentido, uno de los retos de FluencyBank para los próximos cinco años es ampliar la diversidad lingüística de la base de datos, en la que aún predominan los registros en inglés. “De hecho, después de hablar contigo tengo una reunión con un grupo de Brasil que quiere donar registros en portugués”, comenta Bernstein, que tiene programadas diferentes intervenciones en foros internacionales para promover nuevas donaciones.
La base de datos puede usarse además como herramienta de diagnóstico. Para comparar por ejemplo los registros de un paciente con otros integrados en la base de datos. Esto permite determinar, por ejemplo, si las frases de un niño son más cortas que la media para su edad. La alternativa a utilizar estas herramientas automatizadas es dedicar mucho más tiempo a las revisiones de las grabaciones de cada paciente. “Es estúpido que el terapeuta tenga que dedicar tanto tiempo y esfuerzo a la evaluación. Si lo hace un ordenador, él puede dedicarse a trabajar en el tratamiento”.
Publicar un comentario