Google crea un intérprete de lenguaje de signos para las videollamadas

Videollamadas Google

Las personas con discapacidad auditiva y del lenguaje se encuentran con dificultades a la hora de emplear una app de videollamadas, ya no solo al tratar de escuchar lo que los otros participantes dicen, sino incluso si emplean lengua de signos, dado que el sistema posiblemente no de prioridad a esa persona «que se está comunicando».

PoseNet es la tecnología desarrollada por Google para detectar movimientos de manos y gestos de un usuario con discapacidad auditiva o del lenguaje durante una videollamada

Para solucionar estos y otros problemas de las personas con discapacidad auditiva cuando realizan una videollamada, un equipo de desarrolladores de Google Research ha estado trabajando en una tecnología llamada «PoseNet», un sistema que ejecuta estimaciones en tiempo real de poses de manos y brazos que realiza el usuario, para darle la misma prioridad de ser atendido automáticamente por el sistema, como cualquier otro participante.

Google se ha enfocado en dos cosas: la primera en la detección instantánea del lenguaje de signos y que el sistema de prioridad al hablante como a cualquier otro usuario haciendo más accesibles las videollamadas. En segundo lugar, en crear un diseño ligero, rápido, simple y fácil tanto de usar como de conectar, que no genere complicaciones o bajo rendimiento al sistema y que permita visualizar al usuario e interprete adecuadamente lo quiere decir.

Para ello, el buscador reduce la carga de trabajo para la CPU durante la entrada de vídeo en alta definición (HD) y la convierte en una lectura de puntos de referencia en donde cada parte del cuerpo que utiliza el usuario para expresarse (ojos, nariz, hombros, manos, brazos…) es tomado en cuenta. Así se calculan los movimientos y se evita que se omitan sus palabras textuales. Además, el sistema detecta el tamaño de la persona por la distancia que hay entre sus hombros. De esta forma, se ajusta a cualquier individuo y cada gestualidad o movimiento que genere podrá ser interpretado

Este sistema ha sido presentado durante la celebración de la Conferencia Europea sobre Visión por Computador 2020 (ECCV, siglas en inglés) en donde Google ha mostrado su modelo de detección de lenguaje de signos en tiempo real y cómo funciona durante una videollamada. Cuando el usuario que no puede hablar mueve sus manos o brazos para decir algo, la toma lo enfoca directamente sin ayuda del anfitrión, tal y como se muestra a continuación:

Los ingenieros de Google han empleado una arquitectura tecnológica capaz de detectar el flujo óptico (patrón de movimiento entre un objeto y una persona) del usuario. De esta forma, el sistema sabe en qué fotograma de la imagen la persona va moviéndose para detectar lo que va a decir cada dos cuadros consecutivos. Luego recurre a su base de información de memoria a corto y largo plazo hasta procesar el fotograma. Esto lo hace de manera automática durante toda la participación del usuario hablando mediante lenguaje de signos. A continuación una demostración del proceso explicado:

Una vez que Google detectaba el lenguaje de signos, el reto era proyectar por voz lo que el usuario dice. Para ello, han desarrollado un intérprete que habla con un tono de audio ultrasónico a través de un cable de audio virtual que se puede detectar por cualquier plataforma para realizar videollamadas.

El audio es transmitido a una frecuencia de 20 kHz, una onda que está por encima de los niveles normales de audición de los humanos. Las plataformas de videollamadas detectan el volumen del hablante y así le dan prioridad, por lo que al usar una frecuencia mayor es posible «engañar al sistema» para hacerle creer que es un usuario el que habla y no una máquina que ha detectado su movimiento. En la siguiente imagen se muestra el funcionamiento de este sistema:

Google en los últimos meses ha lanzado más funciones accesibles para otros de sus productos. Por ejemplo, en Google Chrome ya es posible hacer transcripciones en tiempo real, mientras que en Google Maps ya se señalan las zonas accesibles para personas con movilidad reducida.

Joaquín Romero

Redactor de Contenidos, Ingeniero en Sistemas y Desarrollador. Especializado en temas tecnológicos e innovadores que marcan el futuro de la humanidad.

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Información sobre protección de datos

    • TreceBits te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por Manuel Moreno Molina (TreceBits) como responsable de esta web.
    • La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para gestionar los comentarios que realizas en este blog.
    • Legitimación: Consentimiento del interesado.
    • Como usuario e interesado te informamos que los datos que nos facilitas estarán ubicados en los servidores de HOST EUROPE IBERIA S.L.U. (proveedor de hosting de TreceBits. HOST EUROPE IBERIA S.L.U. está ubicado en UE, en España un país cuyo nivel de protección son adecuados según la Comisión de la UE. Ver política de privacidad de HOST EUROPE IBERIA S.L.U.
    • Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en info@trecebits.comasí como el derecho a presentar una reclamación ante una autoridad de control.
    • Puedes consultar la información adicional y detallada sobre Protección de Datos en nuestra política de privacidad.