Según cuenta la investigadora, Rita Singh, el avance de la tecnología dedicada al reconocimiento de voz avanza a una velocidad insospechadamente veloz. Existe un tono específico para ciertas enfermedades, para ciertos estados de ánimos, e incluso para determinar la compostura física y origen étnico de cada persona. La inteligencia artificial y el sistema de algoritmos puede detectar más de lo que uno puede decir. Según cuenta la investigadora y expositora de Congreso Futuro 2023 en entrevista con Qué Pasa, puede ser una gran ventaja para las personas, pero también un gran peligro si es que cae en personas que utilicen esta tecnologías con fines poco éticos.

La expositora se desempeña como profesora en la Escuela de Ciencias de la Computación de la Universidad Carnegie Mellon en Pittsburgh, Estados Unidos, y está asociada al Institute for Strategic Analysis, el Centro Nacional de Ingeniería Robótica (NREC). Con una carrera que se extiende por dos décadas de investigación en amplias temáticas sobre áreas que implican la inteligencia acústica y un sinnúmero de aspectos en el sonido de la voz humana que son procesados por máquinas. Su trabajo actual se enfoca en desarrollar un perfil humano a partir de la voz, una nueva sub-área de la Inteligencia Artificial y del análisis forense de la voz. La innovación tecnológica de la cual es pionera su equipo ha dado origen a dos primicias mundiales: En septiembre de 2018, su equipo creó el primer sistema que traza un perfil basándose en la voz en directo, presentado en el Foro Económico Mundial en Tianjin, China. También, en 2019 su grupo creó la primera transmisión mundial de voz humana generada en base a rasgos faciales.

El fin de la charla de Singh habla sobre el potencial de la voz humana y cómo podrían influir las máquinas en el futuro. Con las poderosas herramientas de inteligencia artificial, en poco menos de una década podrá ser posible saber mucho más de lo que se sabe de una persona con solo lo que dice.

-¿Cómo es posible encontrar este tipo de “huella digital” de cada persona a través de la voz?

Esto se debe a que el mecanismo de producción de la voz humana es muy, muy complejo. Es un proceso biomecánico. Implica muchos procesos fisiológicos, procesos musculares, cognitivos. Tu cerebro está involucrado, por lo que muchas cosas trabajan en conjunto para que seas capaz de producir tu voz y no solo eso estás produciendo voz. No solo estás produciendo vocalizaciones como animales, humanos. Ponemos significado en la voz mucho más eficazmente que otras especies a través de sus vocalizaciones.

Entonces, en ese proceso hay tantos factores involucrados que la voz de cada persona es única. La voz humana es como una huella digital o tu ADN. Es muy único. Las posibilidades de que 2 personas tengan las voces son menos de una en un billón. Entonces, lo que hacemos es buscar computacionalmente firmas de varios factores que podrían estar afectando ese proceso de producción de voz.

Luego de esas “firmas” tratamos de deducir lo que podría estar afectando al individuo. Por ejemplo, puedo decir mucho sobre tu estatura física, sobre tu estado de salud, sobre tus antecedentes, tu origen étnico, lo que está sucediendo en tu corazón, tus pulmones, tu cerebro. Cosas como esas podemos hacer mucho más ahora que hace un par de años.

Rita Singh. Cortesía: Congreso Futuro

-¿Hay una manera de conectar nuestra voz con el ADN de cada persona?

No todo el código de ADN, pero si puedo adivinar tanto sobre ti sobre cuáles son sus influencias genéticas, por ejemplo. Es un esfuerzo muy fundado para tratar de deducir las emociones, la personalidad y el comportamiento de la voz, pero en realidad estos están muy fuertemente arraigados en su genética. Son tus personalidades. Estás programado para ciertas cosas y si puedo deducir esas cosas de tu voz, puedo conectar los puntos y descubrir para qué estás programado. Bien, así que estamos tratando de progresar en esa dirección. Creo que en el futuro podremos hacerlo.

-¿Qué tipo de enfermedades son las más fáciles y las más difíciles de detectar a través de la voz?

Cualquier enfermedad que pueda afectar directamente el movimiento de sus cuerdas vocales, por ejemplo, el tracto respiratorio está muy fuertemente involucrado en la producción de voz, por lo que cualquier perturbación que ocurra se puede detectar. Incluso el Covid se puede detectar fácilmente por voz.

Hay otras enfermedades que afectan directamente su movimiento muscular. Por ejemplo, enfermedades musculoesqueléticas con enfermedades del sistema nervioso. Aunque todo esto debe ser siempre complementado con la opinión de un médico especialista.

-¿Cuántas características de una persona se podrían obtener solo con su voz?

Muchas cosas. Así que las características físicas, los factores fisiológicos, la edad otras similares. Muchos parámetros de salud, como qué tipo de drogas podría haber estado tomando, si está intoxicado o no. También si tienes ciertas discapacidades, si tiene ciertas enfermedades, factores sociológicos, demográficos.

-Entonces, en el futuro con una encuesta telefónica se podría obtener más información de los que la gente dice con sus palabras.

Sí, eso es muy cierto y eso es lo que voy a tratar de resaltar en mi charla de Congreso Futuro. Voy a tratar de dar a la gente una idea de cuánto viene y por qué somos capaces de deducir tanta información, y lo que significa para el mundo de las máquinas y la robótica

-¿Cuánto ha mejorado esta tecnología en los últimos años para perfeccionar esta técnica?

Está progresando muy rápido. Somos capaces de hacer lo que llamamos descubrimiento de biomarcadores. Entonces, mientras que antes, si sabías que una determinada enfermedad, hay 30.000 o más enfermedades humanas conocidas, y si sabías que cierta enfermedad tiene un efecto en la voz, como bronquitis o Parkinson, con algoritmos de aprendizaje automático se pueden construir detectores para eso. La tecnología y las técnicas de descubrimiento de biomarcadores nos permiten obtener esa respuesta sin siquiera mirar a un individuo que tiene esa enfermedad.

-¿Y es posible que una máquina pueda reproducir, emular los mismos patrones de una voz para suplantarla?

Desafortunadamente las máquinas se están volviendo cada vez más realistas y mejores para generar voces humanas. Hay esperanza en que los humanos son tan humanos, y que sus patrones son tan finos que las máquinas no pueden emularlos. Las máquinas al final del día, cuando aprenden, reproducen los mismos patrones, pero cada vez que hablas, cada pequeño movimiento de tu pliegue vocal, es ligeramente diferente del siguiente. Si miras más y más profundo, encontrarás un nivel de inconsistencia que las máquinas no podrán producir a corto plazo, a menos que aprendan de millones o miles de millones de horas de datos humanos.

-¿Qué pasa con los límites éticos de esta tecnología? ¿Hasta dónde se puede avanzar con esto sin poner en riesgo la integridad o la privacidad de las personas?

Esta tecnología tiene que estar muy protegida porque puede revelar mucho sobre ti. Esto es como dar sus registros médicos al público, poniéndolos en Internet. Muchas cosas buenas, pero muchas cosas malas también pueden suceder como resultado. Las compañías de seguros pueden negarle cierta cobertura, o una persona podría no obtener ciertos trabajos si tiene un problema que no ha revelado al mundo.

-¿Y se puede utilizar esto para acciones no benévolas, pensando en el riesgo que puede aparecer en el futuro desarrollo de esta tecnología?

Creo que se puede usar para muchos propósitos benévolos, y que es lo que nos mantiene en marcha. Puede ser una ayuda diagnóstica muy poderosa, al igual que una radiografía, al igual que una voz de tomografía computarizada puede ayudar a los médicos a diagnosticar enfermedades muy difíciles de diagnosticar. La voz también se puede usar para ofrecer lo que yo llamo servicio de telesalud en lugares donde la conexión a internet aún no es óptima para realizar intervenciones con otro tipo de tecnología.

Imagínese si sus padres estuvieran en un lugar remoto donde y no pueden ir a hacerse chequeos de salud regulares. Si pudieran llamar a una máquina regularmente y la máquina pudiera decirles que está bien o que algo va mal con usted, vaya a buscar a un médico o haga que lo llame y le avise de que algo va mal con su madre. Podría usarse para monitorear diversas condiciones de salud para el cumplimiento y para muchas otras cosas en el área de la seguridad. Creo que muchos de los sistemas de seguridad existentes se pueden fortalecer mediante el uso de esta tecnología junto con lo que ya tienen.

La tecnología de voz es humana. La elaboración de perfiles es algo que está surgiendo y creo que la gente no debería tener miedo de usarlo. Y piensa en buenos usos para ello, porque aunque no es perfecto, ninguna tecnología es perfecta. Es muy poderoso en este momento.