La obsesión por los datos

Hoy vivimos una revolución de los datos masivos. Las empresas, políticos y gobiernos están usando la tecnología para seguir el comportamiento de los clientes, los votantes y los usuarios. Es el fenómeno Big Data. La promesa es que va a permitir predecir situaciones y reducir la incertidumbre. El temor es que se haga a costa de nuestra privacidad o que se equivoquen.




Fue un experimento realizado hace una década el que empezó dar luces del enorme potencial. La cadena de supermercados Walmart revisaba sus gigantescas bases de datos para analizar qué compraba la gente, a qué hora lo hacían, cuánto gastaban y se demoraban. Al cruzar la información apareció un dato curioso: ante una amenaza de catástrofe natural las personas no solo compraban artículos como linternas y pilas, sino que una marca específica de galletas. Para probar qué pasaba las pusieron junto a los kits de emergencia. Las ventas se fueron a las nubes.

Desde entonces y mediante algoritmos computacionales capaces de procesar vastas cantidades de información, cada vez más compañías están usando la tecnología para conocer mejor a sus clientes. En Chile, por ejemplo, un análisis de la Universidad de Chile demostró que cuando la gente va al supermercado a comprar detergente, también agrega chicles en el carro. Es parte del fenómeno conocido como "Big Data", un término que es el resultado de estos tiempos de desarrollos tecnológicos y matemáticos que nos permiten acopiar y cruzar información como nunca antes. Una tendencia que está modelando la sociedad en varios ámbitos.

Un dato. En 2008 el número de objetos conectados a internet, entre computadores y otros dispositivos, superó al número de personas en el planeta. Solo en YouTube se suben 100 horas de video por minuto. En Facebook son alrededor de 200 mil fotos cada 60 segundos. Según el estudio Universo Digital, de la compañía EMC, la disponibilidad de información crece a un ritmo de 40% anual y se duplica cada dos años.

Los sitios web que visitamos, los "Me Gusta" en Facebook, los comentarios en Twitter, las llamadas por celular, los viajes con la tarjeta Bip, y la aplicación del smartphone que sirve para decirles a los amigos "aquí estoy". Todo queda registrado. La tendencia actual apunta a desarrollar sistemas que permitan explotar esa huella digital que las personas van dejando. La promesa es que eso permita tomar mejores decisiones, entender cómo se comporta la gente, planificar de manera inteligente el tráfico en las ciudades o saber si este año el sistema de salud colapsará por los casos de gripe. Predecir, ver el futuro, no a través del difunto pulpo Paul, sino que con una base científica.

¿Hacia dónde nos conduce el ascenso de esta nueva capacidad tecnológica? ¿Puede la obsesión por los datos transformarse en una pesadilla?

OBSESIVOS DATOCOMPULSIVOS

En el libro Big Data: A Revolution That Will Transform How We Live, Work and Think, los autores Viktor Mayer-Schönberger y Kenneth Cukier explican que no fue sino hasta pocas décadas que el avance tecnológico le permitió al ser humano "obsesionarse" con los datos. Antes de la época industrial el acceso a la información era escaso y los nacientes estados modernos realizaban ingentes esfuerzos por recolectar información a través de instrumentos como los censos. Para poder usar los datos disponibles, los matemáticos y científicos crearon la estadística, que permite establecer correlaciones entre los números, conocer tendencias y hacer proyecciones.

Hoy en cambio la situación es al revés. Estamos llenos de datos. Erick Schmidt, presidente de Google, explica que desde los comienzos de la civilización hasta 2003 la humanidad produjo cinco exabytes de información, es decir, el equivalente a la información contenida en 1.250 millones de DVD. Hoy, generamos esa misma cantidad de datos cada dos días.

Tomás Ariztía es sociólogo y académico de la Universidad Diego Portales. Él explica que asistimos a una cuantificación de la vida social, y que existe incluso una tendencia al "yo cuantificado". A través de aplicaciones en los smartphones, por ejemplo, es posible recopilar toda clase de datos de una persona: cuántos pasos dio, si hizo ejercicio o si está durmiendo bien. Al analizar todo eso comienzan a revelarse patrones e información con la que antes ni soñábamos. "Antiguamente el conocimiento se producía por números muy pequeños y era costoso obtenerlos. Durante mucho tiempo existían sólo las encuestas a personas. Una base de datos en cambio no pregunta tu opinión, te observa, te mide. Eso es una tremenda diferencia".

La abundante disponibilidad de dispositivos y aparatos que permiten medirlo todo ha hecho que el Big Data se haya transformado en una moda que se ha propagado gracias a la irrupción de redes sociales que permiten "compartir esa cuantificación" a grandes audiencias dice Ariztía, quien actualmente trabaja en un proyecto Fondecyt para estudiar a los expertos que trabajan en Big Data y conocer cómo toman decisiones.

El problema en el escenario actual entonces es mucho menos recopilar datos que procesarlos y saber qué hacer con ellos. Ahí irrumpe la "inteligencia" de las máquinas, decenas de miles de computadores corriendo programas de procesamiento de datos y algoritmos que permiten reconocer patrones para que los computadores "aprendan". Ejemplos de lo que se está haciendo en Chile y el mundo hay varios.

EL RETAIL Y LOS CELULARES

"Antes tenías sólo la intuición para los negocios. Hoy esa intuición se complementa con información para tomar mejores decisiones", explica Carlos Hurtado, doctorado en ciencias de la computación y director de tecnología de Microsystems, empresa que se dedica a procesar información de mercados para otras compañías, para ayudarlas a anticiparse a las fluctuaciones del mercado.

En el Instituto de Sistemas Complejos de la Universidad de Chile, el académico de Ingeniería Industrial Sebastián Ríos lidera el Centro de Investigación en Inteligencia de Negocios (Ceine) y trabaja desde 2001 en una de las áreas clave para el desarrollo del Big Data: la inteligencia de la web. "Consiste en buscar patrones de las personas a partir del uso que hacen de internet". A partir de eso, Ríos está desarrollando proyectos que en áreas como la planificación en transporte público, el monitoreo de enfermedades en tiempo real para mejorar el sistema público o el análisis de la publicidad a través de las redes sociales.

Uno de estos trabajos fue realizado junto a Telefónica. Como a medida que una persona se desplaza por la ciudad, su celular va transitando de una antena a otra para mantenerla siempre conectada a la red de telefonía, ellos han medido la cantidad de llamadas que recibe cada antena de telefonía celular, para así determinar tendencias en los desplazamientos. Ríos cuenta que al analizar las llamadas registradas entre seis y siete de la tarde se dieron cuenta de que en ese horario "dibujaban de manera precisa las líneas del Metro, confirmando que una buena parte de los habitantes de Santiago está en ese lugar", cuenta. Lo mismo pasa los viernes en la noche en Bellavista y en los estadios cuando hay conciertos, agrega el investigador. Los datos pueden ser utilizados para conocer las áreas más congestionadas de la ciudad y realizar planificación urbana más efectiva.

También sirven al operador de telefonía para conocer mejor su negocio. Por ejemplo, al cruzar la información entre las llamadas a call centers y el pago de la cuenta a fin de mes, se dieron cuenta de que quienes llaman frecuentemente tienen menos tendencia a pagar la cuenta. No están satisfechos con el servicio y castigan al operador, de manera que las compañías están usando estos sistemas para evitar problemas que puedan originar fugas de sus clientes. También analizan el consumo de las personas para hacerles ofertas personalizadas, esas que reciben los clientes cuando una operadora de un país remoto los llama para preguntarles si quieren subir los minutos de su plan.

Otra de las investigaciones del equipo del Ceine de la Universidad de Chile analizó más de 300 millones de boletas de la cadena de retail de Cencosud. A partir de lo que compran en el supermercado identificaron varios grupos distintos como uno que fue bautizado como "La comunidad del completo". Compran por supuesto pan, salchichas, palta y tomate, pero además optan por una serie de productos específicos: una marca determinada de ketchup, ciertos tipos de té o bebidas. La información sirve a los administradores de supermercados para distribuir los alimentos o para ofrecerles packs y descuentos específicos. Los análisis preliminares muestran un aumento de 2% en las ventas, dice Ríos.

GOBIERNO VERSUS CIUDADANOS

Esta tendencia también ha penetrado en la política. El presidente de Estados Unidos, Barack Obama, por ejemplo, estuvo asesorado en su campaña por expertos en tecnología que usaban algoritmos computacionales basados en información disponible en la web. Así pudieron identificar a los segmentos de la población de indecisos que podían ser más proclives a votar por el partido demócrata y crearon campañas focalizadas para ellos. Y funcionó.

Las tecnologías para procesar información también pueden estar al servicio del ciudadano común y ser una herramienta de control. En Chile, Felipe Heusser, fundador y director de Ciudadano Inteligente, una ONG que usa las tecnologías de información para promover la transparencia y participación, cuenta que están desarrollando una serie de iniciativas que permiten fiscalizar al Estado usando el Big Data.

El inspector de intereses es una de ellas. El sistema cruza información de diversas fuentes para detectar conflictos de interés y saber si las autoridades de gobierno o los parlamentarios que intervienen en actividad legislativa tienen algún interés económico que no han informado. Uno de los casos que ayudaron a descubrir fue el del diputado Ramón Barros, quien poseía viñedos en las hectáreas declaradas de su patrimonio, lo cual no detalló y podía ser conflictivo al momento de votar sobre la prohibición de publicidad de alcohol en carreteras y eventos deportivos. Felipe Heusser explica que usan información de una serie de fuentes como la web del Congreso, Cámara de Comercio, Servicio de Impuestos Internos. "Hay mucha información que sólo aparece cuando puedes cruzar los datos", dice.

SALUD MAS EFICIENTE

En la Universidad de Chile, el investigador José Tomás Arenas está dedicado a analizar imágenes médicas de retinas y ojos. Su objetivo es optimizar la atención de los pacientes diabéticos. Para eso creó una plataforma web que puede escudriñar en fotografías digitales de retina para realizar diagnósticos automatizados. El sistema, llamado DART, busca encontrar una enfermedad que afecta a sólo dos de cada 10 diabéticos llamada retinopatía diabética, que si no se detecta a tiempo puede dejarlos ciegos. "El problema es que para identificarla hoy tienes que tener un oftalmólogo que revise a todos los pacientes", explica Arenas. Él usa una herramienta llamada "data mining", que permite detectar los patrones de la enfermedad en la retina y así le basta con la foto para que el sistema indique quién debe revisarse con el especialista y quién no. "Calculamos que si se implementa en el sistema público, el gasto en esta enfermedad puede disminuir de 25 millones de dólares anuales a 10 millones de dólares", dice José Tomás Arenas.

La lista de aplicaciones para el Big Data ya sea en salud, política, ciudadanía y en el comercio a nivel global es larga y la fe que hay puesta en los resultados que se pueden obtener es enorme. Sin embargo, también han comenzado a aparecer ejemplos que llaman a moderar el entusiasmo.

LA SOBERBIA

Uno de los más llamativos resultados de los esfuerzos para procesar grandes cantidades de información fue el proyecto Flu Trends, que acaparó la atención en 2009 cuando logró predecir la incidencia de gripe en cada región de Estados Unidos. En un artículo publicado en Revista Nature, el gigante de las búsquedas demostraba que su "infalible" creación podía escudriñar en millones de búsquedas relacionadas con la gripe para señalar casi al instante si habría colas en las urgencias, en contraste con los sistemas del gobierno que necesitaban semanas para generar esa información. El New York Times llegó a hablar de "un matrimonio fructífero entre medicina y comportamiento de masas". Pero de acuerdo a una investigación publicada en marzo en la revista Science por un grupo de científicos liderado por David Lazer, en 2011 las previsiones comenzaron a fallar: el sistema proyectó el doble de visitas al médico que las que finalmente registraron las autoridades de salud. Factores como la opción de autocompletado del buscador, y la difusión de la gripe en medios de comunicación, aparentemente llevaron a que cada vez más personas consultaran en Google por los síntomas de la enfermedad, sin estar contagiados, lo que llevó a sobreestimar las consultas.

Los autores dijeron que Google estaba sufriendo de "arrogancia del Big Data" y los medios, después de algunos años entusiasmados por sus posibilidades han iniciado un debate en torno a las limitaciones que tiene la revolución de los datos masivos. "Ocho (¡No, Nueve!) problemas con el Big data", tituló el New York Times. Mientras la revista The Economist y el Financial Times preguntaron "¿Es el Big Data basura?" o "¿Big data: estamos cometiendo un grave error?", respectivamente.

César Hidalgo, físico chileno que estudia sistemas complejos y trabaja en análisis de datos en el prestigioso Laboratorio de Medios del MIT (EE.UU), dice que esto sucede porque nuestra habilidad para entender y visualizar datos está entrando en una etapa similar a la astronomía en el siglo XVII. "Así como ocurrió con Galileo hace siglos, hoy todavía tenemos versiones primitivas de herramientas que tienen potencial de convertirse en poderosas".

Otro de los debates que se ha abierto se refiere a la privacidad. Un ejemplo paradigmático se dio en 2013, cuando Edward Snowden acaparó la atención de los medios al revelar que la NSA poseía numerosos programas de vigilancia global basados en el análisis de información privada disponible a través de la web. En Chile, también se generó revuelo cuando en 2011 se supo que el gobierno de Sebastián Piñera había contratado a la empresa Brandmetrics para conocer las opiniones de los chilenos en redes sociales como Twitter y Facebook. Muchos consumidores y organizaciones temen que las empresas puedan seguir su huella digital. La semana pasada se publicaron los resultados de un estudio llamado Privacy Index que mide las actitudes de 15 mil consumidores en 15 países (Chile no está incluido, sí México y Brasil) con respecto a la privacidad online. El estudio revela que la relación de las personas con el tema es bastante contradictoria: los usuarios quieren disfrutar de todas las ventajas y beneficios de la tecnología digital, pero no quieren arriesgar su privacidad. Pese a eso, la mayoría no hace grandes esfuerzos para proteger sus datos y el 62% responde que no cambia sus claves regularmente ni protege con códigos sus aparatos móviles. Es más, la mayoría admite que comparte datos personales en distintas plataformas a pesar de que el 51% no confía en la ética de las organizaciones a las que le entrega información. Como resultado, más de la mitad siente que hoy tiene menos privacidad que hace un año y el 81% cree que esa situación empeorará en los próximos cinco años.

Lo más probable es que tengan razón. Otra predicción, esta vez de la consultora de tecnología Gartner, dice que para 2020 existirán nada menos que 50 mil millones de objetos conectados a la web en el mundo. Es la llamada "internet de las cosas": desde tostadoras, hasta la ropa que usamos, pasando por los sistemas de iluminación de la casa y el auto. Todo eso generando miles de millones de datos factibles de ser monitoreados y analizados.

Comenta

Por favor, inicia sesión en La Tercera para acceder a los comentarios.