Columna de Tomás Sánchez: ¿Quién paga la cuenta cuando hablamos de IA?

The New York Times
Foto: Reuters


Por Tomás Sánchez, autor de Public Inc.

¿Cuáles son los términos y condiciones cuando usted lee esta columna? ¿Usted puede sólo disfrutar su lectura, o también rentabilizarla? Ese es el fondo del asunto en la discusión a nivel global entre generadores de contenidos (medios, autores, músicos, y artistas, entre otros) y las empresas de Inteligencia Artificial. Es una debate que se viene dando hace más de una década, pero la semana pasada tuvo un hito relevante, cuando The New York Times demandó a Open AI por usar millones de sus artículos para entrenar a Chat GPT.

Este es el primero de muchos conflictos que se generarán en el derrotero de la IA, pero que a su vez, su resolución puede definir el rumbo de cómo nuevas tecnologías impacten nuestras vidas. En este caso, en una primera derivada estamos hablando de los derechos de autor y el uso de la propiedad intelectual para fines que no estaban originalmente estipulados. En una segunda, estamos definiendo los sesgos que tendrán los modelos de Inteligencia Artificial al eventualmente restringir o diferenciar el contenido con el que se entrenan y consecuentemente sus resultados.

Vamos por partes.

Primero, tradicionalmente, los contratos tácitos o explícitos al consumir contenido están meridianamente claros: “Usted puede ver esta película, pero su reproducción está prohibida”. Es decir, quien produjo la película le dio acceso a la audiencia para que la disfrute, pero no para que la copie, revenda y profite con ella. Eso tiene otro precio y tiene sentido. Es la premisa detrás de la legislación australiana que obliga a las plataformas digitales a negociar con los medios locales cuando sus artículos son difundidos por los usuarios, y por lo tanto, generan tráfico y réditos para las redes sociales. El espíritu de la ley apunta a que los periódicos puedan capturar parte de la renta cuando sus noticias son compartidas en Facebook o X (ex Twitter), dado que quien cobra por la publicidad que aparece junto a ellas es la plataforma, no el medio. Es decir, la legislación se hace necesaria para que Google u otros no sean freeriders al rentabilizar el trabajo periodístico de otros, y no pasen a llevar el contrato original.

Por otro lado, los casos donde alguien rentabiliza el acceso a cierto contenido es un lugar común. Probablemente todos los lectores de este medio, gracias a estar bien informados, tienen un mejor desempeño profesional, pueden tomar mejores decisiones de inversión o se apalancan en sus artículos cuando están haciendo alguna investigación. Sin embargo, es prácticamente imposible buscar, demandar o aspirar a compartir parte de esa renta adicional. Diferente al caso de la plataformas de redes sociales o las empresas con grandes modelos de lenguaje de IA, a quienes sí pueden identificar. Al parecer, obviamos los términos y condiciones cuando no podemos hacerlos cumplir, pero no cuando es posible identificar y capturar esa renta.

La segunda derivada es una que a corto plazo puede parecer anecdótica, pero en el largo plazo es fundamental. Todo modelo de inteligencia artificial es tan bueno como la data con la que sea entrenado. Por lo mismo, el resultado de un modelo será sustancialmente diferente si aprendió en base a noticias de Estados Unidos o de China, o si fueron noticias del New York Times versus Fox News. Es la causa estructural de por qué cuando usted busca “abuelitas” en imágenes de Google, el 90% de los resultados son mujeres con cortes de pelo similares, blancas, con cierto nivel de arrugas en la piel, sonrientes y con otras tantas características que apelan a un estereotipo claro, y no a la diversidad real. El buscador no muestra un resultado que se ajuste estadísticamente a la diversidad mundial, o al contexto local de donde hago la búsqueda. Este es un ejemplo simple de los sesgos presentes en los algoritmos.

Entonces, la disyuntiva trasendental es la siguiente: dado que los modelos fundacionales como ChatGPT, Claude o Bard serán los cimientos para millones de aplicaciones basadas en Inteligencia Artificial, en temas tan sensibles como asesorar inversiones o hacer diagnósticos médicos, ¿debiesen esas empresas contar con la mayor cantidad de contenido posible, independiente de la propiedad privada y derechos de sus creadores?

La alternativa, es no pasar a llevar los derechos de autor, exigiendo que las empresas de AI lleguen a acuerdos con los generadores de contenido. Sin embargo, la potencial consecuencia es que los modelos tendrán inicialmente sesgos dado el contenido diferenciado con el que serán entrenados.

La respuesta es compleja, y necesitamos encontrar un balance entre el bien común producto de modelos entrenados con más data y la compensación a quienes crearon esa data. Sin embargo, respetar la propiedad privada debiese ser una premisa básica, y un desafío para las empresas de Inteligencia Artificial corregir sus sesgos y crear mecanismos para remunerar el contenido necesario para entrenar sus modelos. Estamos presenciando la creación de una industria determinante en el futuro de la economía y sociedad con enormes barreras de entrada que presagian un oligopolio a nivel mundial. Asegurar mercados competitivos y periodismo de calidad que fortalezcan nuestra democracias, depende de las regulaciones que definamos hoy.