La IA juega una mala pasada a Microsoft y filtra 38 TB de datos confidenciales

David Soriano Publicado el 19 de septiembre, 2023 • 10:34

Los investigadores de Inteligencia Artificial de Microsoft han cometido un error bastante infantil con el que han acabado exponiendo 38 TB de información confidencial incluyendo modelos de aprendizaje automático para entrenamiento, contraseñas, copias de seguridad, mensajes privados, etc.

Sabemos que para entrenar a los nuevos modelos de Inteligencia Artificial se requieren cantidades masivas de datos de entrenamiento, pero nunca habíamos podido ser testigos directos de cómo todos estos y muchos más datos confidenciales se exponían de una forma tan absurda en Internet al alcance de todo el mundo.

Filtración masiva en la IA de Microsoft

El equipo de investigación de Inteligencia Artificial de Microsoft, mientras publicaba un conjunto de datos de entrenamiento y capacitación de código abierto en GitHub, expuso accidentalmente 38 terabytes de datos privados adicionales, incluida una copia de seguridad en disco de las estaciones de trabajo de dos empleados. La copia de seguridad incluye información secreta, claves privadas, contraseñas y más de 30.000 mensajes internos de Microsoft Teams.

El problema se generó cuando los investigadores compartieron sus archivos utilizando una característica de Azure llamada tokens SAS (firma de acceso compartido), que permite compartir datos de cuentas de Azure Storage. El nivel de acceso se puede limitar únicamente a archivos específicos; sin embargo, en este caso, el enlace se configuró para compartir toda la cuenta de almacenamiento, incluidos otros 38 TB de archivos privados.

Este caso es un ejemplo de los nuevos riesgos que enfrentan las organizaciones cuando comienzan a aprovechar el poder de la IA de manera más amplia, ya que ahora más ingenieros trabajan con cantidades masivas de datos de entrenamiento. A medida que los científicos e ingenieros de datos se apresuran para llevar a producción nuevas soluciones basadas en IA, las enormes cantidades de datos que manejan requieren controles y salvaguardas de seguridad adicionales.

Fue el equipo de investigación de Wiz quien encontró el repositorio de Github propiedad de Microsoft llamado robust-models-transfer. El repositorio pertenece a la división de investigación de IA de Microsoft y su propósito es proporcionar código fuente abierto y modelos de IA para el reconocimiento de imágenes. También incluía modelos de aprendizaje automático pertenecientes a un artículo de investigación de 2020 titulado «Do Adversarially Robust ImageNet Models Transfer Better?»

Se indicaba a los lectores del repositorio que descargaran los modelos desde una URL de Azure Storage. Sin embargo, esta URL permitía el acceso a algo más que modelos de código abierto. Se configuró para otorgar permisos en toda la cuenta de almacenamiento, exponiendo por error datos privados adicionales, incluidas contraseñas de servicios de Microsoft, claves secretas y más de 30.000 mensajes internos de Microsoft Teams de 359 empleados de Microsoft.

La fuga ya ha sido solucionada

Microsoft ha comunicado que ya tomó medidas para corregir el flagrante error de seguridad. Ya no se puede acceder al repositorio denominado «robust-models-transfer». Hasta cancelar el acceso, por si fuera poco con que cualquiera pudiera echar un vistazo a esos datos confidenciales, ni siquiera se pusieron en modo «solo lectura».

Además del alcance de acceso excesivamente permisivo, el token también estaba mal configurado para permitir permisos de «control total» en lugar de solo lectura. Es decir, un atacante no sólo podría ver todos los archivos de la cuenta de almacenamiento, sino que también podría eliminar y sobrescribir los archivos existentes.

Es decir, un atacante podría haber inyectado código malicioso en todos los modelos de IA en esta cuenta de almacenamiento, y todos los usuarios que confían en el repositorio GitHub de Microsoft habrían sido infectados por él.