Metadatos: la información oculta



La evolución tecnológica nos obliga a trabajar con grandes volúmenes de datos hasta el punto de que es necesario recurrir a la Inteligencia artificial para automatizar los procesos. Esta automatización genera más información que describe a los datos, objetos o recursos. Por ejemplo, un archivo fotográfico es, para un programa informático, un conjunto de datos que ordenan iluminar puntos en la pantalla hasta formarse una imagen perceptible solo por el ojo humano. A la hora de buscar el archivo de imagen (como dato) el sistema no podrá encontrarlo si no añadimos información adicional que permita saber qué es, qué contiene y qué diferencias hay con respecto a los demás archivos de imagen.

Esta información que se guarda en los recursos se denomina metadato. Literalmente significa más “allá de lo que se da” o “sobre datos” (del griego “meta” y del latín “datum”). Por tanto, se trata de información de los datos, una especie de índice de datos anexos que se añaden a datos concretos.

Los metadatos se generan a partir de interacciones con otras personas y dispositivos al usar la tecnología.


Los metadatos en la evolución de Internet
Los metadatos siempre han estado presentes en la red desde su creación en 1968 con el nacimiento de ARPANET. Pero será en la década de los noventa del siglo pasado, con la aparición de la World Wide Web y el primer buscador llamado Wandex, cuando tenga mayor protagonismo. Por entonces estaba la Web 1.0 consistente en una red de páginas estáticas, con un diseño gráfico austero, que ofrecían información sin posibilidad de interactuar. Wandex utilizaba metadatos para construir un índice de páginas web.

Habría que esperar hasta el año 2004 para dar un salto evolutivo a la Web 2.0, bautizada también como Web social, y convertirla en una red dinámica. Surgieron comunidades virtuales, servicios web, blogs, redes sociales, plataformas de vídeos y música, etc. Todo el auge de las llamadas “punto com” sirvió de germen para una acumulación exponencial de información que fue desembocando en el Big data. Internet estaba creciendo rápidamente, desarrollándose para sentar las bases de la era de la información. Sin embargo seguía siendo una red donde predominaba la interacción humana, el flujo de datos y su almacenamiento. Los sistemas operativos y los programas informáticos estaban diseñados para realizar tareas.

La Web 3.0 da otro giro al incorporar la Inteligencia artificial. La idea es que las aplicaciones informáticas puedan razonar, comprender los términos lingüísticos y poder interactuar con las personas. De esta forma, cuando queremos buscar una fotografía o vídeo donde aparezca una playa es necesario almacenar información en los archivos que permitan comprender que en esa fotografía o vídeo hay una playa y no una sucesión de puntos luminosos. A esta versión 3.0 se le ha denominado Web semántica.

El siguiente paso, la Web 4.0, tiene el reto de conseguir una interacción con el usuario más completo y personalizado, capaz de resolver las limitaciones que existen actualmente en la Red. Mientras que la Web 3.0 se limita a mostrar información precisa de lo que queremos buscar, asociando determinados datos a un recurso para que pueda ser reconocido (ejem. archivo de imagen con la palabra playa), la Web 4.0 pretende comprender el lenguaje natural para crear una comunicación más precisa entre persona y máquina dentro de un contexto. Ya no se trata de utilizar la Web como un almacén de datos sino de crear un sistema capaz de comunicarse con el usuario. Un ejemplo muy práctico podría ser el de un niño que encuentra a su madre inconsciente en el suelo y con el simple acto de decir al teléfono móvil “mi madre no respira”, el programa informático reconozca el significado de la frase y automáticamente se ponga en contacto con los servicios de urgencias y la policía sin que el niño tenga que hablar con una operadora.


Immersion o el arte de utilizar los metadatos para analizar las relaciones personales a través del correo electrónico
Los metadatos también se utilizan para análisis a partir de la interacción con otras personas. Un ejemplo claro es el programa informático Immersion.

En el año 2003 Daniel Smilkov, Deepak Jagdish y César Hidalgo, estudiantes del Instituto Tecnológico de Massachusetts, concretamente del MIT Media Lab, diseñaron un programa que extraía ciertos metadatos de correos electrónicos de un usuario y los analizaba para ver su evolución a lo largo del tiempo. Concretamente extraía los metadatos de los campos: “Para”, “De”, “Cc” y las fechas y horas. Las líneas del Asunto y el cuerpo del mensaje estaban excluidas. A partir de esos metadatos consiguieron definir los vínculos del usuario de la cuenta de correo con el resto de personas. El programa Immersion creaba un gráfico consistente en nombres de contactos dentro de un círculo y líneas que los unían con el central que era el usuario del correo electrónico. Cuanto más gruesa era la línea que unía el círculo de un contacto con el usuario, mayor era el número el correos electrónicos se intercambiaban.  Durante una de las pruebas se descubrió, a partir de los correos electrónicos de uno de los diseñadores, como había evolucionado su vida antes y después de entrar a estudiar en el MIT. Comprobaron que en ciertos momentos tuvo contacto con algunos grupos de amigos y compañeros y posteriormente cambió cuando se centró en el proyecto. Fue significativo comprobar que las líneas más gruesas, las que indicaban un mayor flujo de emails, eran las que conectaban los círculos de sus dos compañeros de proyecto.

Ese es un pequeño ejemplo de qué son los metadatos y su utilidad. Si lo trasladamos a las redes sociales y cogemos los metadatos “Ubicación”, “Me gusta”, “Compartir”, “Hastag”, etc., se puede crear perfiles de personas para ofrecer publicidad personalizada, información según los gustos o sugerir grupos y gente con intereses comunes.


La ciencia de la catalogación
Los metadatos también tienen la función de gestionar gran cantidad de información. Hace unas décadas los ordenadores estaban equipados con discos duros internos de 10, 20 o 30 Mb. Los archivos podían encontrarse sin dificultad porque se guardaban en disquetes con etiquetas. Con la llegada de los CD, DVD, pendrive, discos duros externos y los servicios en la nube, permitió un aumento del número de archivos y la dificultad de encontrarlos. A nivel doméstico no era complicado acceder si había cierto orden de carpetas, pero desde el punto de vista empresarial, era necesario incluir metadatos en los archivos para acceder con mayor rapidez y precisión.

La irrupción también de las redes sociales y los blogs han hecho de los metadatos una herramienta central: hastag, etiquetas, palabras clave, etc. Con ellos, se encuentra información directamente sin tener que buscar entre miles de post o entradas. Google, por ejemplo, utiliza los metadatos para mostrar búsquedas ordenadas en base a unos criterios.

Cada recurso tiene sus propios metadatos más o menos estandarizados que son generados tanto por el propio usuario como por el programa informático. La mayoría guardan la siguiente información:

- Nombre del recurso
- Descripción del recurso: título, subtítulo, asunto, clasificación, etiquetas, comentarios y categorías
- Tipo de recurso
- Tamaño del recurso
- Nombre del dispositivo que contiene el recurso
- Sistema Operativo instalado en el equipo
- Administrador
- Organización
- Usuarios que han accedido al recurso
- Software utilizado para crear el recurso
- Ubicación en el que está guardado el recurso (nombre de la carpeta, dirección local o URL)
- Fecha y hora de creación del recurso
- Fecha y hora de las distintas modificaciones del recurso
- Fecha y hora de acceso al recurso
- Fecha y hora de descarga
- Correo electrónico de los usuarios que han accedido al recurso
- Número de revisiones
- Dispositivos periféricos utilizados en el recurso (impresora, escáner, cámara fotográfica o de vídeo, etc.)


1. Archivos de texto
Además de la información general, los archivos de texto contienen los siguientes metadatos:

- Número de páginas, palabras, caracteres, líneas y párrafos
- Idioma
- Nombre de la plantilla

Los únicos recursos de texto que no contienen metadatos son los archivos de texto plano como el caso de “.txt”.

2. Archivos de imagen
Suelen contar con información más amplia con respecto a los archivos de texto ya que intervienen otros elementos externos:

- Autores de la imagen
- Fecha y hora de captura, modificación y acceso
- Nombre del programa utilizado para su tratamiento
- Copyright
- Información técnica de la imagen: dimensiones, ancho, alto, resolución horizontal, resolución vertical, profundidad de bits, comprensión, representación del color, bits comprimidos o píxel, contraste, brillo, fuente de luz, programación de exposición, saturación, nitidez, balance de blanco, interpretación fotométrica, zoom digital y versión EXIF
- Información de la cámara: fabricante, modelo de cámara, número de serie de la cámara, modelo de flash, punto F, tiempo de exposición, velocidad ISO, compensación de exposición, distancia focal, apertura máxima, modo de medición, distancia al objeto, modo de flash, longitud focal de 35 mm
- Coordenadas de geolocalización en caso de haberse realizado con un teléfono móvil o Smartphone
- Captura en miniatura de la imagen original

3. Archivo de vídeo
El archivo de vídeo aporta menos información que el de imagen, ciñéndose fundamentalmente a:

- Datos técnicos de imagen: duración, ancho y alto del fotograma, velocidad de datos, velocidad de bits toral, velocidad de fotograma por segundo
- Datos técnicos de audio: velocidad de bits por segundo, canales (mono o estéreo), velocidad de muestra de sonido en kHz
- Información multimedia: intérpretes, año, género, productores, editores, proveedores de contenido y copyright

 4. Archivo de audio
Al contrario que el archivo de vídeo, el de audio dispone de metadatos multimedia más completos además de las técnicas específicas:

- Información multimedia: Intérpretes, editores, álbum, año, pista, género, duración
- Información técnica: velocidad de bits por segundo, codificación, copyright


Peligros de los metadatos
Un metadato en una información que se incorpora a un recurso (archivo, página web, entrada de blog, post, etc.) de forma oculta, por lo que el usuario no es consciente de su contenido. En el caso de los archivos de texto y de imágenes, el peligro es mayor por la gran cantidad de información que aporta y el intenso intercambio que se produce en Internet.

Aunque tiene su lado positivo como es el de catalogación, también tiene su lado oscuro porque revela información que afecta a la privacidad. La mayoría de los casos no se es consciente de que, como hemos visto con anterioridad, se almacenan datos personales, equipos con los que trabajar, programas informáticos y sistema operativo, carpetas, geolocalización, etc.

Un ejemplo es la administración Pública. El actual Chief Data Officer de Telefónica, Chema Alonso, suele recordar en sus conferencias el caso de un organismo oficial que saca a concurso un servicio. Este sube el pliego de condiciones a la página web en un archivo con formato PDF. El problema surge cuando al extraer los metadatos del archivo oficial se descubre que la persona que ha redactado el documento no es el organismo oficial sino la empresa que finalmente gana el concurso.

Desde la perspectiva empresarial, los metadatos son una excelente herramienta a nivel interno. Pero cuando sale de la red corporativa, se produce una fuga de información en la que cualquier persona puede conocer la red interna, sus servidores, el DNS, los registros de usuarios, sistemas operativos, software y todo lo necesario para recibir un ciberataque. Actualmente no hay consciencia de este peligro. La mayoría no tienen implantado un Sistema de Prevención de Pérdida de Datos (DLP) que evite la fuga de información crítica. No obstante, se está trabajando en programas informáticos que borran los metadatos de todo recurso que sale de una red corporativa sin que el usuario tenga que hacerlo manualmente.

Finalmente, desde el punto de vista forense, los metadatos ayudan a reconstruir lo que ha ocurrido dentro de un equipo y permiten aportar pruebas de posibles delitos.

Los archivos gráficos y las redes sociales
A nivel de usuario, cuando un archivo gráfico sale de un teléfono móvil,  Smartphone, tablet, portátil u ordenador de sobremesa y se sube a las redes sociales o a las aplicaciones de mensajería, no solo se envía una fotografía, también información oculta que puede comprometerle.

Los paparazzis son buenos conocedores de la importancia de los metadatos en las imágenes. Cuando una persona famosa sube una imagen a su perfil de Facebook, Twitter, Tuenti o Instagram, ellos rápidamente la descargan y buscan entre los metadatos la fecha y hora en que se hizo y el lugar exacto. De esta forma saben dónde buscarlos para conseguir exclusivas.

Tampoco las personas anónimas se escapan de ser localizados cuando intentan hacer fraude. Tal es el ejemplo de una persona que se da de baja laboral por enfermedad. Sube a las redes sociales una fotografía con mal aspecto, demacrado, sentado en una habitación. Hasta ahí bien. Pero si los metadatos dicen que esa fotografía se hizo durante la baja laboral en una playa del Caribe, la situación se complica. Y si, además, la imagen está recortada para que no se vea una ventana con palmeras al fondo, dentro del archivo se puede recuperar una captura de la imagen original.

Otras veces, puede ser peligroso para gente con un alto poder adquisitivo. Por ejemplo, un ejecutivo inocentemente sube imágenes disfrutando de unas vacaciones en familia. En principio no parece que aporten mucha información, pero si se extrae los metadatos de muchas imágenes y se descubre que están realizadas en diferentes partes del mundo, siguiendo una ruta,  utilizando cámaras de última generación o dispositivos móviles de alta gama, un ciberdelincuente puede utilizar la información con fines delictivos.