La evolución tecnológica nos obliga a trabajar con grandes volúmenes de datos hasta el punto de que es necesario recurrir a la Inteligencia artificial para automatizar los procesos. Esta automatización genera más información que describe a los datos, objetos o recursos. Por ejemplo, un archivo fotográfico es, para un programa informático, un conjunto de datos que ordenan iluminar puntos en la pantalla hasta formarse una imagen perceptible solo por el ojo humano. A la hora de buscar el archivo de imagen (como dato) el sistema no podrá encontrarlo si no añadimos información adicional que permita saber qué es, qué contiene y qué diferencias hay con respecto a los demás archivos de imagen.
Esta información que se
guarda en los recursos se denomina metadato.
Literalmente significa más “allá de lo
que se da” o “sobre datos” (del
griego “meta” y del latín “datum”). Por tanto, se trata de
información de los datos, una especie de índice de datos anexos que se añaden a
datos concretos.
Los metadatos se generan
a partir de interacciones con otras personas y dispositivos al usar la
tecnología.
Los metadatos en la evolución de Internet
Los metadatos siempre han
estado presentes en la red desde su creación en 1968 con el nacimiento de ARPANET. Pero será en la década de los
noventa del siglo pasado, con la aparición de la World Wide Web y el primer buscador llamado Wandex, cuando tenga mayor protagonismo. Por entonces estaba la Web 1.0 consistente en una red de
páginas estáticas, con un diseño gráfico austero, que ofrecían información sin
posibilidad de interactuar. Wandex utilizaba metadatos para construir un índice
de páginas web.
Habría que esperar hasta
el año 2004 para dar un salto evolutivo a la Web 2.0, bautizada también como Web
social, y convertirla en una red dinámica. Surgieron comunidades virtuales,
servicios web, blogs, redes sociales, plataformas de vídeos y música, etc. Todo
el auge de las llamadas “punto com”
sirvió de germen para una acumulación exponencial de información que fue
desembocando en el Big data. Internet
estaba creciendo rápidamente, desarrollándose para sentar las bases de la era
de la información. Sin embargo seguía siendo una red donde predominaba la
interacción humana, el flujo de datos y su almacenamiento. Los sistemas operativos
y los programas informáticos estaban diseñados para realizar tareas.
La Web 3.0 da otro giro al incorporar la Inteligencia artificial. La
idea es que las aplicaciones informáticas puedan razonar, comprender los
términos lingüísticos y poder interactuar con las personas. De esta forma,
cuando queremos buscar una fotografía o vídeo donde aparezca una playa es
necesario almacenar información en los archivos que permitan comprender que en
esa fotografía o vídeo hay una playa y no una sucesión de puntos luminosos. A
esta versión 3.0 se le ha denominado Web
semántica.
El siguiente paso, la Web 4.0, tiene el reto de conseguir una
interacción con el usuario más completo y personalizado, capaz de resolver las
limitaciones que existen actualmente en la Red. Mientras que la Web 3.0 se
limita a mostrar información precisa de lo que queremos buscar, asociando
determinados datos a un recurso para que pueda ser reconocido (ejem. archivo de
imagen con la palabra playa), la Web 4.0 pretende comprender el lenguaje
natural para crear una comunicación más precisa entre persona y máquina dentro
de un contexto. Ya no se trata de utilizar la Web como un almacén de datos sino
de crear un sistema capaz de comunicarse con el usuario. Un ejemplo muy
práctico podría ser el de un niño que encuentra a su madre inconsciente en el
suelo y con el simple acto de decir al teléfono móvil “mi madre no respira”, el
programa informático reconozca el significado de la frase y automáticamente se
ponga en contacto con los servicios de urgencias y la policía sin que el niño
tenga que hablar con una operadora.
Immersion o el arte de utilizar los metadatos para
analizar las relaciones personales a través del correo electrónico
Los metadatos también se
utilizan para análisis a partir de la interacción con otras personas. Un
ejemplo claro es el programa informático Immersion.
En el año 2003 Daniel Smilkov, Deepak Jagdish y César
Hidalgo, estudiantes del Instituto
Tecnológico de Massachusetts, concretamente del MIT Media Lab, diseñaron un programa que extraía ciertos metadatos
de correos electrónicos de un usuario y los analizaba para ver su evolución a
lo largo del tiempo. Concretamente extraía los metadatos de los campos: “Para”,
“De”, “Cc” y las fechas y horas. Las líneas del Asunto y el cuerpo del mensaje
estaban excluidas. A partir de esos metadatos consiguieron definir los vínculos
del usuario de la cuenta de correo con el resto de personas. El programa Immersion creaba un gráfico consistente
en nombres de contactos dentro de un círculo y líneas que los unían con el
central que era el usuario del correo electrónico. Cuanto más gruesa era la
línea que unía el círculo de un contacto con el usuario, mayor era el número el
correos electrónicos se intercambiaban. Durante una de las pruebas se descubrió, a
partir de los correos electrónicos de uno de los diseñadores, como había
evolucionado su vida antes y después de entrar a estudiar en el MIT.
Comprobaron que en ciertos momentos tuvo contacto con algunos grupos de amigos
y compañeros y posteriormente cambió cuando se centró en el proyecto. Fue
significativo comprobar que las líneas más gruesas, las que indicaban un mayor
flujo de emails, eran las que conectaban los círculos de sus dos compañeros de
proyecto.
Ese es un pequeño ejemplo
de qué son los metadatos y su utilidad. Si lo trasladamos a las redes sociales
y cogemos los metadatos “Ubicación”, “Me gusta”, “Compartir”, “Hastag”, etc.,
se puede crear perfiles de personas para ofrecer publicidad personalizada,
información según los gustos o sugerir grupos y gente con intereses comunes.
La ciencia de la catalogación
Los metadatos también
tienen la función de gestionar gran cantidad de información. Hace unas décadas
los ordenadores estaban equipados con discos duros internos de 10, 20 o 30 Mb.
Los archivos podían encontrarse sin dificultad porque se guardaban en disquetes
con etiquetas. Con la llegada de los CD, DVD, pendrive, discos duros externos y
los servicios en la nube, permitió un aumento del número de archivos y la
dificultad de encontrarlos. A nivel doméstico no era complicado acceder si
había cierto orden de carpetas, pero desde el punto de vista empresarial, era
necesario incluir metadatos en los archivos para acceder con mayor rapidez y
precisión.
La irrupción también de
las redes sociales y los blogs han hecho de los metadatos una herramienta
central: hastag, etiquetas, palabras clave, etc. Con ellos, se encuentra
información directamente sin tener que buscar entre miles de post o entradas.
Google, por ejemplo, utiliza los metadatos para mostrar búsquedas ordenadas en
base a unos criterios.
Cada recurso tiene sus
propios metadatos más o menos estandarizados que son generados tanto por el
propio usuario como por el programa informático. La mayoría guardan la siguiente
información:
- Nombre del recurso
- Descripción del
recurso: título, subtítulo, asunto, clasificación, etiquetas, comentarios y
categorías
- Tipo de recurso
- Tamaño del recurso
- Nombre del dispositivo
que contiene el recurso
- Sistema Operativo
instalado en el equipo
- Administrador
- Organización
- Usuarios que han
accedido al recurso
- Software utilizado para
crear el recurso
- Ubicación en el que
está guardado el recurso (nombre de la carpeta, dirección local o URL)
- Fecha y hora de creación
del recurso
- Fecha y hora de las
distintas modificaciones del recurso
- Fecha y hora de acceso
al recurso
- Fecha y hora de
descarga
- Correo electrónico de
los usuarios que han accedido al recurso
- Número de revisiones
- Dispositivos
periféricos utilizados en el recurso (impresora, escáner, cámara fotográfica o
de vídeo, etc.)
1. Archivos de texto
Además de la información
general, los archivos de texto contienen los siguientes metadatos:
- Número de páginas,
palabras, caracteres, líneas y párrafos
- Idioma
- Nombre de la plantilla
Los únicos recursos de
texto que no contienen metadatos son los archivos de texto plano como el caso
de “.txt”.
2. Archivos de imagen
Suelen contar con
información más amplia con respecto a los archivos de texto ya que intervienen
otros elementos externos:
- Autores de la imagen
- Fecha y hora de captura,
modificación y acceso
- Nombre del programa
utilizado para su tratamiento
- Copyright
- Información técnica de
la imagen: dimensiones, ancho, alto, resolución horizontal, resolución
vertical, profundidad de bits, comprensión, representación del color, bits
comprimidos o píxel, contraste, brillo, fuente de luz, programación de
exposición, saturación, nitidez, balance de blanco, interpretación fotométrica,
zoom digital y versión EXIF
- Información de la
cámara: fabricante, modelo de cámara, número de serie de la cámara, modelo de
flash, punto F, tiempo de exposición, velocidad ISO, compensación de
exposición, distancia focal, apertura máxima, modo de medición, distancia al
objeto, modo de flash, longitud focal de 35 mm
- Coordenadas de
geolocalización en caso de haberse realizado con un teléfono móvil o Smartphone
- Captura en miniatura de
la imagen original
3. Archivo de vídeo
El archivo de vídeo
aporta menos información que el de imagen, ciñéndose fundamentalmente a:
- Datos técnicos de
imagen: duración, ancho y alto del fotograma, velocidad de datos, velocidad de
bits toral, velocidad de fotograma por segundo
- Datos técnicos de
audio: velocidad de bits por segundo, canales (mono o estéreo), velocidad de
muestra de sonido en kHz
- Información multimedia:
intérpretes, año, género, productores, editores, proveedores de contenido y
copyright
4.
Archivo de audio
Al contrario que el
archivo de vídeo, el de audio dispone de metadatos multimedia más completos
además de las técnicas específicas:
- Información multimedia:
Intérpretes, editores, álbum, año, pista, género, duración
- Información técnica:
velocidad de bits por segundo, codificación, copyright
Peligros de los metadatos
Un metadato en una
información que se incorpora a un recurso (archivo, página web, entrada de
blog, post, etc.) de forma oculta, por lo que el usuario no es consciente de su
contenido. En el caso de los archivos de texto y de imágenes, el peligro es
mayor por la gran cantidad de información que aporta y el intenso intercambio
que se produce en Internet.
Aunque tiene su lado
positivo como es el de catalogación, también tiene su lado oscuro porque revela
información que afecta a la privacidad. La mayoría de los casos no se es
consciente de que, como hemos visto con anterioridad, se almacenan datos
personales, equipos con los que trabajar, programas informáticos y sistema
operativo, carpetas, geolocalización, etc.
Un ejemplo es la administración Pública. El actual Chief Data Officer de Telefónica, Chema Alonso, suele recordar en sus
conferencias el caso de un organismo oficial que saca a concurso un servicio. Este
sube el pliego de condiciones a la página web en un archivo con formato PDF. El
problema surge cuando al extraer los metadatos del archivo oficial se descubre
que la persona que ha redactado el documento no es el organismo oficial sino la
empresa que finalmente gana el concurso.
Desde la perspectiva empresarial, los metadatos son una
excelente herramienta a nivel interno. Pero cuando sale de la red corporativa,
se produce una fuga de información en la que cualquier persona puede conocer la
red interna, sus servidores, el DNS, los registros de usuarios, sistemas
operativos, software y todo lo necesario para recibir un ciberataque.
Actualmente no hay consciencia de este peligro. La mayoría no tienen implantado
un Sistema de Prevención de Pérdida de
Datos (DLP) que evite la fuga de
información crítica. No obstante, se está trabajando en programas informáticos
que borran los metadatos de todo recurso que sale de una red corporativa sin
que el usuario tenga que hacerlo manualmente.
Finalmente, desde el
punto de vista forense, los
metadatos ayudan a reconstruir lo que ha ocurrido dentro de un equipo y
permiten aportar pruebas de posibles delitos.
Los archivos gráficos y las redes sociales
A nivel de usuario,
cuando un archivo gráfico sale de un teléfono móvil, Smartphone, tablet, portátil u ordenador de
sobremesa y se sube a las redes sociales o a las aplicaciones de mensajería, no
solo se envía una fotografía, también información oculta que puede comprometerle.
Los paparazzis son buenos conocedores de la importancia de los
metadatos en las imágenes. Cuando una persona
famosa sube una imagen a su perfil de Facebook,
Twitter, Tuenti o Instagram,
ellos rápidamente la descargan y buscan entre los metadatos la fecha y hora en
que se hizo y el lugar exacto. De esta forma saben dónde buscarlos para
conseguir exclusivas.
Tampoco las personas anónimas se escapan de ser
localizados cuando intentan hacer fraude. Tal es el ejemplo de una persona que
se da de baja laboral por enfermedad. Sube a las redes sociales una fotografía
con mal aspecto, demacrado, sentado en una habitación. Hasta ahí bien. Pero si
los metadatos dicen que esa fotografía se hizo durante la baja laboral en una
playa del Caribe, la situación se complica. Y si, además, la imagen está
recortada para que no se vea una ventana con palmeras al fondo, dentro del
archivo se puede recuperar una captura de la imagen original.
Otras veces, puede ser
peligroso para gente con un alto poder adquisitivo. Por ejemplo, un ejecutivo inocentemente
sube imágenes disfrutando de unas vacaciones en familia. En principio no parece
que aporten mucha información, pero si se extrae los metadatos de muchas
imágenes y se descubre que están realizadas en diferentes partes del mundo,
siguiendo una ruta, utilizando cámaras
de última generación o dispositivos móviles de alta gama, un ciberdelincuente
puede utilizar la información con fines delictivos.