Los metadatos, a menudo considerados como “datos sobre otros datos”, proporcionan información sobre un elemento específico -como un documento o una imagen- acerca del título, el autor, fecha de creación, etcétera.
En el contexto de la bibliotecología y ciencias de la información, el término metadatos se refiere a los datos de catalogación que describen el contenido, las características físicas y la estructura contextual del recurso. Incluyendo la temática y palabras clave que describen el contenido del mismo.
Utilidad de los metadatos
Los metadatos se utilizan en una variedad de contextos, incluyendo las ciencias de la información, la gestión de activos digitales y el análisis forense digital:
- Ciencias de la Información: se pueden usar para organizar y catalogar recursos pertenecientes a bibliotecas y otros repositorios de información. Facilitando el buscar y encontrar recursos específicos, así como la comprensión del contenido del recurso.
- Gestión de activos digitales: los metadatos sirven para organizar y describir activos digitales como imágenes, videos y archivos de audio. Esta información puede incluir detalles como la resolución, la longitud y el formato del archivo.
- Análisis Forense digital: también podemos aprovecharlos para comprender el contexto y la historia de los archivos digitales. Esta información puede incluir detalles como la fecha de creación, la última fecha de modificación y el tamaño del archivo.
Tipos de metadatos
Existen varios formatos y estándares de metadatos diferentes, cada uno con su propia estructura y organización:
- Dublin Core: ampliamente utilizado en bibliotecas y repositorios de información; se trata de un formato de metadatos simple que incluye más de una decena de elementos como título, creador y tema.
- EXIF: sirve para almacenar información sobre contentenido multimedia; incluye información como el sistema de la cámara o la ubicación, fecha y hora en la que se capturó el vídeo.
- OpenGraph: se utiliza para describir el contenido presente en una web (artículos, imágenes, datasets…); permite insertar-compartir el contenido de la web en redes sociales y que se muestre automáticamente información como el título o la imagen destacada.
- IPTC: contiene información sobre noticias y otro contenido multimedia; como el título, leyenda y las palabras clave.
Ejemplo de metadatos con Python
Un ejemplo fácilmente reproducible de obtención de metadatos con Python sería encontrar las metaetiquetas OpenGraph de una URL y convertirlas en un diccionario; en este caso, utilizaremos la de un dataset compartido en Kaggle:
I) Instalamos requests, beautifulsoup4 y soup2dict
pip install requests
pip install beautifulsoup4
pip install soup2dict
II) Incluimos las librerías y funciones necesarias:
import requests
from bs4 import BeautifulSoup
import json
import re
from soup2dict import convert
III) Extraemos los metadatos con el método ‘findAll()’ de BeautifulSoup utilizando el atributo ‘property’ y el prefijo ‘og:’ (OpenGraph):
url='https://www.kaggle.com/datasets/neuromusic/avocado-prices'
headers = { }
r = requests.get (url=url, headers=headers)
metasoup = soup.findAll(property=re.compile(r'^og:'))
metadata = convert(metasoup)
# Obtenemos el diccionario con los valores de las metaetiquetas
print(json.dumps (metadata , indent=2))
-----------------------------------------------------------------
{
"meta": [
{
"@property": "og:url",
"@content": "/datasets/neuromusic/avocado-prices",
"#text": ""
},
{
"@property": "og:title",
"@content": "Avocado Prices",
"#text": ""
},
{
"@property": "og:description",
"@content": "Historical data on avocado prices and sales volume in multiple US markets",
"#text": ""
},
{
"@property": "og:type",
"@content": "website",
"#text": ""
},
{
"@property": "og:image",
"@content": "https://storage.googleapis.com/kaggle-datasets-images/30292/38613/ab6171de10588e40148aed91ff39e2e9/dataset-card.jpg?t=2018-06-06-13-58-40",
"#text": ""
}
]
}
Ejecutando el código se obtendrá un diccionario similar al de arriba, pudiendo acceder al contenido del mismo con -por ejemplo- «metadata[“meta”][2][“@content”]».
Usos adicionales de los metadatos
SEO
Los metadatos, en específico las metaetiquetas presentes en el código HTML de una web (como en el ejemplo del apartado anterior), pueden ayudar a entender a los motores de búsqueda todo lo relacionado sobre el contenido del mismo; incluyendo título, descripción y palabras clave. De esta manera, el sitio web puede mejorar su visibilidad y posición en los resultados de búsqueda.
Data Science
Tal y se mencionó anteriormente, los metadatos nos dan información sobre la estructura, formato y contenido de los datos; por lo que se pueden usar para comprender, vincular y conectar diferentes conjuntos de datos. Permitiendo un análisis más completo y contextuado.
Preservación digital
Los metadatos nos pueden ayudar a documentar y preservar activos digitales a lo largo del tiempo (por ejemplo mediante la documentación de cambios de contenido), siendo necesarios para garantizar que estos activos se puedan acceder y comprender en el futuro.
Esquemas & ontologías
Los metadatos también pueden estructurarse mediante esquemas, como XML & RDF, que definen la estructura y formato de los metadatos; y ontologías. que proporcionan un vocabulario compartido -y conjunto- de conceptos para describir los metadatos. Ayudando a garantizar la coherencia e interoperabilidad de los metadatos en diferentes sistemas y contextos.
Metadatos & privacidad
Pese a ser útiles para organizar y comprender cualquier activo digital, los metadatos pueden plantear problemas de privacidad; ya que pueden incluir información confidencial como datos de localización y datos personales, además de poder usarse para rastrear tu huella digital.
Para protegerse, los usuarios pueden hacer uso de herramientas como los eliminadores de metadatos u optar por desactivar el seguimiento de metadatos, utilidad ofrecida por algunas plataformas. En relación a esto, la gobernanza de metadatos es un aspecto importante a considerar; ya que abarca la gestión, monitoreo y control de metadatos; aparte de las políticas y procedimientos que deben implementarse y para el correcto cumplimiento de las regulaciones.
Conclusión
Los metadatos son una herramienta importante para organizar, comprender y preservar activos digitales. Siendo crucial comprender su utilidad, estructura y posibles riesgos para poder ser capaces de utilizarlos de manera efectiva -y beneficiosa- en cualquier contexto.