Los datos pueden presentarse de muchas maneras diferentes, pero al tener una naturaleza muy diversa se pueden clasificar de acuerdo con diferentes criterios. En este artículo explicaremos en qué consisten los datos y los clasificaremos según su naturaleza, estructura, sensibilidad y aplicaciones en entornos empresariales y de análisis avanzado.
- Definición
- Clasificación de los Datos
- Breve Explicación de los Metadatos
- Tipos de Datos según el Contexto del Big Data
- Aplicaciones de la Clasificación de Datos
- Importancia de la Clasificación para la Gobernanza de Datos
- Conclusión
Definición
Explicado de manera simple, un dato es el valor simbólico (numérico, alfabético, algorítmico, etcétera) que se da a una entidad dentro de un posible rango de valores. Hay que tener en cuenta que un dato -o los datos- no transmite ningún mensaje informativo y carece completamente de contexto; se considera información una vez ha sido organizado, procesado y dotado de utilidad. En el mundo globalizado actual, donde más del 90% de todos los datos existentes se crearon en los últimos años, comprender qué son y cómo se clasifican es fundamental para su aprovechamiento.
Clasificación de los Datos
1. Según su Naturaleza
Es fundamental saber, antes de realizar cualquier análisis, la naturaleza que presentan los datos. Ya que casi nunca se importan de manera correcta y deberemos cambiarlos al tipo correcto para su correcta optimización (p.ej en Python, tener que convertir una cadena de caracteres «str» en un número entero «Int64»):
I) Datos Cuantitativos o Numéricos
Comprenden todos aquellos que se pueden medir o cuantificar, se subdividen en dos tipos:
Cuantitativos continuos: pueden tomar un número infinito de valores dentro de un rango continuo, se utilizan como elemento de medición en vez de enumeración. Tienden a presentar valores intermedios con un número no determinado de decimales. Por ejemplo:
A) Precios: el precio de un coche o una consola [256.76 €].
B) Peso: de una televisión, un vaso de arroz o una bicicleta [13.33764 kg].
C) Largo x Ancho: de una mesa, una puerta o una base tapizada [24 x 13.36 cm].
Cuantitativos discretos: solo admiten valores enteros y se utilizan más como elemento de enumeración que de medición; comprendiendo valores como los de:
I) Las características de un apartamento: número de puertas y habitaciones[5][3].
II) Los datos relativos a las ventas en un comercio: número de trabajadores y clientes[139][871].
III) Los miembros de una familia: número de hijos y mascotas[2].
II) Datos Cualitativos o Categóricos
Abarcan todos aquellos que no pueden adoptar valores numéricos, es importante destacar que esto excluye cifras expresadas en palabras como «trece» o «dieciséis»; ya que se pueden cuantificar, tratándose de valores cuantitativos discretos.
Cualitativos Nominales: comprenden cualidades y/o atributos sin un orden lógico, asignados a grupos independientes entre sí:
I) Somatipo: mesomorfo, endomorfo, ectomorfo.
II) Color de ojos: azules, castaños, verdes…
III) Raza de un gato: persa, himalayo, maine coon, etcétera.
Cualitativos Ordinales: presentan una jerarquía u orden lógico:
I) Nivel socioeconómico: clase obrera, media y alta.
II) Día de la semana: lunes, martes, miércoles…
III) Nivel de felicidad: triste, neutro, feliz.
Un ejercicio muy común en grados y másteres universitarios es especificar “el tipo de” cada variable -o columna de datos- presente en un dataset, ¡pero cuidado! no se pide que se identifiquen en «str», «int», «float» u «object» mediante Python, ni tampoco que se clasifiquen según su estructura, sino que lo que se pretende es que el alumnado sepan determinar la naturaleza que presentan (es decir, lo explicado en este apartado).
2. Según su Estructura
Ser capaz de clasificar correctamente los datos según la estructura del contenido -pero no del formato- nos permitirá efectuar un mejor modelado de datos:
I) Datos no Estructurados o Simples
Comprenden la mayoría de datos y son todos aquellos que se presentan en texto plano, con una estructura inexistente y no predecible (como por ejemplo un audio o el texto presente en este artículo). Los datos no estructurados constituyen aproximadamente el 80-90% de todos los datos generados actualmente. Estos datos son más flexibles y menos sensibles a los cambios, permitiendo almacenar toda la información en bruto para posteriores análisis. Algunos ejemplos adicionales son:
- Correos electrónicos
- Documentos de texto
- Publicaciones en redes sociales
- Grabaciones de audio y video
- Imágenes y fotografías
En el entorno empresarial, los datos no estructurados representan un desafío y una oportunidad, ya que contienen información valiosa pero requieren técnicas avanzadas para su procesamiento y análisis.
II) Datos Semiestructurados
Son datos no estructurados que vienen acompañados de etiquetas de metadatos o estructurados de manera parcial (ej. el manifiesto json o las metaetiquetas de esta web). Los datos semiestructurados no tienen una estructura rígida como la necesaria para bases de datos relacionales, pero poseen características organizativas que los hacen más manejables que los datos no estructurados.
Ejemplos comunes de datos semiestructurados incluyen:
- Archivos XML
- Documentos JSON
- Hojas de cálculo parcialmente organizadas
- Correos electrónicos (que contienen campos estructurados como remitente, destinatario, asunto, pero contenido no estructurado)
Una manera fácil de identificarlos es mediante la estructura jerárquica que suelen presentar. Las propiedades organizativas, como metadatos o etiquetas semánticas, se utilizan para hacer estos datos más gestionables.
III) Datos Estructurados o Compuestos
Los datos estructurados son todos aquellos que están dotados de una determinada longitud y formato. Estos datos pueden ser generados por personas (creación de tablas dinámicas -ej. excel- introducción de datos durante un registro…) o máquinas (registros generados a la hora de fichar en el trabajo o al ser capturado por un radar de tráfico).
Se caracterizan por haber sido modificados y transformados en un modelo de datos bien definido. Suelen mapearse en campos prediseñados y pueden extraerse y leerse fácilmente mediante SQL. Las bases de datos SQL son ejemplos claros de formas que pueden tener los datos estructurados. Este modelo optimiza memoria y minimiza la redundancia de datos, pero también hace que los datos sean más interdependientes y menos flexibles.
Ejemplos adicionales incluyen:
- Hojas de cálculo con formato definido
- Bases de datos relacionales
- Datos de sistemas ERP y CRM
- Registros transaccionales
- Datos numéricos organizados en filas y columnas
3. Según su Nivel de Sensibilidad
Una clasificación adicional importante, especialmente en entornos empresariales y de seguridad informática, es según el nivel de sensibilidad o confidencialidad:
I) Datos Públicos
Información que puede ser accedida por cualquier persona sin restricciones y cuya divulgación no supone ningún riesgo para la organización. Por ejemplo: comunicados de prensa, información de productos disponible públicamente o material promocional.
II) Datos de Uso General
Información de uso interno pero con bajo nivel de sensibilidad. Su divulgación no autorizada tendría un impacto mínimo. Ejemplos: manuales de procedimientos generales, directorios internos no sensibles o documentación básica de procesos.
III) Datos Restringidos
Información que solo debe ser accesible para ciertos grupos dentro de una organización. Su divulgación no autorizada podría causar daños moderados. Ejemplos incluyen información financiera no pública, datos de clientes no personales o estrategias de negocio.
IV) Datos Confidenciales
Información altamente sensible cuyo acceso debe estar estrictamente controlado. Su divulgación no autorizada podría tener graves consecuencias. Ejemplos incluyen datos personales, información médica, secretos comerciales, propiedad intelectual o datos financieros sensibles.
Breve Explicación de los Metadatos
Los metadatos se utilizan cuando los datos necesitan ser descritos por otros datos. Por ejemplo:
- Fotos: aparte de la imagen reproducida, se incluye información como la resolución, profundidad de color, lugar de la fotografía, etcétera.
- Redes Sociales: se generan datos a partir de la interacción entre los usuarios, formando estructuras y grafos con la información obtenida.
Otro ejemplo de semiestructurados sería el lenguaje de marcado HTML, que a pesar de tratarse de un lenguaje estructurado suele resultar funcional sin obligatoriamente respetar la sintaxis. Dicha explicación también se aplica al resto de lenguajes de marcado existentes.
Los metadatos proporcionan contexto y relevancia a los datos, registrando aspectos esenciales como fecha de creación, tamaño, propiedad, tipo de datos u otras fuentes relacionadas. Se pueden considerar como “etiquetas en una caja” que describen lo que hay dentro, facilitando la búsqueda y utilización de los datos necesarios. Los elementos típicos de metadatos incluyen detalles del contenido (título, descripción, etiquetas), información de propiedad/acceso (creador, fecha de creación) y características técnicas del archivo.
Tipos de Metadatos
Los metadatos pueden clasificarse en diferentes categorías según su función:
- Metadatos Descriptivos: información que identifica y describe los recursos (título, autor, resumen, palabras clave).
- Metadatos Estructurales: describen cómo se organizan los componentes de un recurso (orden de páginas, capítulos).
- Metadatos Administrativos: proporcionan información para gestionar un recurso (fecha de creación, permisos, derechos).
- Metadatos Técnicos: describen las características técnicas del archivo (formato, resolución, compresión).
Tipos de Datos según el Contexto del Big Data
En el contexto del Big Data, donde se manejan volúmenes masivos de información, existe una clasificación adicional basada en el origen y naturaleza de los datos:
1. Datos de Grandes Transacciones (Big Transaction Data)
Son los registros de facturación, llamadas, telecomunicaciones, etc. Pueden encontrarse en formatos semiestructurados o no estructurados e incluyen datos empresariales como información de clientes proveniente de sistemas CRM, inventarios de ventas y datos transaccionales de ERP.
2. Datos de Redes Sociales y Páginas Web
Se refiere a toda la información obtenida a través de transacciones web y contenido adquirido de redes sociales como LinkedIn, Facebook, Twitter e Instagram. Estos datos son valiosos para análisis de comportamiento, tendencias y preferencias de usuarios.
3. Datos Biométricos
Incluye información como escaneo de retina, huellas digitales, reconocimiento genético o facial. Estos datos son especialmente relevantes en sistemas de seguridad y autenticación.
4. Datos Generados por Humanos
Engloba todos los datos generados cuando llamamos a centros de atención, escribimos correos electrónicos, creamos documentos, notas de voz o utilizamos tarjetas de crédito/débito.
5. Datos Máquina a Máquina (M2M)
Provienen de tecnologías que se conectan a otros dispositivos, utilizándolos como sensores o medidores. El Internet de las Cosas (IoT) ha multiplicado exponencialmente este tipo de datos.
Aplicaciones de la Clasificación de Datos
La correcta clasificación de datos tiene diversas aplicaciones prácticas en el campo de la ciencia de datos y el aprendizaje automático:
1. Detección y Prevención de Ataques Informáticos
En ciberseguridad, la clasificación adecuada de datos es crucial para sistemas que detectan amenazas como ataques de denegación de servicio distribuido (DDoS). Estos sistemas utilizan técnicas avanzadas para clasificar patrones de tráfico y distinguir entre tráfico legítimo y malicioso.
2. Diagnóstico Médico Asistido
En el campo médico, algoritmos de clasificación de datos pueden ayudar en el diagnóstico temprano de enfermedades. Por ejemplo, redes neuronales convolucionales pueden clasificar imágenes médicas para detectar cáncer cervical u otras patologías con alta precisión.
3. Análisis Económico y Financiero
La clasificación de datos mediante técnicas como el análisis de clústeres permite identificar patrones en datos económicos, agrupando entidades con características similares para facilitar análisis más profundos y toma de decisiones informadas.
4. Métodos Avanzados de Clasificación
Existen diversos algoritmos para clasificación de datos, cada uno con características particulares:
- K-NN (K-Nearest Neighbors): clasifica un dato según la mayoría de sus k vecinos más cercanos.
- Redes Neuronales: especialmente útiles para problemas complejos de clasificación con muchas variables.
- Métodos Bayesianos: como TAN (Tree Augmented Naive Bayes), que construye redes bayesianas orientadas a clasificación.
- XGBoost: algoritmo de gradient boosting que ofrece alto rendimiento en problemas de clasificación.
Importancia de la Clasificación para la Gobernanza de Datos
La clasificación de datos no es solo un ejercicio técnico, sino un componente esencial de la gobernanza y gestión de datos en organizaciones. Una correcta clasificación permite:
- Mejorar la seguridad: identificando datos sensibles que requieren protecciones especiales.
- Optimizar el almacenamiento: decidiendo qué datos archivar, mantener activos o eliminar.
- Cumplir regulaciones: facilitando el cumplimiento de normativas de protección de datos.
- Mejorar la toma de decisiones: permitiendo acceso más rápido y efectivo a información relevante.
- Facilitar el análisis: permitiendo aplicar las técnicas analíticas más apropiadas según el tipo de datos.
Conclusión
Entender los diferentes tipos de datos y cómo se clasifican es esencial para trabajar eficientemente con ellos, ya sea en la ciencia de datos, la investigación de mercado, la estadística u otros campos; al tener claro el tipo y la estructura de los datos a tratar, podemos procesarlos, analizarlos y utilizarlos de manera más productiva, minimizando riesgos de seguridad, cumpliendo normativas aplicables y maximizando el valor que podemos extraer de ellos tanto en entornos académicos como empresariales, donde los datos se han convertido en uno de los activos más valiosos para la toma de decisiones informadas y el desarrollo de ventajas competitivas sostenibles.