datos definición y clasificaciones
Conexiones neuronales.

Definición & Clasificación De Los Datos

Los datos pueden presentarse de muchas maneras diferentes, pero al tener una naturaleza muy diversa se pueden clasificar de acuerdo con diferentes criterios, en este artículo explicaremos en que consisten los datos y los clasificaremos según su naturaleza y estructura:

Definición

Explicado de manera simple, un dato es el valor simbólico (numérico, alfabético, algorítmico, etcétera) que se da a una entidad dentro de un posible rango de valores. Hay que tener en cuenta que un dato -o los datos- no transmite ningún mensaje informativo y carece completamente de contexto; se considera información una vez ha sido organizado, procesado y dotado de utilidad.

Clasificación de los datos

Según su naturaleza

Es fundamental saber, antes de realizar cualquier análisis, la naturaleza que presentan los datos. Ya que casi nunca se importan de manera correcta y deberemos cambiarlos al tipo correcto para su correcta optimización (p.ej en Python, tener que convertir una cadena de carácteres «str» en un número entero «Int64»):

Datos cuantitativos -o numéricos-

Comprenden todos aquellos que se pueden medir o cuantificar, se subdividen en dos tipos:

  • Cuantitativos continuos: pueden tomar un número infinito de valores dentro de un rango continuo, se utilizan como elemento de medición en vez de enumeración. Tienden a presentar valores intermedios con un número no determinado de decimales. Por ejemplo:
    • A) Precios: el precio de un coche o una consola [256.76 ].
    • B) Peso: de una televisión, un vaso de arroz o una bicicleta [13.33764 kg].
    • C) Largo x Ancho: de una mesa, una puerta o una base tapizada [24 x 13.36 cm].
  • Cuantitativos discretos: solo admiten valores enteros y se utilizan más como elemento de enumeración que de medición; comprendiendo valores como los de:
    • I) Las características de un apartamento: número de puertas y habitaciones [5, 3].
    • II) Los datos relativos a las ventas en un comercio: número de trabajadores y clientes [139, 871].
    • III) Los miembros de una familia: número de hijos y mascotas [2, 0].

Datos cualitativos -o categóricos-

Abarcan todos aquellos que no pueden adoptar valores numéricos, es importante destacar que esto excluye cifras expresadas en palabras como «trece» o «dieciséis»; ya que se pueden cuantificar, tratándose de valores cuantitativos discretos.

  • Cualitativos nominales: comprenden cualidades y/o atributos sin un orden lógico, asignados a grupos independientes entre sí:
    • I) Somatipo: mesomorfo, endomorfo, ectomorfo.
    • II) Color de ojos: azules, castaños, verdes…
    • III) Raza de un gato: persa, himalayo, maine coon, etcétera.
  • Cualitativos ordinales: presentan una jerarquía u orden lógico:
    • I) Nivel socioeconómico: clase obrera, media y alta.
    • II) Día de la semana: lunes, martes, miércoles…
    • III) Nivel de felicidad: triste, neutro, feliz.

Un ejercicio muy común en grados y másteres universitarios es especificar “el tipo de” cada variable -o columna de datos- presente en un dataset, ¡pero cuidado! no se pide que se identifiquen en «str», «int», «float» u «object» mediante Python, ni tampoco que se clasifiquen según su estructura, sino que lo que se pretende es que el alumnado sepan determinar la naturaleza que presentan (es decir, lo explicado en este apartado).

Según su estructura

Ser capaz de clasificar correctamente los datos según la estructura del contenido -pero no del formato- nos permitirá efectuar un mejor modelado de datos:

Datos no estructurados -o simples-

Comprenden la mayoría de datos y son todos aquellos que se presentan en texto plano, con una estructura inexistente y no predecible (como por ejemplo un audio o el texto presente en este artículo).

Datos semiestructurados

Son datos no estructurados que vienen acompañados de etiquetas de metadatos o estructurados de manera parcial (ej. el manifiesto json o las metaetiquetas de esta web).

Breve explicación de los metadatos

Los metadatos se utilizan cuando los datos necesitan ser descritos por otros datos. Por ejemplo:

  • Fotos: aparte de la imagen reproducida, se incluye información como la resolución, profundidad de color, lugar de la fotografía, etcétera.
  • Redes Sociales: se generan datos a partir de la interacción entre los usuarios, formando estructuras y grafos con la información obtenida.

Otro ejemplo de datos semiestructurados sería el lenguaje de marcado HTML, que a pesar de tratarse de un lenguaje estructurado suele resultar funcional sin obligatoriamente respetar la sintaxis. Dicha explicación también se aplica al resto de lenguajes de marcado existentes.

Una manera fácil de identificarlos es mediante la estructura jerárquica que suelen presentar.

Datos estructurados -o compuestos-

Los datos estructurados son todos aquellos que están dotados de una determinada longitud y formato. Estos datos pueden ser generados por personas (creación de tablas dinámicas -ej. excel- introducción de datos durante un registro…) o máquinas (registros generados a la hora de fichar en el trabajo o al ser capturado por un radar de tráfico).