ciclo de vida de los datos
Conexión entre formas de cubo.

Ciclo de Vida de los Datos

Los datos pasan por diferentes fases con el objetivo de generar valor en ellos. En este artículo explicaremos en que consisten las seis fases que componen el ciclo de vida de los datos:

1. Captura

Tiene como objetivo recopilar los datos que se van generando, esto se consigue mediante dos técnicas:

  • Creación: Se implementa un mecanismo que almacene los datos que considere relevantes.
  • Extracción: Se capturan conforme se van encontrando, normalmente después de que hayan sido generados.

Hay ocasiones en las que no se pueden capturar los datos en el momento de su creación, por lo que se utilizan alternativas como las siguientes:

a) Encuestas: Hay veces que lo mejor es preguntar directamente a los usuarios para recopilar datos, es un proceso que se ha ido agilizando en la última década gracias a las redes sociales y software de formularios online.

b) Repositorios: Datos estáticos disponibles en espacios web, como por ejemplo el Instituto Nacional de Estadística.

c) APIs: Permite extraer datos dinámicos a través de una consulta. Existe la posibilidad de desarrollar herramientas para extraer datos de manera automatizada.

d) Datos cualitativos: Se requieren cuando los resultados cuantitativos no son suficientes. Normalmente los entrevistados de los que se quiere extraer datos son grabados (con previo consentimiento) para analizar su comportamiento durante las respuestas.

2. Almacenamiento

Los datos capturados son almacenados en un formato que permita su manipulación, existen dos tipos de formatos:

  1. Ficheros simples: Son datos almacenados en ficheros, un ejemplo sería un archivo con todas las solicitudes de acceso a un sitio web (HTTP/HTTPS).
  2. Bases de datos: Datos almacenados en estructuras de diversa complejidad. Pueden ser relacionales o no relacionales. Hay software de código abierto que facilita la manipulación de los datos, como MySQL.

3. Preprocesado

La finalidad de esta fase es preparar los datos para su posterior análisis, destacan las siguientes técnicas:

  1. Fusión: Se combinan los datos de diferentes fuentes en una misma estructura.
  2. Selección: Se filtran los datos para obtener una selección de interés.
  3. Conversión: Se cambio el formato de los datos para su fácil lectura.
  4. Limpieza: Eliminación de datos erróneos o poco fiables.
  5. Agregación: Se optimizan los datos aumentar su poder predictivo.
  6. Creación de variables: Consiste en la creación de variables a partir de las ya disponibles, con el fin de reducir la dimensionalidad.

Esta etapa es crucial ya que determinará la calidad del análisis.

4. Análisis

Esta etapa consiste en la creación de uno o varios modelos que permitan ver cómo son los datos y sus características principales. De manera que se pueda responder a las cuestiones que motivaron la utilización de dichos datos.

Existen diferentes tipos de análisis en función del contexto:

a) Análisis estadístico-descriptivo: Consiste en el análisis de datos mediante un conjunto reducido de valores que permitan su moderación. Como por ejemplo el sexo o el estado civil de los participantes en una encuesta.

b) Análisis estadístico-diferencial: Consiste en el modelado de datos a partir de una fracción de la totalidad de los datos (con el fin estadístico de inferir cómo es la totalidad de una población ).

c) Reducción de la dimensionalidad: Se reduce el número de variables para optimizar la representación de los datos mediante gráficos 2D o 3D. También se pretende detectar agrupaciones o disimilitudes.

d) Extracción de características: El objetivo es crear nuevas características a partir de los atributos disponibles pero con una mejor representación.

Un buen científico de datos debe estar capacitado para encontrar el equilibrio entre precisión, complejidad y actualización. Eligiendo los modelos de análisis más adecuados en función del contexto.

5. Visualización

La transmisión de información visual es muy útil. Es más, se puede basar el análisis datos a partir de su propia visualización, ya que una interfaz gráfica permite la navegación e interacción con estos datos.

La visualización de estos datos permite la comprensión de su naturaleza y la extracción de conclusiones. Además de la detección de patrones, tendencias y dependencias.

6. Publicación

Finalmente, los datos son publicados de manera que puedan ser utilizados por terceros. El medio de publicación óptimo suele ser un repositorio (es ideal que se incluya una API para poder acceder fácilmente a los datos).

En este artículo hemos podido ver las competencias necesarias que requiere un encargado del procesamiento de datos, donde se combinan conocimientos matemáticos y estadísticos con el fin de extraer conocimiento de los datos disponibles. Permitiendo a una empresa superar a la competencia o mejorar sus productos y servicios.