ciclo de vida de los datos
Conexión entre datos.

El Ciclo De Vida De Los Datos

Los datos pasan por diferentes fases con el objetivo de generar valor en ellos. Antes de nada, debemos de tener en cuenta que las fases que mencionaremos a continuación no se suelen seguir a rajatabla, sino que algunas se suelen realizar de manera simultánea o incluso se omiten, en caso de que resulten redundantes:

1. Generación

Todo empieza con un problema, fenómeno o situación de la cual desearíamos saber más. Los datos son generados por los sujetos de la temática a tratar, y pueden variar desde datos personales -aportados voluntariamente- hasta información más compleja y dada de manera implícita como por ejemplo las opiniones vertidas en un foro, la velocidad a la que circulas con tu vehículo o los hábitos de consumo.

2. Captura

Tiene como objetivo recopilar los datos que se van generando, esto se consigue mediante dos técnicas:

  • Creación: se implementa un mecanismo que almacene los datos que considere relevantes.
  • Extracción: se capturan conforme se van encontrando, normalmente después de que hayan sido generados.

Hay ocasiones en las que no se pueden capturar los datos en el momento de su creación, por lo que se utilizan alternativas como las siguientes:

a) Encuestas: hay veces que lo mejor es preguntar directamente a los usuarios para recopilar datos, es un proceso que se ha ido agilizando en la última década gracias a las redes sociales y software de formularios online.

b) Repositorios: datos estáticos disponibles en espacios web, como por ejemplo el Instituto Nacional de Estadística.

c) APIs: permite extraer datos dinámicos a través de una consulta. Existe la posibilidad de desarrollar herramientas para extraer datos de manera automatizada.

d) Datos cualitativos: se requieren cuando los resultados cuantitativos no son suficientes. Normalmente los entrevistados de los que se quiere extraer datos son grabados (con previo consentimiento) para analizar su comportamiento durante las respuestas.

3. Almacenamiento

Los datos capturados son almacenados en un formato que permita su manipulación, existen dos tipos de formatos:

  1. Ficheros simples: son datos almacenados en ficheros, un ejemplo sería un archivo con todas las solicitudes de acceso a un sitio web (HTTP/HTTPS).
  2. Bases de datos: datos almacenados en estructuras de diversa complejidad. Pueden ser relacionales o no relacionales. Hay software de código abierto que facilita la manipulación de los datos, como MySQL.

4. Preprocesado

La finalidad de esta fase es preparar los datos para su posterior análisis, destacan las siguientes técnicas:

  1. Fusión: se combinan los datos de diferentes fuentes en una misma estructura.
  2. Selección: se filtran los datos para obtener una selección de interés.
  3. Conversión: se cambio el formato de los datos para su fácil lectura.
  4. Limpieza: eliminación de datos erróneos o poco fiables.
  5. Agregación: se optimizan los datos aumentar su poder predictivo.
  6. Creación de variables: consiste en la creación de variables a partir de las ya disponibles, con el fin de reducir la dimensionalidad.

Esta etapa es crucial ya que determinará la calidad del análisis.

5. Análisis

Esta etapa consiste en la creación de uno o varios modelos que permitan ver cómo son los datos y sus características principales. De manera que se pueda responder a las cuestiones que motivaron la utilización de dichos datos.

Existen diferentes tipos de análisis en función del contexto:

a) Análisis estadístico-descriptivo: consiste en el análisis de datos mediante un conjunto reducido de valores que permitan su moderación. Como por ejemplo el sexo o el estado civil de los participantes en una encuesta.

b) Análisis estadístico-diferencial: consiste en el modelado de datos a partir de una fracción de la totalidad de los datos (con el fin estadístico de inferir cómo es la totalidad de una población ).

c) Reducción de la dimensionalidad: se reduce el número de variables para optimizar la representación de los datos mediante gráficos 2D o 3D. También se pretende detectar agrupaciones o disimilitudes.

d) Extracción de características: el objetivo es crear nuevas características a partir de los atributos disponibles pero con una mejor representación.

Un buen científico de datos debe estar capacitado para encontrar el equilibrio entre precisión, complejidad y actualización. Eligiendo los modelos de análisis más adecuados en función del contexto.

6. Visualización

La transmisión de información visual es muy útil. Es más, se puede basar el análisis datos a partir de su propia visualización, ya que una interfaz gráfica permite la navegación e interacción con estos datos.

La visualización de estos datos permite la comprensión de su naturaleza y la extracción de conclusiones. Además de la detección de patrones, tendencias y dependencias.

7. Interpretación

En esta etapa intentaremos dar sentido a los resultados obtenidos mediante el análisis y la visualización, con el fin de que puedan ser usados para dar una explicación a la premisa inicial o por terceros para que puedan reutilizarlos con otros propósitos.

8. Publicación

Finalmente, los datos son publicados. El medio de publicación en contextos no empresariales suele ser un repositorio (es ideal que incluya una API para poder acceder fácilmente a los datos).

En este artículo hemos podido ver las competencias necesarias que requiere un encargado del procesamiento de datos, donde se combinan conocimientos matemáticos y estadísticos con el fin de extraer conocimiento de los datos disponibles. Permitiendo a una empresa superar a la competencia o mejorar sus productos y servicios.