Tema 5: Análisis de datos exploratorios (EDA)

El análisis exploratorio de datos, comúnmente conocido como EDA, abarca la tarea esencial de realizar exámenes iniciales de los datos para revelar tendencias, identificar irregularidades, validar hipótesis y examinar los supuestos subyacentes mediante la utilización de métricas resumidas y representaciones visuales (Patil, 2018).

EDA se utiliza para analizar grandes cantidades de datos (Big Data), ayudando a los procesos de toma de decisiones implementados en empresas, agencias gubernamentales y organizaciones internacionales. Existen tres tipos de AED:

I) Univariante: Este método analiza una variable, o columna de datos, a la vez

II) Multivariante: Analiza múltiples variables, explorando sus relaciones

III) Bivariante: El tipo más habitual de EDA multivariante, analizando la relación de solo dos variables

Consejo: Por lo general, lo mejor es realizar primero una EDA univariada en cada componente EDA multivariado antes de realizar una EDA multivariada (Seltman, 2018).

Un simple ejemplo de código del primer paso de EDA

importar pandas como pd
importar numpy como np
importar seaborn como sns

datos = pd.read_csv(«C:/Usuario/Usuario/Escritorio/Carpeta/algo.csv»)