Onderwerp 5: Exploratieve gegevensanalyse (EDA)

Exploratieve gegevensanalyse , beter bekend als EDA , omvat de essentiële taak van het uitvoeren van eerste onderzoeken naar gegevens om trends aan het licht te brengen, onregelmatigheden te identificeren, hypothesen te valideren en onderliggende aannames onder de loep te nemen door het gebruik van samenvattende statistieken en visuele afbeeldingen (Patil, 2018).

EDA wordt gebruikt om grote hoeveelheden gegevens (Big Data) te analyseren , waardoor besluitvormingsprocessen in bedrijven, overheidsinstanties en internationale organisaties worden ondersteund. Er zijn drie soorten EDA:

i) Univariate: Deze methode analyseert één variabele, of gegevenskolom, tegelijk

ii) Multivariate: analyseert meerdere variabelen en onderzoekt hun relaties

iii) Bivariate: Het meest gebruikelijke type multivariate EDA, waarbij de relatie tussen slechts twee variabelen wordt geanalyseerd

Tip: Meestal is het het beste om eerst een univariate EDA uit te voeren op elke multivariate EDA-component voordat u een multivariate EDA uitvoert ( Seltman , 2018).

Een eenvoudig codevoorbeeld van de eerste stap van EDA

import pandas as pd
import numpy as np
import seaborn as sns

data = pd.read_csv(“C:/Users/User/Desktop/Folder/something.csv”)

Implementing Data Collection : The example of avocado