Θέμα 5: Διερευνητική Ανάλυση Δεδομένων (EDA)

Η διερευνητική ανάλυση δεδομένων, κοινώς γνωστή ως EDA, περιλαμβάνει το βασικό καθήκον της διεξαγωγής αρχικών εξετάσεων στα δεδομένα για την αποκάλυψη τάσεων, τον εντοπισμό παρατυπιών, την επικύρωση υποθέσεων και τον έλεγχο των υποκείμενων υποθέσεων μέσω της χρήσης συνοπτικών μετρήσεων και οπτικών απεικονίσεων (Patil, 2018).

Η EDA χρησιμοποιείται για την ανάλυση τεράστιων κομματιών δεδομένων (Big Data), βοηθώντας τις διαδικασίες λήψης αποφάσεων που εφαρμόζονται σε επιχειρήσεις, κυβερνητικές υπηρεσίες και διεθνείς οργανισμούς. Υπάρχουν τρεις τύποι EDA:

i) Μονομεταβλητή: Αυτή η μέθοδος αναλύει μία μεταβλητή ή στήλη δεδομένων κάθε φορά.

ii) Πολυμεταβλητή: Αναλύει πολλαπλές μεταβλητές, διερευνώντας τις σχέσεις τους

iii) Διμεταβλητή: αναλύει τη σχέση μόνο δύο μεταβλητών.

Συμβουλή: Συνήθως, είναι καλύτερο να εκτελείτε πρώτα μια μονομεταβλητή EDA σε κάθε πολυμεταβλητή συνιστώσα EDA πριν εκτελέσετε μια πολυμεταβλητή EDA (Seltman, 2018).

Ένα απλό παράδειγμα κώδικα του πρώτου βήματος της EDA

import pandas as pd
import numpy as np
import seaborn as sns

data = pd.read_csv(“C:/Users/User/Desktop/Folder/something.csv”)