Onderwerp 2: Data Science stap voor stap begrijpen

Omdat Data Science gemakkelijk complex kan worden, is de beste manier om het in eerste instantie te benaderen, het op te splitsen in zijn componenten en het stap voor stap te bekijken :

Bron: Canva-afbeeldingen

This first stage is important, as the data scientist along with relevant stakeholders, attempt to identify the problem, the theory, the question, that they will address. After this initial process, the data scientist attempts to foresee the insights and outcomes that should be delivered.

The next step is to begin the process of gathering the data, which will later be analysed. Data deriving from databases, APIs, surveys and questionnaires etc. can be collected. However, the data needs to be relevant to the problem, to provide validity and epistemology.

Raw data or unprocessed information frequently has to be cleared up and processed before it can be used for analysis. In this phase, duties including resolving missing values, removing of duplicates, standardizing formats, and changing variables are included.

EDA omvat het visueel en analytisch onderzoeken van de gegevens om meer te weten te komen over de kenmerken, trends en potentiële uitschieters ervan. Er worden plots, histogrammen, spreidingsdiagrammen en andere visuele representaties gemaakt met behulp van tools voor datavisualisatie. EDA helpt bij het vinden van patronen, correlaties en inconsistenties in de gegevens die verder onderzoek kunnen voeden en richting kunnen geven aan de besluitvorming.

in dit stadium worden de voorverwerkte gegevens geanalyseerd met behulp van datawetenschapsmethoden en -algoritmen. Afhankelijk van de doelstelling van het project kunnen verschillende technieken worden gebruikt, zoals statistische analyse, machine learning of deep learning. Het doel van de analysefase is om uit de gegevens significante patronen, correlaties of voorspellingen te halen. De essentiële elementen van deze fase omvatten modelselectie, training en beoordeling.

Dit is een cruciale stap als de datawetenschapper de gegevens interpreteert en inzichten formuleert. Deze inzichten zouden het oorspronkelijke probleem vanaf fase één moeten kunnen aanpakken. Het begrijpen van de gevolgen van de analyse in het licht van de materie en de doelstellingen van de organisatie is interpretatie. In dit stadium is het essentieel dat de bevindingen duidelijk worden gecommuniceerd.

Als is aangetoond dat de modellen en inzichten nuttig zijn, worden ze in praktische toepassingen gebruikt. Dit kan inhouden dat er voorspellende modellen in de bedrijfsactiviteiten moeten worden geïntegreerd, dat er indicatoren moeten worden ontwikkeld voor voortdurende evaluatie, of dat suggesties in gebruikersinterfaces moeten worden geïntegreerd.

Beknopte rapportage is essentieel voor besluitvormers om de uitkomsten en inzichten van de analyse te begrijpen en dienovereenkomstig te werk te gaan.