Tema 2: Comprensión de la ciencia de datos paso a paso

Como la ciencia de datos puede convertirse fácilmente en algo complejo, la mejor manera de abordarlo, inicialmente, es desglosarlo en sus componentes y verlo paso a paso:

Fuente: Imágenes de Canva

This first stage is important, as the data scientist along with relevant stakeholders, attempt to identify the problem, the theory, the question, that they will address. After this initial process, the data scientist attempts to foresee the insights and outcomes that should be delivered.

The next step is to begin the process of gathering the data, which will later be analysed. Data deriving from databases, APIs, surveys and questionnaires etc. can be collected. However, the data needs to be relevant to the problem, to provide validity and epistemology.

Raw data or unprocessed information frequently has to be cleared up and processed before it can be used for analysis. In this phase, duties including resolving missing values, removing of duplicates, standardizing formats, and changing variables are included.

EDA incluye examinar visual y analíticamente los datos para obtener más información sobre sus características, tendencias y posibles valores atípicos. Parcelas, histogramas, diagramas de dispersión y otras representaciones visuales se hacen usando herramientas de visualización de datos. EDA ayuda a encontrar patrones, correlaciones e incoherencias en los datos que pueden nutrir más investigaciones y proporcionar orientación para la toma de decisiones.

En esta etapa, los datos preprocesados se analizan utilizando métodos y algoritmos de ciencia de datos. Se pueden utilizar varias técnicas, como el análisis estadístico, el aprendizaje automático o el aprendizaje profundo, dependiendo del objetivo del proyecto. El objetivo de la fase de análisis es extraer de los datos patrones, correlaciones o pronósticos significativos. Los elementos esenciales de esta etapa incluyen la selección de modelos, la capacitación y la evaluación.

Este es un paso crucial a medida que el científico de datos interpreta los datos y formula ideas. Estas ideas deben ser capaces de abordar el problema original desde la primera etapa. Comprender las consecuencias del análisis a la luz de la materia y de los objetivos organizacionales constituye una interpretación. En esta etapa, es esencial que los hallazgos se comuniquen claramente.

Si se ha demostrado que los modelos y las ideas son útiles, se utilizan en aplicaciones prácticas. Esto podría implicar la incorporación de modelos predictivos en las operaciones de la empresa, el desarrollo de indicadores para la evaluación continua, o la integración de sugerencias en las interfaces de usuario.

La presentación de informes concisos es esencial para que los responsables de la toma de decisiones comprendan los resultados y los conocimientos del análisis y procedan en consecuencia.