Tópico 2: Compreender a Ciência de dados passo a passo

Como a Ciência de dados pode facilmente tornar-se complexa, a melhor forma de a abordar, inicialmente, é dividi-la nos seus componentes e vê-la passo a passo.

Esta primeira fase é importante, uma vez que o cientista de dados, juntamente com as partes interessadas relevantes, tenta identificar o problema, a teoria, a questão, que irão abordar. Após este processo inicial, o cientista de dados tenta prever os conhecimentos e os resultados que devem ser obtidos.

O passo seguinte é iniciar o processo de recolha de dados, que serão posteriormente analisados. Podem ser recolhidos dados provenientes de bases de dados, API, inquéritos e questionários, etc. No entanto, os dados têm de ser relevantes para o programa, para garantir a validade e a epistemologia.

Os dados em bruto ou a informação não processada têm frequentemente de ser limpos e processados antes de poderem ser utilizados para a análise. Nesta fase, incluem-se tarefas como a resolução de valores em falta, a remoção de duplicados, a normalização de formatos e a alteração de variáveis, normalização de formatos e alteração de variáveis.

A AED inclui o exame visual e analítico dos dados para saber mais sobre as suas características, tendências e potenciais valores atípicos. Os gráficos, histogramas, gráficos de dispersão e outras representações visuais são feitos utilizando ferramentas de visualização de dados. A AED ajuda a encontrar padrões, correlações e inconsistências nos dados que podem alimentar mais a investigação e fornecer orientação para a tomada de decisões.

Nesta fase, os dados pré-processados são analisados utilizando métodos e algoritmos de ciência de dados. Podem ser utilizadas várias técnicas, como a análise estatística, a aprendizagem automática ou a aprendizagem profunda, em função do objetivo do projeto. O objetivo da fase de análise é extrair dos dados padrões, correlações ou previsões significativas. Os elementos essenciais desta fase incluem a seleção, a formação e a avaliação dos modelos.

Esta é uma etapa crucial, uma vez que o cientista de dados interpreta os dados e formula as ideias. Estes conhecimentos devem ser capazes de resolver o problema original da primeira fase. Compreender as consequências da análise à luz do assunto e dos objetivos organizacionais constitui a interpretação. Nesta fase, é essencial que as conclusões sejam comunicadas de forma clara.

Se os modelos e os conhecimentos tiverem demonstrado ser úteis, são utilizados em aplicações práticas. Isto pode implicar a corporação de modelos preditivos nas operações da empresa, o desenvolvimento de indicadores para avaliação contínua ou a integração de sugestões em interfaces de utilizador.

A elaboração de relatórios concisos é essencial para que os decisores compreendam os resultados e os conhecimentos da análise e procedam em conformidade.