Tópico 6: Conceitos Estatísticos

A estatística é, sem dúvida, um domínio caoticamente enorme, uma vez que atravessa horizontalmente todos os tipos de disciplinas. Do mesmo modo, os próprios dados têm atributos semelhantes e criam sinergias com a estatística.

É por esta razão que vamos analisar cinco conceitos de estatística, que são normalmente utilizados para a recolha de dados.

Este domínio da estatística é utilizado quando o cientista pretende criar uma descrição de um conjunto de dados, recorrendo à média (ou média), à mediana (“o ponto que divide os dados ao meio”), à moda, à variância (“mede a dispersão de um conjunto de dados relativamente à média”) e, por último, ao desvio padrão (“mede a dispersão global e é calculado tirando a raiz quadrada da variância”) (Radečić, 2020).

Uma função fornece a probabilidade de ocorrência de cada resultado possível de uma experiência.

Este termo refere-se à projeção de dados de alta dimensão para um espaço, que é de menor dimensão (Radečić, 2020).

Os termos “amostra” e “amostragem” referem-se ao processo de recolha coletiva de um grupo de observações e são utilizados indistintamente. A subamostragem ou a sobreamostragem podem ser úteis em situações de classificação quando é necessário que as classes minoritárias e maioritárias estejam igualmente representadas. Um conjunto de dados desigual pode ser corrigido através de uma sobreamostragem da classe dominante. A sobreamostragem aleatória (ou a subamostragem aleatória, como alternativa) implica escolher aleatoriamente e duplicar observações da classe minoritária (ou escolher aleatoriamente e apagar dados da classe maioritária) (Radečić, 2020).

A abordagem Bayesiana permite flexibilidade e adaptabilidade de acordo com novos dados. Se os dados recolhidos não projetarem da melhor forma a observação que um cientista deseja ver no futuro, este domínio da estatística permite incorporar os seus próprios conhecimentos nos cálculos, em vez de se basear apenas na amostra. Permite também atualizar as ideias do cientista sobre o futuro após a introdução de novos dados. (Rice, 2018)