Distribuições

 

Todo livro de estatística fornece uma lista de distribuições estatísticas, com suas propriedades, mas navegar por essas opções pode ser frustrante para qualquer pessoa sem conhecimento estatístico, por dois motivos. Primeiro, as escolhas parecem infinitas, com dezenas de distribuições competindo por sua atenção, com pouca ou nenhuma base intuitiva para diferenciá-las. Em segundo lugar, as descrições tendem a ser abstratas e enfatizam propriedades estatísticas como os momentos, funções características e distribuições cumulativas. Neste apêndice, vamos nos concentrar nos aspectos das distribuições que são mais úteis ao analisar dados brutos e tentar ajustar a distribuição correta a esses dados.

De uma perspectiva prática, podemos pensar em uma distribuição como uma função que descreve a relação entre observações em um espaço amostral.

Por exemplo, podemos estar interessados ​​na idade dos humanos, com idades individuais representando observações no domínio e idades de 0 a 125 a extensão do espaço amostral. A distribuição é uma função matemática que descreve a relação de observações de diferentes alturas.

 

Funções de densidade

As distribuições são frequentemente descritas em termos de suas funções de densidade ou densidade.

As funções de densidade são funções que descrevem como a proporção de dados ou a probabilidade da proporção de observações mudam ao longo do intervalo da distribuição.

Dois tipos de funções de densidade são funções de densidade de probabilidade e funções de densidade cumulativa.

  • Função densidade de probabilidade: calcula a probabilidade de observar um determinado valor.
  • Função de densidade cumulativa: calcula a probabilidade de uma observação igual ou menor que um valor.

Uma função de densidade de probabilidade, ou PDF, pode ser usada para calcular a probabilidade de uma determinada observação em uma distribuição. Também pode ser usado para resumir a probabilidade de observações em todo o espaço amostral da distribuição. Os gráficos do PDF mostram a forma familiar de uma distribuição, como a curva de sino para a distribuição gaussiana.

As distribuições são frequentemente definidas em termos de suas funções de densidade de probabilidade com seus parâmetros associados.

Uma função de densidade cumulativa, ou CDF, é uma maneira diferente de pensar sobre a probabilidade de valores observados. Em vez de calcular a probabilidade de uma determinada observação como no PDF, o CDF calcula a probabilidade cumulativa para a observação e todas as observações anteriores no espaço amostral. Ele permite que você entenda e comente rapidamente quanto da distribuição está antes e depois de um determinado valor. Um CDF é frequentemente plotado como uma curva de 0 a 1 para a distribuição.

Ambos PDFs e CDFs são funções contínuas. O equivalente de um PDF para uma distribuição discreta é chamado de função de massa de probabilidade, ou PMF.

Estatísticas para Descrever a Distribuição

Usando Distribuições Padrão como Distribuições de Referência

As distribuições padrão são frequentemente usadas como distribuições de referência em testes estatísticos.

Isso significa que os dados da amostra são comparados com eles para ver a probabilidade de que os dados tenham ocorrido aleatoriamente.

As características das distribuições padrão as tornam muito adequadas para serem distribuições de referência, especialmente as características bem conhecidas, e o fato de serem boas aproximações de dados do mundo real.

No entanto, existem outras fontes de distribuições de referência.

  • As distribuições de bootstrap são criadas assumindo que os dados de amostra são os únicos dados disponíveis e desenhando amostras repetidas (menores) desses dados. Eles só podem realmente ser usados ​​quando você tem acesso a um computador e não são ideais. Portanto, eles devem ser usados ​​apenas quando não houver alternativa.
  • As distribuições permutacionais são criadas encontrando todas as permutações possíveis de dados classificados. Eles, portanto, pegam todos os resultados possíveis e veem quão prováveis ​​eles são. Eles não assumem qualquer distribuição teórica subjacente. Testes que usam essas distribuições são conhecidos como testes ‘não paramétricos’, para distingui-los dos testes ‘paramétricos’ que usam distribuições padrão com parâmetros conhecidos.
  • Os dados de arquivo também podem ser usados ​​para criar uma distribuição de referência. Isso pode ser apropriado onde há muitos dados anteriores que podem ser usados.

 

Por que as distribuições estatísticas são importantes

A principal razão pela qual você precisa entender sobre distribuições estatísticas é seu uso em testes estatísticos.  Você pode usá-los para comparar seus dados, para ajudá-lo a entender a probabilidade de você ter identificado um relacionamento ou recurso real de seus dados.

A questão de qual distribuição melhor se ajusta aos dados não pode ser respondida sem observar se os dados são discretos ou contínuos, simétricos ou assimétricos e onde estão os outliers.

Testes de ajuste[1]

            O teste mais simples para ajuste distribucional é visual com uma comparação do histograma dos dados reais com a distribuição ajustada.

 

As distribuições são tão claramente divergentes que a suposição de distribuição normal não se sustenta.

            Um teste um pouco mais sofisticado é calcular os momentos da distribuição real dos dados – a média, o desvio padrão, assimetria e curtose – e examiná-los para ajuste à distribuição escolhida. Com os dados de preço-lucro acima, por exemplo, os momentos da distribuição e as principais estatísticas são resumidos na tabela.

Como a distribuição normal não tem assimetria e zero curtose, podemos facilmente rejeitar a hipótese de que as relações preço-lucro são normalmente distribuídas.

Os testes típicos de bondade de ajuste comparam a função de distribuição real dos dados com a função de distribuição cumulativa da distribuição que está sendo usada para caracterizar os dados, para aceitar a hipótese de que a distribuição escolhida se ajusta aos dados ou para rejeitá-la. Não surpreendentemente, dado seu uso constante, há mais testes de normalidade do que para qualquer outra distribuição. O teste de Kolmogorov-Smirnov é um dos mais antigos testes de ajuste para distribuições, datado de 1967. Versões melhoradas dos testes incluem os testes de Shapiro-Wilk e Anderson-Darling.

O teste de Kolgomorov-Smirnov pode ser usado para ver se os dados se ajustam a uma distribuição normal, lognormal, Weibull, exponencial ou logística.

Estatística de Anderson-Darling (AD): Existem diferentes testes de distribuição. O teste que usarei para nossos dados é o teste de Anderson-Darling. A estatística de Anderson-Darling é a estatística de teste. É como o valor t para testes t ou o valor F para testes F. Normalmente, você não interpreta essa estatística diretamente, mas o software a usa para calcular o valor p para o teste.

Valor-P: Testes de distribuição que possuem valores-p altos são candidatos adequados para a distribuição de seus dados. Infelizmente, não é possível calcular valores de p para algumas distribuições com três parâmetros.

LRT P: Se você estiver considerando uma distribuição de três parâmetros, avalie o LRT P (Valor de P para Likelihood Ratio Test) para determinar se o terceiro parâmetro melhora significativamente o ajuste em comparação com a distribuição de dois parâmetros associada. Um valor LRT P inferior ao seu nível de significância indica uma melhoria significativa em relação à distribuição de dois parâmetros. Se você vir um valor mais alto, considere ficar com a distribuição de dois parâmetros[1].

Akaike information criterion (AIC): AIC compara a “qualidade” relativa de um modelo (distribuição) versus os outros modelos. Você pode usar o AIC para selecionar a distribuição que melhor se ajusta aos dados. A distribuição com o menor valor de AIC é geralmente o modelo preferido. AIC é definido como:

AIC = 2k - 2(Log-Probabilidade)

onde k é o número de parâmetros. Observe que o valor AIC sozinho para uma única distribuição não nos diz nada. Não é um teste como o valor-p da estatística de Anderson-Darling. O valor AIC compara a qualidade relativa de todas as distribuições. Portanto, se todas as distribuições não se ajustarem bem aos dados, o valor do AIC não permitirá que você saiba disso. Você precisa combinar os valores p para a estatística Anderson-Darling, o LRT e o valor AIC para ajudar a determinar quais dados se ajustam melhor à distribuição.

Existem testes gráficos de normalidade, onde gráficos de probabilidade podem ser usados ​​para avaliar a hipótese de que os dados são extraídos de uma distribuição normal.

Dado que a distribuição normal é uma das mais fáceis de trabalhar, é útil começar testando os dados quanto à não normalidade para ver se você pode usar a distribuição normal. Caso contrário, você pode estender sua pesquisa para outras distribuições mais complexas.

Ajustando a distribuição[2]

            Quando confrontado com dados que precisam ser caracterizados por uma distribuição, é melhor começar com os dados brutos e responder a quatro perguntas básicas sobre os dados que podem ajudar na caracterização. A primeira diz respeito se os dados podem assumir apenas valores discretos ou se os dados são contínuos; se um novo medicamento farmacêutico obtém ou não a aprovação do FDA é um valor discreto, mas as receitas do medicamento representam uma variável contínua. A segunda analisa a simetria dos dados e se há assimetria, em que direção se encontra; em outras palavras, são outliers positivos e negativos igualmente prováveis ​​ou um é mais provável que o outro. A terceira questão é se existem limites superiores ou inferiores nos dados;; existem alguns itens de dados, como receitas, que não podem ser inferiores a zero, enquanto outros, como margens operacionais, não podem exceder um valor (100%). A questão final e correlata diz respeito à probabilidade de se observar valores extremos na distribuição; em alguns dados, os valores extremos ocorrem com pouca frequência, enquanto em outros ocorrem com mais frequência.

Os dados são discretos ou contínuos?

            A primeira e mais óbvia categorização de dados deve ser se os dados se restringem a assumir apenas valores discretos ou se são contínuos. Considere as entradas em uma análise de projeto típica em uma empresa. A maioria das estimativas que entram na análise vem de distribuições contínuas; tamanho do mercado, participação de mercado e margens de lucro, por exemplo, são variáveis ​​contínuas. Existem alguns fatores de risco importantes, porém, que podem assumir apenas formas discretas, incluindo ações regulatórias e a ameaça de um ataque terrorista; no primeiro caso, a entidade reguladora pode dispensar uma de duas ou mais decisões previamente especificadas e, no segundo, está sujeito a um ataque terrorista ou não está.

            Com dados discretos, toda a distribuição pode ser desenvolvida do zero ou os dados podem ser ajustados a uma distribuição discreta pré-especificada. Com o primeiro, há duas etapas para construir a distribuição. A primeira é identificar os resultados possíveis e a segunda é estimar as probabilidades de cada resultado. Como observamos no texto, podemos nos basear em dados históricos ou experiência, bem como em conhecimentos específicos sobre o investimento que está sendo analisado para chegar à distribuição final. Esse processo é relativamente simples de realizar quando há poucos resultados com uma base bem estabelecida para estimar probabilidades, mas torna-se mais tedioso à medida que o número de resultados aumenta.

 

[1] https://www.real-statistics.com/distribution-fitting/

[2] https://www.spcforexcel.com/knowledge/basic-statistics/deciding-which-distribution-fits-your-data-best

 

[1] https://education.ti.com/en/building-concepts/activities/statistics/sequence1/analyzing-distributions