class: center, middle, inverse, title-slide .title[ # Estatística e Informática ] .subtitle[ ## Aula 09 - Estatística, Distribuição Amostral ] .author[ ### Alan Rodrigo Panosso
alan.panosso@unesp.br
] .institute[ ### Departamento e Ciências Exatas FCAV/UNESP ] .date[ ### (02-05-2024) ] --- class: middle, center, inverse # Distribuições Amostral --- ## Parâmetro e Estatística **Parâmetro**: é uma medida usada para descrever uma característica da população. **Estatística** ou **Estimador**: é qualquer função de uma amostra aleatória (fórmula ou expressão), construída com o propósito de servir como instrumento para descrever alguma característica da amostra e para fazer *inferência* a respeito da característica na população. Resumo | Parâmetro | Estatística :---|:---:|:---: Média | `\(\mu\)` | `\(\bar{x}=\frac{1}{n} \sum \limits_{i=1}^n x_i\)` Variância | `\(\sigma^2\)`| `\(s^2 = \frac{1}{n-1} \sum \limits_{i=1}^n {(x_i - \mu)^2}\)` Proporção | `\(\pi\)` | `\(\hat{p}= \frac{X}{n}\)` Correlação | `\(\rho\)` | `\(r = \frac{\sum_{i=1}^n(x_1-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_1-\bar{x})^2(y_i-\bar{y})^2}}\)` --- Toda **estatística**, sendo uma função de uma amostra aleatória `\(X_1, X_2, \cdots X_n\)`, é também uma variável aleatória e tem uma distribuição. Assim, o comportamento da estatística pode ser descrito por alguma distribuição de probabilidade, agora denominada **distribuição amostral**. Assim, cada **estatística** é uma variável aleatória e sua distribuição de probabilidade é chamada <u>distribuição amostral da estatística</u>. <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/amostra_1.png" width="100%" style="display: block; margin: auto;" /> --- class: middle, center, inverse # Distribuições Amostral da Média --- Seja a variável aleatória `\(X\)` que denota o tempo em dias de germinação de sementes de uma espécie vegetal, após a semeadura. Considerando a população de todas sementes dessa espécie, suponha que `\(X\)` tem a distribuição de probabilidade apresentada abaixo. Uma amostra aleatória simples **COM REPOSIÇÃO** `\((X_1\)`, `\(X_2)\)` de `\(2\)` covas `\((n = 2)\)` é tomada nesta área. Qual a distribuição do tempo médio amostral em dias para a germinação? `\(x\)` | `\(0\)` | `\(1\)` | `\(2\)` | `\(3\)` ---|---|---|---|--- `\(P(X)\)` | `\(0,20\)` | `\(0,40\)`| `\(0,30\)`| `\(0,10\)` --- .pull-left[ Distribuição de Probabilidade <img src="Aula09_files/figure-html/unnamed-chunk-2-1.png" style="display: block; margin: auto;" /> ] .pull-right[ Calculando a Esperança de X: `$$E(X) = \sum \limits_{i=1}^k x_i \cdot P(x_i) = 1,30\;dias$$` Calculando a Variância de X. `$$\begin{aligned} Var(X) &= \sum \limits_{i=1}^k x_i^2 \cdot P(x_i) - [E(X)]^2 \\ Var(X) &= 0,81\;dias^2 \end{aligned}$$` ] Definimos a média a partir da tomada de duas amostras temos: `$$\bar{X} = \frac{X_1+X_2}{2}$$` --- De acordo com a definição de amostra aleatória simples com reposição, `\(X_1\)` e `\(X_2\)` são variáveis aleatórias independentes, assim, a distribuição conjunta pode ser obtida multiplicando-se as probabilidades marginais. `$$P(0 \cap 1) = P(0) \times P(1) = 0,2 \times 0,4 = 0,08$$` .pull-left[ Tabela com os possíveis valores de médias `\(\bar{X}\)`, dados os valores de `\(X\)`. `\(X_1 / X_2\)` | 0 | 1 | 2 | 3 :---:|---|---|---|--- **0** | 0,00 | 0,50 | 1,00 | 1,50 **1** | 0,50 | 1,00 | 1,50 | 2,00 **2** | 1,00 | 1,50 | 2,00 | 2,50 **3** | 1,50 | 2,00 | 2,50 | 3,00 ] .pull-right[ Tabela com a distribuição conjunta de `\(X_1\)` e `\(X_2\)`, ou seja, as probabilidades `\(P(\bar{X})\)`. `\(X_1 / X_2\)` | 0 | 1 | 2 | 3 | `\(\sum\)` :---:|---|---|---|---|--- **0** | 0,04 | 0,08 | 0,06 | 0,02 | **0,2** **1** | 0,08 | 0,16 | 0,12 | 0,04 | **0,4** **2** | 0,06 | 0,12 | 0,09 | 0,03 | **0,3** **3** | 0,02 | 0,04 | 0,03 | 0,01 | **0,1** `\(\sum\)`| **0,2** | **0,4** | **0,3** | **0,1** | **1,00** ] -- </br> --- Distribuição de probabilidade de `\(\bar{X}\)`. `\(\bar{X}\)` | `\(0\)` | `\(0,5\)` | `\(1\)` | `\(1,5\)` | `\(2,0\)` | `\(2,5\)` | `\(3,0\)` ---|---|---|---|---|---|---|--- `\(P(\bar{X})\)` | `\(0,04\)` | `\(0,16\)`| `\(0,28\)`| `\(0,28\)` | `\(0,17\)` | `\(0,06\)` | `\(0,01\)` <img src="Aula09_files/figure-html/unnamed-chunk-3-1.png" style="display: block; margin: auto;" /> --- #### Cálculo da Esperança e da Variância da Média do Número de dias para Germinação de `\(X\)` `\((n=2)\)`. `$$E(\bar{X}) = \sum \limits_{n=1}^k = \bar{x_i} \cdot P(\bar{x_i}) = 1,30 \;dias$$` `$$Var(\bar{X}) = E(\bar{X}^2) - [E(\bar{X})]^2$$` `$$Var(\bar{X}) = 2,095 - (1,3)^2$$` `$$Var(\bar{X}) = 0,405\;dias^2= \frac{\sigma^2}{n} = \frac{0,81}{2} = \frac{Var(X)}{n}$$` Se `\(X_1, X_2, \cdots, X_n\)` constitui uma amostra aleatória simples com reposição de uma população que tem média `\(\mu\)` e variância `\(\sigma^2\)`, então: `$$E(\bar{X}) = \mu$$` `$$Var(\bar{X}) = \frac{\sigma^2}{n}$$` `$$DP(\bar{X}) = \frac{\sigma}{\sqrt{n}}$$` --- ## Observações importantes - O desvio padrão da média `\(DP(\bar{X})\)` e o erro padrão da média `\(s(m)\)` são termos equivalentes. - O erro padrão da média é geralmente usado para evitar confusão com o desvio padrão `\((\sigma)\)` das observações. - O aumento do tamanho da amostra `\((n)\)` o desvio padrão da distribuição da média diminui, portanto os valores de `\(\bar{X}\)` são mais próximos à `\(\mu\)`. - Estima-se o erro padrão da média usando o tamanho da amostra `\((n)\)` e desvio padrão `\((s)\)` de uma única amostra de observações. - À medida que o tamanho da amostra aumenta temos uma estimativa mais precisa do desvio padrão paramétrico `\((\sigma)\)` da população. - Em contraste, o erro padrão da média torna-se uma estimativa mais precisa da média paramétrica `\((\mu)\)`, pois o erro padrão da média diminui. --- ### Teorema Central do Limite Se `\(\bar{X}\)` é a média de uma amostra aleatória simples com reposição, de tamanho `\(n\)`, de uma população **normal**, com média `\(\mu\)` e variância `\(\sigma^2\)`, sua distribuição é **normal**, com média `\(\mu\)` e variância `\(\frac{\sigma^2}{n}\)`. Assim, em uma amostra aleatória simples com reposição, de tamanho `\(n\)`, de uma população arbitrária, com média `\(\mu\)` e variância `\(\sigma^2\)`, a distribuição de `\(\bar{X}\)` quando `\(n\)` é grande é **aproximadamente normal**, com média `\(\mu\)` e variância `\(\frac{\sigma^2}{n}\)`. <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/amostra_2.png" width="35%" style="display: block; margin: auto;" /> --- ### Indução do conceito a partir do R #### Simulação de ume população não normal. ```r set.seed(7355608) x <- rep(1:10, c(800,700,200,350,120, 500,1200,800,800,800) ) ``` --- #### Cálculo da esperança de X: `\(E(X) = \mu\)`. ```r mean(x) ``` ``` #> [1] 6.028708 ``` #### Cálculo da variância de X: `\(Var(X) = \sigma^2\)`. ```r var(x) ``` ``` #> [1] 9.397804 ``` --- #### Distribuição de probabilidade. ```r hist(x, probability = TRUE) ``` <img src="Aula09_files/figure-html/unnamed-chunk-8-1.png" style="display: block; margin: auto;" /> --- #### Definindo o tamanho da amostra `\(n\)`. ```r n <- 5 ``` #### Realizar uma amostragem aleatória simples, com reposição, de tamanho `\(n\)` e calcular a média e variância dessa amostra. ```r amostra <- sample(x,n,replace = TRUE) mean(amostra) ``` ``` #> [1] 5.4 ``` ```r var(amostra) ``` ``` #> [1] 9.3 ``` --- #### Realizar `\(k\)` amostragens de tamanho `\(n\)`, calcular as respectivas médias, construir a distribuição de probabilidade dessas médias com os cálculos da `\(E[\bar{X}]\)` e da `\(Var(\bar{X})\)`. ```r k <- 10000 vetor_medias <- 0 for(i in 1:k) vetor_medias[i] <- mean(sample(x,n,replace=TRUE)) ``` #### Cálculo da esperança de X: `\(E(\bar{X}) = \mu\)`. ```r mean(vetor_medias) ``` ``` #> [1] 6.02868 ``` #### Cálculo da variância de X: `\(Var(\bar{X}) = \frac{\sigma^2}{n}\)`. ```r var(vetor_medias) ``` ``` #> [1] 1.902184 ``` ```r hist(vetor_medias,xlim=c(0,10), probability = TRUE);box() ``` --- ### n = 5 <img src="Aula09_files/figure-html/unnamed-chunk-15-1.png" style="display: block; margin: auto;" /> --- ### n = 15 <img src="Aula09_files/figure-html/unnamed-chunk-16-1.png" style="display: block; margin: auto;" /> --- ### n = 50 <img src="Aula09_files/figure-html/unnamed-chunk-17-1.png" style="display: block; margin: auto;" /> --- class: middle, inverse, center # Acesse o Link para simularmos essa amostragem. Aba "Distribuição Amostral - Média" ## https://arpanosso.shinyapps.io/estatinfo/ --- ## Transformação normal padrão para cálculo das probabilidades Assim, podemos utilizar a tabela normal padrão para o cálculo das probabilidades associadas aos intervalos de `\(\bar{X}\)` a partir da transformação: `$$Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}$$` onde `\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)` e `\(n\)` é o tamanho da amostras aleatória simples tomada da população. --- [Tabela - Normal Padrão](https://github.com/arpanosso/estatinfo/raw/master/docs/TabelaNormalPadrao.pdf) <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_8.png" width="100%" style="display: block; margin: auto;" /> --- ### Exercício Seja uma máquina de empacotar soja, cujos pesos das sacas (em `\(kg\)`) seguem uma distribuição `\(N(50, 2)\)`. Assim, se a máquina estiver regulada, qual a probabilidade de, colhendo-se uma amostra ao acaso de `\(100\)` sacas, observarmos uma média diferente de `\(50\;kg\)` em menos de `\(0,2828 \; kg\)`? --- **Resposta:** `\(P(50-0,2828 \leq \bar{X} \leq 50+0,2828 ) = 0,9545\)` --- ### Amostras sem reposição de populações finitas Supondo uma população com `\(N\)` elementos, se a amostragem for feita **SEM REPOSIÇÃO**, temos as esperança e a variância definidas como: .pull-left[ **Esperança** `\(E(\bar{X}) = \mu\)` ] .pull-right[ **Variância** `\(Var(\bar{X}) = \frac{\sigma^2}{n} \cdot \frac{N-n}{N-1}\)` ] Observações, `\(\mu = E(X)\)`, `\(\sigma^2 = Var(X)\)` e `\(\frac{N-n}{N-1}\)` é o fator de correção para populações finitas. A variância da média amostral com este tipo de amostragem é menor do que com reposição. Assim, amostragem sem reposição é mais eficiente do que a com reposição para estimar o valor médio `\((\mu)\)`. No entanto, se a população for grande quando comparada com o tamanho da amostra `\((n)\)`, o fator de correção será próximo de 1 e, portanto: $$Var(\bar{X}) \approx \frac{\sigma^2}{n} $$ --- class: middle, center, inverse # Distribuições Amostral da Proporção --- ### Distribuição Amostral da Proporção Anteriormente, definimos `\(X\)` uma `\(v.a.\)` para cada ensaio de **Bernoulli**, com `\(P(S) = p\)`. Neste contexto, considerando `\(n\)` ensaios independentes, `\(X_1, X_2, ... , X_n\)` constitui uma amostra *aleatória simples com reposição*. Como os resultados individuais são `\(0\)` (fracasso) ou `\(1\)` (sucesso), o número **TOTAL** de sucessos em `\(n\)` ensaios, é dado por: `$$T = \sum \limits_{i=1}^n X_i$$` Portanto, a proporção amostral de suscessos em `\(n\)` ensaios é dada por: `$$\bar{X} = \hat{p} = \frac{T}{n} = \frac{\sum \limits_{i=1}^n X_i}{n}$$` Observe que `\(T\)` tem distribuição binomial com parâmetros `\(n\)` e `\(p\)`, cuja esperança (média) é `\(n.p\)` e variância `\(n.p.q\)` ou `\(n.p.(1-p)\)`. --- Então, para a proporção, temos: .pull-left[ **Esperança** `\(E(\hat{p}) = E\left( \frac{T}{n} \right)\)` `\(E(\hat{p}) = \frac{1}{n} E(T)\)` `\(E(\hat{p}) = \frac{1}{n} n.p\)` `\(E(\hat{p}) = p\)` ] .pull-right[ **Variância** `\(Var(\hat{p}) = Var\left( \frac{T}{n} \right)\)` `\(Var(\hat{p}) = \frac{1}{n^2} Var(T)\)` `\(Var(\hat{p}) = \frac{1}{n^2} n.p.q\)` `\(Var(\hat{p}) = \frac{p.q}{n}\)` ] Assim, pelo **Teorema Central Limite**, quando `\(n\)` é grande, a proporção amostral `\(\hat{p}\)` de sucessos em `\(n\)` ensaios de **Bernoulli** tem distribuição aproximadamente normal com média `\(p\)` e variância `\(\frac{p.q}{n}\)`, assim, podemos definir a variável padronizada `\(Z\)` como: `$$Z = \frac{\hat{p} - p}{\sqrt{\frac{p.q}{n}}} \text{ ou } Z = \frac{T - n.p}{\sqrt{n.p.q}}$$` Com distribuição aproximadamente normal padrão `\(N(0,1)\)`. --- ### Exercício Em um ensaio experimental `\(625\)` covas foram semeadas com sementes comerciais provenientes de um lote com índice de germinação `\((p)\)` igual a `\(70\%\)`. Qual a probabilidade de se encontrar mais de `\(72\%\)` das covas com plantas germinadas? -- **Resposta:** `\(P(T \geq 450) = P(\hat{p} \geq 0,72) = P(Z \geq 1,09) = 0,13786\)`