class: center, middle, inverse, title-slide .title[ # Estatística e Informática ] .subtitle[ ## Aula 08 - Variáveis Aleatórias Contínuas ] .author[ ### Alan Rodrigo Panosso
alan.panosso@unesp.br
] .institute[ ### Departamento de Engenharia e Ciências Exatas FCAV/UNESP ] .date[ ### (25-04-2024) ] --- class: middle, center, inverse # Distribuições teóricas de probabilidades de Variáveis Aleatórias Contínuas --- ## Seríamos capazes de medir, com precisão: -- **Extensão total da bacia hidrográfica do rio Amazonas?** <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/vac_1.png" width="65%" style="display: block; margin: auto;" /> --- **Sistema nefrálgico, seríamos capazes de medir com exatidão o volume total desse sistema?** <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/vac_2.png" width="65%" style="display: block; margin: auto;" /> --- **Superfície específica de um agregado do solo?** <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/vac_3.png" width="65%" style="display: block; margin: auto;" /> --- **O comprimento e volume total de poros na casca de um ovo de galinha?** .pull-left[ <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/vac_4.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/vac_5.png" width="100%" style="display: block; margin: auto;" /> ] --- ## Variável Quantitativa é aquela que apresenta como possíveis realizações (valores) números resultantes de uma contagem ou mensuração, podendo ser: ### Contínua - Os possíveis valores formam um intervalo de números reais e que resultam, normalmente, de uma mensuração. Exemplos: peso, altura, produção de leite, pressão arterial, teor de nitrogênio no solo ou na planta. Essencialmente, dizemos que `\(X\)` é uma variável aleatória contínua, se `\(X\)` puder tomar todos os valores em algum intervalo: `$$a \leq x \leq b$$` onde `\(a\)` e `\(b\)` podem ser `\(- \infty\)` e `\(+ \infty,\)` respectivamente. --- ### Variável Aleatória Contínua Sendo resultado de um processo de mensuração, o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente observado. Por exemplo: .pull-left[ <img src="https://images.pexels.com/photos/5063385/pexels-photo-5063385.jpeg?auto=compress&cs=tinysrgb&dpr=2&h=650&w=940" width="60%" style="display: block; margin: auto;" /> ] .pull-right[ Quando dizemos que a altura de uma criança é `\(125\)`, estamos medindo sua altura usando como unidade de medida o `\(cm\)`, e portanto o valor observado é, na realidade, um valor entre `\(124,5\)` cm e `\(125,5\)` cm, por exemplo. ] --- class: center,inverse Um vídeo bastante interessante do **Khan Academy Brasil** apresentando a diferença entre as variáveis aleatórias discreta e contínuas, segue abaixo: <iframe width="718" height="404" src="https://www.youtube.com/embed/wc6qIyg3Iqo" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> [Link do vídeo](https://www.youtube.com/watch?v=wc6qIyg3Iqo) [Narrador - Ciência Todo Dia](https://www.youtube.com/user/cienciatododia) --- ### Variável Aleatória Contínua Relembrando o conceito do histograma a respeito da densidade de frequência `\((di)\)` .pull-left[ <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/salario_hit.png" width="100%" style="display: block; margin: auto;" /> ] .pull-right[ A altura do retângulo em cada intervalo de classe `\((\Delta_i)\)` é proporcional à densidade de frequência `\((fi/\Delta_i)\)` do intervalo, de modo que a área do retângulo seja igual `\(Delta_i \times \frac{fi}{\Delta_i} = fi\)`. Ou seja, com um número suficientemente grande de observações, diminuindo-se os intervalos de classe, o histograma tende ficar cada vez menos irregular, até aproximar da forma de uma curva bem mais suave. ] --- .pull-left[ <img src="Aula08_files/figure-html/unnamed-chunk-8-1.png" style="display: block; margin: auto;" /> ] .pull-right[ Como a probabilidade é interpretada como a frequência relativa de um evento em uma longa série de ensaios independentes, a curva obtida como a forma limite dos histogramas `\((c)\)` representa a maneira pela qual a probabilidade total `\((1)\)` é distribuída em relação à amplitude dos possíveis valores da v.a. `\(X\)`. A função matemática `\(f(x)\)`, cujo gráfico produz tal curva é chamada **função densidade de probabilidade** `\((f.d.p.)\)` da v.a. contínua `\(X\)`. ] **PROPRIEDADES** - a área total sob a curva é igual a `\(1\)` ; - `\(P(a \le X \le b)\)` = área sob a curva entre os pontos `\(a\)` e `\(b\)`; - `\(f(x) \ge 0\)` (não negativa) ; - `\(P(X = x_i ) = 0\)`. --- .pull-left[ <img src="Aula08_files/figure-html/unnamed-chunk-9-1.png" style="display: block; margin: auto;" /> ] .pull-right[ Estando `\(f(x)\)` de uma variável aleatória contínua `\(X\)` especificada, o problema de se calcular `\(P(a \le X \le b)\)` vem a ser o cálculo da área sob a curva. `$$P(a \le X \le b) = \int_a^bf(x)dx$$` onde: ] `$$P(a \le X \le B) = P(a \le X<B) = P(a<X \le B) = P(a<X<B)$$` --- class: middle, center, inverse # Distribuições Normal --- ### Definição Uma v.a. `\(X\)` tem distribuição normal com parâmetros `\(\mu\)` e `\(\sigma^2\)`, `\(-\infty < \mu < +\infty\)` e `\(0 < \sigma^2 < \infty\)`, e sua `\(f.d.p.\)` dada por: `$$f(x) = \frac{1}{\sigma \sqrt{2\pi} }e^{\frac{-(x-\mu)^2}{2\sigma^2}} , -\infty < x < +\infty$$` <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_1.png" width="70%" style="display: block; margin: auto;" /> --- ### Propriedades **i)** Os parâmetros `\(\mu\)` e `\(\sigma^2\)` representam, respectivamente, a média e a variância da distribuição, isto é: Onde: **i) ** `\(E(X) = \mu \text{ e } Var(X) = \sigma^2\)`; **ii)** `\(f(x) \to 0\)` quando `\(x \to \pm \infty\)`; **iii)** `\(\mu - \sigma\)` e `\(\mu + \sigma\)` são os pontos de inflexão de `\(f(x)\)`; **iv)** `\(x=\mu\)` é o ponto de máximo de `\(f(x)\)` e o valor máximo é `\(\frac{1}{\sigma \sqrt{2 \pi} }\)`; **v)** `\(f(x)\)` é simétrica ao redor de `\(x = \mu\)`, isto é, `\(f(\mu + x) = f(\mu -x)\)`, para todo `\(-\infty < x < + \infty\)`; **vi)** média = moda = mediana. --- `$$X \sim N(\mu; \sigma^2)$$` <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_2.png" width="70%" style="display: block; margin: auto;" /> --- ### Interpretando Parâmetros Duas distribuições normais com diferentes médias, mas com o mesmo desvio padrão `\((\sigma)\)` <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_3.png" width="50%" style="display: block; margin: auto;" /> Três distribuições normais com médias iguais, mas com diferentes desvios padrões <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_4.png" width="50%" style="display: block; margin: auto;" /> --- class: middle, inverse, center # Acesse o Link para estudarmos os parâmetros da distribuição normal ## https://arpanosso.shinyapps.io/estatinfo/ --- <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_5.png" width="90%" style="display: block; margin: auto;" /> --- <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_6.png" width="90%" style="display: block; margin: auto;" /> --- class: middle, inverse, center # Ditribuição Normal Padrão (normal padronizada) --- ### Definição A particular distribuição normal com `\(\mu = 0\)` e `\(\sigma^2 = 1\)`. Coincidindo com os parâmetros da variável `\(Z\)`: `$$Z = \frac{X - \mu}{\sigma}$$` onde `\(X \sim N(\mu, \sigma^2)\)` ### Função de densidade de probabilidade: `$$f(x) = \frac{1}{\sigma \sqrt{2 \pi}}e^{\frac{-z^2}{2}}, - \infty < z < + \infty$$` ### Denotação `$$Z \sim N(0,1)$$` --- ## Esperança e Variância Se `\(X \sim N(\mu, \sigma^2)\)`, então a variável aleatória `\(Z\)` definida terá uma distribuição `\(N(0, 1)\)`. ### Esperança: `$$E(Z) = 0$$` ### Variância: `$$Var(Z) = 1$$` --- A vantagem de se usar a variável `\(Z\)` é que as áreas, ou as probabilidades, associadas à distribuição normal padronizada são tabeladas. Assim, distribuição normal padrão é fundamental para o cálculo de probabilidades relativas a uma distribuição normal qualquer. <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_7.png" width="90%" style="display: block; margin: auto;" /> --- ### Distribuição Normal Padrão [Tabela - Normal Padrão](https://github.com/arpanosso/estatinfo/raw/master/docs/TabelaNormalPadrao.pdf) <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_8.png" width="90%" style="display: block; margin: auto;" /> --- class: center,inverse Outro vídeo bastante interessante do **Khan Academy Brasil** apresentando uma explicação sobre as ditribuição normal e a normal padrão: <iframe width="718" height="404" src="https://www.youtube.com/embed/BFu8smEp-Cc" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> [Link do vídeo](https://www.youtube.com/watch?v=BFu8smEp-Cc) --- ### Exemplo 1 A figura abaixo ilustra a probabilidade fornecida pela tabela, ou seja, <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_9.png" width="70%" style="display: block; margin: auto;" /> --- ### a) `\(P(-1,73 \le Z \le 0)\)` ```r 0.5 - pnorm(-1.73) ``` ``` #> [1] 0.4581849 ``` <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_10.png" width="70%" style="display: block; margin: auto;" /> --- #### b) `\(P( Z \ge 1,73)\)` #### c) `\(P( Z \le -1,73)\)` <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_11.png" width="40%" style="display: block; margin: auto;" /> por simetria: ```r pnorm(-1.73) ``` ``` #> [1] 0.04181514 ``` `$$\begin{aligned} P( Z \ge 1,73) &= P( Z \le -1,73) \\ &= 0,5 - P(0 \le Z \le 1,73) \\& = 0,5 -0,4582 \\ &= 0,0418 \end{aligned}$$` --- #### d) `\(P(Z \le 1,73)\)` <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_12.png" width="40%" style="display: block; margin: auto;" /> ```r pnorm(1.73) ``` ``` #> [1] 0.9581849 ``` `\(P( Z \le 1,73) = 0,5 + P(0 \le Z \le 1,73) = 0,5 +0,4582 = 0,9582\)` --- #### e) `\(P(0,47 \le Z \le 1,73)\)` <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_13.png" width="40%" style="display: block; margin: auto;" /> ```r pnorm(1.73) - pnorm(0.47) ``` ``` #> [1] 0.2773624 ``` `$$\begin{aligned}P(0,47 \le Z \le 1,73) &= P(0 \le Z \le 1,73) - P(0 \le Z \le 0,47) \\ &= 0,4582 - 0,1808 = 0,2774\end{aligned}$$` --- <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_14.png" width="90%" style="display: block; margin: auto;" /> --- ## Exemplo 2 Suponha que a variável aleatório `\(X \sim N(3, 16)\)`, calcular: `\(P(2 \le X \le 5)\)` -- `\(P(2 \le X \le 5) = P(\frac{2-3}{4} \le \frac{X-\mu}{\sigma} \le \frac{5-3}{4}) = P(-0,25 \le Z \le 0,5)\)` `\(P(-0,25 \le Z \le 0,5) = P(-0,25 \le Z \le 0) + P(0 < Z \le 0,5)\)` `\(P(-0,25 \le Z \le 0,5) = 0,0987 + 0,1915 = 0,2902\)` ou seja, `\(P(2 \le X \le 5) = 0,2902\)` No R: ```r pnorm(5,3,4) - pnorm(2,3,4) ``` ``` #> [1] 0.2901688 ``` --- ## Exemplo 3 Sabendo-se que os pesos à desmama `\((X)\)` de `\(10.000\)` bezerros de um rebanho são distribuídos normalmente, com média `\((\mu = 170\;kg)\)` e desvio padrão `\(( \sigma = 5\;kg)\)`, pergunta-se: **a)** qual é o número esperado de bezerros com peso superior a `\(165\)` kg? -- Solução: $$ P(X \geq 165) = P\left( \frac{X -\mu}{\sigma} > \frac{165-170}{5}\right) = P(Z \geq -1) $$ $$ P(Z \geq -1) = P(-1 \leq Z \leq 0 ) + P(Z \geq 0) = P(0 \leq Z \leq 1 ) + 0,50 $$ $$ P(Z \geq -1) = 0,3413 + 0,50 = 0,8413 $$ Portanto, o número esperado é `\(10.000 \times 0,8413 = 8413\)` bezerros. No R: ```r trunc(10000 * (1 - pnorm(165,170,5))) ``` ``` #> [1] 8413 ``` --- **b)** que peso `\((x_c)\)` deve atingir um bezerro para que ele supere `\(80\%\)` dos pesos à desmama desse rebanho? -- $$ P(X \leq 170) + P(170 \leq X \leq x_c) = 0,80 $$ $$ 0,50 + P(170 \leq X \leq x_c) = 0,80 $$ $$ P(170 \leq X \leq x_c) = 0,30 $$ $$ P(170 \leq X \leq x) = P\left( \frac{170-170}{5} \leq \frac{X - \mu}{\sigma} \leq \frac{x_c-170}{5} \right) = 0,30 $$ $$ P\left( 0 \leq Z \leq \frac{x_c-170}{5} \right) = 0,30 $$ Obervando a tabela $$ P\left( 0 \leq Z \leq 0,84 \right) = 0,30 $$ Então, $$ \frac{x_c-170}{5} = 0,84 \rightarrow x_c =174,2 \;kg $$ --- No R: ```r qnorm(0.80,170,5) ``` ``` #> [1] 174.2081 ``` --- class: middle, inverse, center # Aproximação Normal à Binomial --- #### Definição Se `\(X\)` tem distribuição binomial `\(b(n, p)\)`, onde `\(n\)` é grande e `\(p\)` não é muito próximo de `\(0\)` ou `\(1\)`, a distribuição da variável padronizada ficará: `$$Z = \frac{X -np}{\sqrt{(np(1-p))} }$$` que é aproximadamente `\(N(0,1)\)`. `\(P(a \le X \le b) = \sum_{x=a}^b {n \choose x}p^x(1-p)^{n-x} \cong P\left( \frac{a-np}{\sqrt{np(1-p)}} \le Z \le \frac{b-np}{\sqrt{np(1-p)}} \right)\)` <img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_17.png" width="40%" style="display: block; margin: auto;" /> --- ### Correção da continuidade Tendo em vista que uma distribuição discreta (binomial) é aproximada por uma contínua (normal), a melhor aproximação é obtida calculando: `$$P(a \le X \le b) = P \left( \frac{(\frac{a-0,5}{n})-p}{\sqrt{\frac{p(1-p)}{n}}} \le Z \le \frac{(\frac{b+0,5}{n})-p}{\sqrt{\frac{p(1-p)}{n}}} \right)$$` A distribuição normal pode ser recomendada para aproximar probabilidades binomiais, contanto que `\(p\)` seja próximo de `\(0,5\)`. Quando `\(p\)` é muito pequeno e `\(n\)` é grande, a distribuição de **Poisson** é mais apropriada. **Regra prática:** `\(n\)` pode ser assumido como "suficientemente" grande para se usar a distribuição normal, quando: `\(np(1-p) \ge 3\)` sendo que a aproximação melhora com o crescimento de `\(n\)`. --- ## Exemplo 4 Supondo que `\(X \sim b(15; 0,4)\)`, calcule a probabilidade: `\(P(7 \le X \le 10)\)`, por meio da aproximação normal à binomial. --- Resposta: `$$P(7 \le X \le 10) = P \left( \frac{(\frac{7-0,50}{15})-0,40}{\sqrt{\frac{0,40(1-0,40)}{15}}} \le Z \le \frac{(\frac{10+0,50}{15})-0,40}{\sqrt{\frac{0,40(1-0,40)}{15}}} \right)$$` `$$P(0,263 \le Z \le 2,368) = 0,49111 - 0,10194 = 0,389$$` no R: ```r pnorm(2.368) - pnorm(0.263) ``` ``` #> [1] 0.387333 ``` ou ```r pbinom(11,15,0.4) - pbinom(6,15,0.4) ``` ``` #> [1] 0.3882591 ```