Estatística e Informática

.title[
# Estatística e Informática
]
.subtitle[
## Aula 08 - Variáveis Aleatórias Contínuas
]
.author[
### Alan Rodrigo Panosso <a href="mailto:alan.panosso@unesp.br" class="email">alan.panosso@unesp.br</a>
]
.institute[
### Departamento de Engenharia e Ciências Exatas FCAV/UNESP
]
.date[
### (25-04-2024)
]

---

# Distribuições teóricas de probabilidades de Variáveis Aleatórias Contínuas

---

## Seríamos capazes de medir, com precisão:

--
**Extensão total da bacia hidrográfica do rio Amazonas?**

---

**Sistema nefrálgico, seríamos capazes de medir com exatidão o volume total desse sistema?**

---

**Superfície específica de um agregado do solo?**

---
**O comprimento e volume total de poros na casca de um ovo de galinha?**

.pull-left[
<img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/vac_4.png" width="100%" style="display: block; margin: auto;" />
]

.pull-right[
<img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/vac_5.png" width="100%" style="display: block; margin: auto;" />
]

---

## Variável Quantitativa

é aquela que apresenta como possíveis realizações (valores) números resultantes de uma contagem ou mensuração, podendo ser:

### Contínua

- Os possíveis valores formam um intervalo de números reais e que resultam, normalmente, de uma mensuração. Exemplos: peso, altura, produção de leite, pressão arterial, teor de nitrogênio no solo ou na planta.

Essencialmente, dizemos que `$X$` é uma variável aleatória contínua, se `$X$` puder tomar todos os valores em algum intervalo:
     `$$a \leq x \leq b$$`
onde  `$a$` e `$b$` podem ser `$- \infty$` e `$+ \infty,$` respectivamente.

---

### Variável Aleatória Contínua

Sendo resultado de um processo de mensuração, o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente observado. Por exemplo:

<img src="https://images.pexels.com/photos/5063385/pexels-photo-5063385.jpeg?auto=compress&cs=tinysrgb&dpr=2&h=650&w=940" width="60%" style="display: block; margin: auto;" />
]

Quando dizemos que a altura de uma criança é `$125$`, estamos medindo sua altura usando como unidade de medida o `$cm$`, e portanto o valor observado é, na realidade, um valor entre `$124,5$` cm e `$125,5$` cm, por exemplo.
]

---
class: center,inverse

Um vídeo bastante interessante do **Khan Academy Brasil** apresentando a diferença entre as variáveis aleatórias discreta e contínuas, segue abaixo:

[Link do vídeo](https://www.youtube.com/watch?v=wc6qIyg3Iqo)

[Narrador - Ciência Todo Dia](https://www.youtube.com/user/cienciatododia)

---

### Variável Aleatória Contínua

Relembrando o conceito do histograma a respeito da densidade de frequência `$(di)$`

.pull-left[
<img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/salario_hit.png" width="100%" style="display: block; margin: auto;" />
]

.pull-right[
A altura do retângulo em cada intervalo de classe `$(\Delta_i)$` é proporcional à densidade de frequência `$(fi/\Delta_i)$` do intervalo, de modo que a área do retângulo seja igual `$Delta_i \times \frac{fi}{\Delta_i} = fi$`.

Ou seja, com um número suficientemente grande de observações, diminuindo-se os intervalos de classe, o histograma tende ficar cada vez menos irregular, até aproximar da forma de uma curva bem mais suave.
]

---

.pull-left[
<img src="Aula08_files/figure-html/unnamed-chunk-8-1.png" style="display: block; margin: auto;" />
]

.pull-right[
Como a probabilidade é interpretada como a frequência relativa de um evento em uma longa série de ensaios independentes, a curva obtida como a forma limite dos histogramas `$(c)$` representa a maneira pela qual a probabilidade total `$(1)$` é distribuída em relação à amplitude dos possíveis valores da v.a. `$X$`.

A função matemática `$f(x)$`, cujo gráfico produz tal curva é chamada **função densidade de probabilidade** `$(f.d.p.)$` da v.a. contínua `$X$`.
]

**PROPRIEDADES**  
- a área total sob a curva é igual a `$1$` ;
- `$P(a \le X \le b)$` = área sob a curva entre os pontos `$a$` e `$b$`;
- `$f(x) \ge 0$` (não negativa) ;
- `$P(X = x_i ) = 0$`.

---
.pull-left[
<img src="Aula08_files/figure-html/unnamed-chunk-9-1.png" style="display: block; margin: auto;" />
]

Estando `$f(x)$` de uma variável aleatória contínua `$X$` especificada, o problema de se calcular `$P(a \le X \le b)$` vem a ser o cálculo da área sob a curva.

`$$P(a \le X \le b) = \int_a^bf(x)dx$$`
onde:
]

`$$P(a \le X \le B) = P(a \le X<B) = P(a<X \le B) = P(a<X<B)$$`
---

# Distribuições Normal

---

### Definição

Uma v.a. `$X$` tem distribuição normal com parâmetros `$\mu$` e `$\sigma^2$`, `$-\infty < \mu < +\infty$` e `$0 < \sigma^2 < \infty$`, e sua `$f.d.p.$` dada por:

`$$f(x) = \frac{1}{\sigma \sqrt{2\pi} }e^{\frac{-(x-\mu)^2}{2\sigma^2}} , -\infty < x < +\infty$$`

---

### Propriedades

**i)** Os parâmetros `$\mu$` e `$\sigma^2$` representam, respectivamente, a média e a variância da distribuição, isto é:

Onde:

**i) ** `$E(X) = \mu \text{ e } Var(X) = \sigma^2$`;

**ii)** `$f(x) \to 0$` quando `$x \to \pm \infty$`;

**iii)** `$\mu - \sigma$` e `$\mu + \sigma$` são os pontos de inflexão de `$f(x)$`;

**iv)** `$x=\mu$` é o ponto de máximo de `$f(x)$` e o valor máximo é `$\frac{1}{\sigma \sqrt{2 \pi} }$`;

**v)** `$f(x)$` é simétrica ao redor de `$x = \mu$`, isto é, `$f(\mu + x) = f(\mu -x)$`, para todo `$-\infty < x < + \infty$`;

**vi)** média = moda = mediana.

---

`$$X \sim N(\mu; \sigma^2)$$`

---

### Interpretando Parâmetros

Duas distribuições normais com diferentes médias, mas com o mesmo desvio padrão `$(\sigma)$`

Três distribuições normais com médias iguais, mas com diferentes desvios padrões

---

# Acesse o Link para estudarmos os parâmetros da distribuição normal

## https://arpanosso.shinyapps.io/estatinfo/

---

---

---

# Ditribuição Normal Padrão (normal padronizada)

---

### Definição

A particular distribuição normal com `$\mu = 0$` e `$\sigma^2 = 1$`. Coincidindo com os parâmetros da variável `$Z$`:

`$$Z = \frac{X - \mu}{\sigma}$$`

onde `$X \sim N(\mu, \sigma^2)$`

### Função de densidade de probabilidade:

`$$f(x) = \frac{1}{\sigma \sqrt{2 \pi}}e^{\frac{-z^2}{2}}, - \infty < z < + \infty$$`

### Denotação

`$$Z \sim N(0,1)$$`
---

## Esperança e Variância

Se `$X \sim N(\mu, \sigma^2)$`, então a variável aleatória `$Z$` definida terá uma distribuição `$N(0, 1)$`.

### Esperança:

`$$E(Z) = 0$$`

### Variância:

`$$Var(Z) = 1$$`

---

A vantagem de se usar a variável `$Z$` é que as áreas, ou as probabilidades, associadas à distribuição normal padronizada são tabeladas. Assim, distribuição normal padrão é fundamental para o cálculo de probabilidades relativas a uma distribuição normal qualquer.

---

### Distribuição Normal Padrão

[Tabela - Normal Padrão](https://github.com/arpanosso/estatinfo/raw/master/docs/TabelaNormalPadrao.pdf)

---
class: center,inverse

Outro vídeo bastante interessante do **Khan Academy Brasil** apresentando uma explicação sobre as ditribuição normal e a normal padrão:

[Link do vídeo](https://www.youtube.com/watch?v=BFu8smEp-Cc)

---
### Exemplo 1

A figura abaixo ilustra a probabilidade fornecida pela tabela, ou seja,

<img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_9.png" width="70%" style="display: block; margin: auto;" />
---

### a) `$P(-1,73 \le Z \le 0)$`

```r
0.5 - pnorm(-1.73)
```

```
#> [1] 0.4581849
```

---

#### b) `$P( Z \ge 1,73)$`

#### c) `$P( Z \le -1,73)$`

por simetria:

```r
pnorm(-1.73)
```

```
#> [1] 0.04181514
```

`$$\begin{aligned} P( Z \ge 1,73) &= P( Z \le -1,73) \\ &= 0,5 - P(0 \le Z \le 1,73) \\& = 0,5 -0,4582 \\ &= 0,0418 \end{aligned}$$`

---

#### d) `$P(Z \le 1,73)$`

```r
pnorm(1.73)
```

```
#> [1] 0.9581849
```

`$P( Z \le 1,73) = 0,5 + P(0 \le Z \le 1,73) = 0,5 +0,4582 = 0,9582$`

---

#### e) `$P(0,47 \le Z \le 1,73)$`

```r
pnorm(1.73) - pnorm(0.47)
```

```
#> [1] 0.2773624
```

`$$\begin{aligned}P(0,47 \le Z \le 1,73) &= P(0 \le Z \le 1,73)  - P(0 \le Z \le 0,47) \\ &= 0,4582 - 0,1808 = 0,2774\end{aligned}$$`

---

<img src="https://raw.githubusercontent.com/arpanosso/estatinfo/master/slides/img/hist_14.png" width="90%" style="display: block; margin: auto;" />
---
## Exemplo 2

Suponha que a variável aleatório `$X \sim N(3, 16)$`, calcular: `$P(2 \le X \le 5)$`

`$P(2 \le X \le 5) = P(\frac{2-3}{4} \le \frac{X-\mu}{\sigma} \le \frac{5-3}{4}) = P(-0,25 \le Z \le 0,5)$`

`$P(-0,25 \le Z \le 0,5) = P(-0,25 \le Z \le 0) + P(0 < Z \le 0,5)$`

`$P(-0,25 \le Z \le 0,5) = 0,0987 + 0,1915 = 0,2902$` ou seja,

`$P(2 \le X \le 5) = 0,2902$`

No R:

```r
pnorm(5,3,4) - pnorm(2,3,4)
```

```
#> [1] 0.2901688
```

---

## Exemplo 3

Sabendo-se que os pesos à desmama `$(X)$` de `$10.000$` bezerros de um rebanho são distribuídos normalmente, com média `$(\mu = 170\;kg)$` e desvio padrão `$( \sigma = 5\;kg)$`, pergunta-se:

**a)** qual é o número esperado de bezerros com peso superior a `$165$` kg?

Solução:

$$
P(X \geq 165) = P\left( \frac{X -\mu}{\sigma} > \frac{165-170}{5}\right) = P(Z \geq -1)
$$

$$
P(Z \geq -1) = P(-1 \leq Z \leq 0 ) + P(Z \geq 0) = P(0 \leq Z \leq 1 ) + 0,50
$$

$$
P(Z \geq -1) = 0,3413 + 0,50 = 0,8413
$$
Portanto, o número esperado é `$10.000 \times 0,8413 = 8413$` bezerros.

No R:

```r
trunc(10000 * (1 - pnorm(165,170,5)))
```

```
#> [1] 8413
```

---

**b)** que peso `$(x_c)$` deve atingir um bezerro para que ele supere `$80\%$` dos pesos à desmama desse rebanho?

$$
P(X \leq 170) + P(170 \leq X \leq x_c) = 0,80
$$
$$
0,50 + P(170 \leq X \leq x_c) = 0,80
$$

$$
 P(170 \leq X \leq x_c) = 0,30
$$
$$
 P(170 \leq X \leq x) = P\left( \frac{170-170}{5} \leq \frac{X - \mu}{\sigma} \leq \frac{x_c-170}{5} \right) = 0,30
$$

$$
P\left( 0 \leq Z \leq \frac{x_c-170}{5} \right) = 0,30
$$

Obervando a tabela

$$
P\left( 0 \leq Z \leq 0,84 \right) = 0,30
$$
Então,

$$
\frac{x_c-170}{5} = 0,84 \rightarrow x_c =174,2 \;kg 
$$

---

No R:

```r
qnorm(0.80,170,5)
```

```
#> [1] 174.2081
```

---

# Aproximação Normal à Binomial

---

#### Definição

Se `$X$` tem distribuição binomial `$b(n, p)$`, onde `$n$` é grande e `$p$` não é muito próximo de `$0$` ou `$1$`, a distribuição da variável padronizada ficará:

`$$Z = \frac{X -np}{\sqrt{(np(1-p))} }$$`
que é aproximadamente `$N(0,1)$`.

`$P(a \le X \le b) = \sum_{x=a}^b {n \choose x}p^x(1-p)^{n-x} \cong P\left( \frac{a-np}{\sqrt{np(1-p)}} \le Z \le \frac{b-np}{\sqrt{np(1-p)}} \right)$`

---

### Correção da continuidade

Tendo em vista que uma distribuição discreta (binomial) é aproximada por uma 
contínua (normal), a melhor aproximação é obtida calculando:

`$$P(a \le X \le b) = P \left( \frac{(\frac{a-0,5}{n})-p}{\sqrt{\frac{p(1-p)}{n}}} \le Z \le \frac{(\frac{b+0,5}{n})-p}{\sqrt{\frac{p(1-p)}{n}}} \right)$$`

A distribuição normal pode ser recomendada para aproximar probabilidades binomiais, contanto que `$p$` seja próximo de `$0,5$`. Quando `$p$` é muito pequeno e `$n$` é grande, a distribuição de **Poisson** é mais apropriada.

**Regra prática:** `$n$` pode ser assumido como "suficientemente" grande para se usar a distribuição normal, quando:  `$np(1-p) \ge 3$` sendo que a aproximação melhora com o crescimento de `$n$`.

---
## Exemplo 4
Supondo que `$X \sim b(15; 0,4)$`, calcule a probabilidade:

`$P(7 \le X \le 10)$`, por meio da aproximação normal à binomial.

---

Resposta:

`$$P(7 \le X \le 10) = P \left( \frac{(\frac{7-0,50}{15})-0,40}{\sqrt{\frac{0,40(1-0,40)}{15}}} \le Z \le \frac{(\frac{10+0,50}{15})-0,40}{\sqrt{\frac{0,40(1-0,40)}{15}}} \right)$$`

`$$P(0,263 \le Z \le 2,368) = 0,49111 - 0,10194 = 0,389$$`

no R:

```r
pnorm(2.368) - pnorm(0.263)
```

```
#> [1] 0.387333
```

```r
pbinom(11,15,0.4) - pbinom(6,15,0.4)
```

```
#> [1] 0.3882591
```