Estatística e Informática

class: center, middle, inverse, title-slide

.title[
# Estatística e Informática
]
.subtitle[
## Aula 12 - Comparação de Parâmetros
]
.author[
### Alan Rodrigo Panosso <a href="mailto:alan.panosso@unesp.br" class="email">alan.panosso@unesp.br</a>
]
.institute[
### Departamento de Engenharia e Ciências Exatas FCAV/UNESP
]
.date[
### (06-06-2024)
]

---

class: middle, center, inverse

# Comparações de parâmetros de duas populações

---

Suponha duas amostras aleatórias independentes de tamanhos `$n_1$` e `$n_2$` ou seja, `$X_1 , X_2 , ..., X_{n1}$` e `$Y_1 ,Y_2 , ...,Y_{n2}$`, respectivamente, de uma população com distribuição `$N(\mu_1, \sigma_1^2)$` e de população com distribuição `$N(\mu_2, \sigma_2^2)$`

### Hipóteses

`$H_0: \sigma_1^2 = \sigma_2^2$` ou seja `$\left(\frac{\sigma_1^2}{\sigma_2^2} = 1 \right)$`

`$H_1: \sigma_1^2 \neq \sigma_2^2$` ou seja `$\left(\frac{\sigma_1^2}{\sigma_2^2} \neq 1 \right)$`

---

### Estatística do teste:

Sendo `$s_1^2$` e `$s_2^2$` as variâncias, respectivamente das amostras `$n_1$` e `$n_2$`, o quociente

`$$\frac{s^2_1 / \sigma_1^2}{ s^2_2 / \sigma^2_2}$$`

Segue a distribuição de `$F$` (Snedecor) com `$n_1-1$` e `$n_2-1$` graus de liberdade `$(GL)$`, tem a denotação `$F(n_1-1, n_2-1)$`.

Sob a suposição de `$H_0$` ser verdadeira, isto é, `$\sigma^2_1 = \sigma^2_2$`, tem-se que

`$F = \frac{s^2_1}{s^2_2} \sim F(n_1-1, n_2-1)$`

---

#### Construção da região crítica

Fixado `$\alpha$`, os pontos críticos serão `$F_1$` e `$F_2$` da distribuição `$F$`, tais que:

Se `$\alpha = 10\%$`, pode-se, utilizando a Tabela da distribuição `$F$`, encontrar diretamente `$F_2(5\%)$`. Para encontrar `$F_1(95\%)$` utiliza-se a propriedade:

`$F_{(1-\alpha;\;n_1-1,\; n_2-1)} = \frac{1}{F_{(\alpha;\;n_2-1,\; n_1-1)}}$`, assim: `$F_{(0,95;\;n_1-1,\; n_2-1)} = \frac{1}{F_{(0,05;\;n_2-1,\; n_1-1)}}$`

---

#### Exemplo: Construir a regição crítica para o caso abaixo:

Se `$n_1 - 1= 5$` e `$n_2-1 = 7$` dado `$\alpha = 10\%$`

`$F2_{(0,05;\;5,\; 7)} = 3,97$` olhamos na tabela

---
[Tabela - Distribuição F-Snedecor](https://github.com/arpanosso/estatinfo/raw/master/docs/TabelaFSnedecor.pdf)

![](img/testeH_18.png)

---

F1 precisamos calcular:

`$F1_{(0,95;\;5,\; 7)} = \frac{1}{F_{(0,05;\;7,\; 5)}}=\frac{1}{4,88} = 0,205$`

Assim, `$RC = \{0 < F < 0,205 \text{ ou }  F > 3,97 \}$`

---

Entretanto, o procedimento que se usa na prática é calcular `$F$` utilizando sempre a maior variância no numerador `$s_1^2 > s^2_2$` portanto `$F > 1$`, e considerar o ponto crítico `$F_{2(\alpha;\;n1-1,\; n2-1)}$`.

**Amostra:** Colhidas amostras aleatórias `$n_1$` e  `$n_2$`, calcula-se `$s^2_1$` e `$s^2_2$` com `$(s^2_1 > s^2_2)$`, então:

`$$F_{obs} = \frac{s^2_1}{s^2_2} \sim F_{(n_1-1;n_2-1)}$$`

**Conclusão:** Se `$F_{obs} \in RC$`, **rejeita-se** `$H_0$`, no caso contrário, **não se rejeita** `$H_0$`.

---

**Exemplo**. Dois grupo de `$8$` animais da mesma idade e raças diferentes foram submetidos a um mesmo regime alimentar. Os resultados para ganho de peso foram:

| | | | | | | | 
---| ---|--- | ---| ---|--- |--- |--- | 
**R1:** | `$2,30$`   | `$2,10$`   | `$1,91$`   | `$1,20$`   | `$1,93$`   | `$1,88$`   | `$1,95$`   | `$2,10$`
**R2:** | `$2,30$`   | `$2,15$`   | `$2,00$`   | `$1,28$`   | `$2,15$`   | `$2,20$`   | `$1,91$`   | `$2,06$`

Ao nível de `$5\%$`, as variâncias dos ganhos de pesos raças diferem entre si?

---

```r
r1<-c(2.30,2.10,1.91,1.20,1.93,1.88,1.95,2.10)
r2<-c(2.30,2.15,2.00,1.28,2.15,2.20,1.91,2.06)
var.test(r1,r2)
```

```
#> 
#> 	F test to compare two variances
#> 
#> data:  r1 and r2
#> F = 1.0362, num df = 7, denom df = 7, p-value = 0.9638
#> alternative hypothesis: true ratio of variances is not equal to 1
#> 95 percent confidence interval:
#>  0.2074474 5.1756306
#> sample estimates:
#> ratio of variances 
#>           1.036181
```

---

Testar as hipóteses:

$$
`\begin{cases}
H_0: \sigma_{r1}^2 = \sigma_{r2}^2 \\
H_1: \sigma_{r1}^2 \neq \sigma_{r2}^2
\end{cases}`
$$
Calculando os valores de variância para as duas raças:

`$s_{r1}^2 = 0,10433$`

`$s_{r2}^2 = 0,10068$`

sendo que `$n_{r1} = n_{r2} = 8$`

e `$\alpha = 5\%$`

A estatística do teste: `$\frac{s_{r1}^2}{s_{r2}^2} = \frac{0,10433}{0,10068} = 1,03618$`

---
`$F_{c(0,05; 7, 7)} = 3,79$` assim, `$RC = \{  F > 3,79 \}$`
<img src="Aula12_files/figure-html/unnamed-chunk-3-1.png" style="display: block; margin: auto;" />

Como `$F_{obs} \notin RC$` não se rejeita `$H_0$`, ou seja, as variâncias são estatisticamente iguais ao nível de 5% de significância, ou seja, as variâncias dos ganhos de peso das raças são homocedásticas.

---

### Comparação de duas médias de populações normais: amostras independentes

A análise da hipótese da igualdade de variâncias é crucial para o uso do teste *t*, na comparação de duas médias, apresentado a seguir.

Com o objetivo de se comparar duas populações examinaremos a situação na qual os dados estão na forma de realizações de amostras aleatórias de tamanhos `$n_1$` e `$n_2$`, selecionadas, respectivamente, das populações `$1$` e `$2$`.

Uma coleção de `$n_1 + n_2$` elementos são aleatoriamente divididos em `$2$` grupos de tamanhos `$n_1$` e `$n_2$`, onde cada membro do primeiro grupo recebe o tratamento `$1$` e do segundo, o tratamento `$2$`. Especificamente, estaremos interessados em fazer inferência sobre o parâmetro:

`$\mu_1 - \mu_2$` = (média da população 1) – (média da população 2)

**Hipótese:** `$H_0: \mu_1 = \mu_2$` ou seja, `$\mu_1 - \mu_2 = 0$`

**Estatística do teste:** `$Z = \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2_1}{n_1} + \frac{\sigma^2_2}{n_2}}} \sim N(0,1)$`

---

#### Caso 1: variâncias conhecidas

`$Z = \frac{(\bar{X}-\bar{Y})}{\sqrt{\frac{\sigma^2_1}{n_1} + \frac{\sigma^2_2}{n_2}}} \sim N(0,1)$`

#### Caso 2: variâncias desconhecidas e iguais

Preliminarmente, testa-se se as variâncias das duas populações são iguais. Caso a hipótese não seja rejeitada, isto é, que `$\sigma_1^2=\sigma_2^2=\sigma^2$`, a estatística anterior transforma-se em:

`$Z = \frac{(\bar{X}-\bar{Y})}{\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}$` , substituimos `$\sigma$` por um estimador, teremos uma expressão muito semelhante à `$t$` de Student. Uma estatística para `$\sigma^2$` é a média ponderada:

`$S_P^2 = \frac{(n_1-1)s_1^2+(n_2-1)s^2_2}{(n_1-1)+(n_2-1)}$`

que, como `$s^2_1$` e `$s^2_2$` são dois estimadores não viciados de `$\sigma^2$`, também é um estimador não viciado de `$\sigma^2$`.

Assim, `$t = \frac{(\bar{X} - \bar{Y})}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2 - 2) GL$`
---

**Exemplo**. Dois grupo de `$8$` animais da mesma idade e raças diferentes foram submetidos a um mesmo regime alimentar. Os resultados para ganho de peso foram:

Ao nível de `$5\%$`, as médias dos ganhos de pesos raças diferem entre si?

---

```r
r1<-c(2.30,2.10,1.91,1.20,1.93,1.88,1.95,2.10)
r2<-c(2.30,2.15,2.00,1.28,2.15,2.20,1.91,2.06)
t.test(r1, r2, alternative = "le", var.equal = TRUE)
```

```
#> 
#> 	Two Sample t-test
#> 
#> data:  r1 and r2
#> t = -0.53098, df = 14, p-value = 0.3019
#> alternative hypothesis: true difference in means is less than 0
#> 95 percent confidence interval:
#>       -Inf 0.1969546
#> sample estimates:
#> mean of x mean of y 
#>   1.92125   2.00625
```

---

Usando os dados do exemplo anterior, testar se há evidência de que as duas raças
apresentam o mesmo ganho de peso `$(H_0: \mu_A = \mu_B \text{ vs. } H_1: \mu_A < \mu_B)$`, ao nível de `$5\%$`.

$$
`\begin{cases}
H_0: \mu_{r1} = \mu_{r2} \\
H_1: \mu_{r1} < \mu_{r2}
\end{cases}`
$$

Calculando os valores de média e desvio-padrão:

`$\bar{X} = 1,92125$` e `$s_{r1}^2 = 0,10433$` e  `$\bar{Y} = 2,00625$` e `$s_{r2}^2 = 0,10068$`

sendo que `$n_{r1} = n_{r2} = 8$` e `$\alpha = 5\%$`

Assim,

`$S_P^2 = \frac{(n_1-1)s_1^2+(n_2-1)s^2_2}{(n_1-1)+(n_2-1)} = \frac{(8-1)0,10433+(8-1)0,10068}{(8-1)+(8-1)} = 0,1025054$`

sendo `$S_P = 0,3201646$`

Portanto,

`$t_{obs} = \frac{(\bar{X} - \bar{Y})}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} = \frac{(1,92125 - 2,00625)}{0,3201646\sqrt{\frac{1}{8}+\frac{1}{8}}} = -0,5309908$`

---

Para a construção da **região crítica** do teste: `$t_c(14; 0,05) = -1,761$` assim, a região crítica é `$RC = \{ t \le -1,76131\}$`

---
**Conclusão**: Como `$t_{obs} \notin RC$`, não rejeita-se `$H_0$`, não há evidências de que a raça 1 apresenta maior ganho de peso que a raça 2.

---

#### Caso 3: variâncias desconhecidas e desiguais (Teste de Smith – Satterthwaite)

Quando a hipótese de igualdade de variâncias for rejeitada, deve-se substituir `$\sigma^2_1$` e `$\sigma^2_2$` pelos seus respectivos estimadores `$s^2_1$` e `$s^2_2$` obtendo a estatística:

`$$t = \frac{(\bar{X}-\bar{Y})}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}$$`

que sob a veracidade de `$H_0$` `$(\mu_1 - \mu_2 = 0)$`, aproxima-se de uma distribuição `$t$` de Student, com número de graus de liberdade dado aproximadamente por:

`$$gl=\frac{\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}}{\frac{\left( \frac{s^2_1}{n_1} \right)^2}{n_1-1}+\frac{\left( \frac{s^2_2}{n_2}  \right)^2}{n_2-1}}$$`
---

Como o número de graus de liberdade assim calculado, geralmente, é **não inteiro**, recomenda-se aproximá-lo para o inteiro imediatamente anterior a este.

Se `$n_1$` e `$n_2$` são ambos grandes `$(n \ge 30)$`, o teste pode ser baseado na estatística.

`$$Z = \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}} \sim N(0,1) \text{ sob } H_0$$`

pois permanece válido se `$\sigma^2_1$` e `$\sigma^2_2$` são substituídos por seus respectivos estimadores amostrais `$s^2_1$` e `$s^2_2$`.

**Nota**: no caso da inferência originada de amostras grandes, não é necessário assumir que as distribuições das populações originais são normais, porque o teorema  central do limite garante que as médias amostrais X e Y são aproximadamente distribuídas como `$N( \mu_1, \sigma^2 / n_1 )$` e `$N( \mu_2, \sigma^2 / n_2 )$`, respectivamente. Além disso, a suposição de variâncias populacionais iguais `$(\sigma^2_1 = \sigma^2_2)$` que é usada para amostras pequenas, é evitada nessa situação.