Estatística & Estatística e Informática

class: center, middle, inverse, title-slide

.title[
# Estatística & Estatística e Informática
]
.subtitle[
## Introdução à Estatística
]
.author[
### Alan Rodrigo Panosso <a href="mailto:alan.panosso@unesp.br" class="email">alan.panosso@unesp.br</a>
]
.institute[
### Departamento Ciências Exatas
]
.date[
### 05 e 06 de março de 2026
]

---

class: middle, center, inverse

# INTRODUÇÃO

## Modelos Matemáticos

---

### Modelos Determinísticos:

Nesse modelo as condições sob as quais um experimento é executado determinam o resultado do experimento.

**Exemplo**: Segunda Lei de Newton:

`$$F = m \cdot a$$`

Esse modelo diz que o valor da força `$F$` pode ser calculado tão logo os valores da massa do objeto `$m$` e sua aceleração `$a$` sejam fornecidos. Nesse tipo de modelo, quaisquer desvios que pudessem ocorrer seriam tão pequenos que a descrição acima seria suficiente para modelá-lo.

**Seu resultado é determinado pelas condições sob as quais o experimento é executado**.

Exemplo de mecânica clássica, astronomia, termodinâmica, circuítos elétricos e química etc.

---

### Exemplos de fenômenos determinísticos

.pull-left[
 
<img src="https://media0.giphy.com/media/v1.Y2lkPTc5MGI3NjExeGVqY3VxdHY0eHp5b29tN3hrbG1kYTY3Nm1vanQ2N2d6cnl0MGFuMSZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/VgqRvZymwFis4NcPLE/giphy.gif" height="490">

]

.pull-right[

]

---

`$$Dados = Modelo$$`

---

### Modelos Estocásticos (não-determinísticos ou probabilísticos):

Para um grande número de situações na natureza, o modelo determinístico apresentado é suficiente, contudo existem fenômenos que requerem um modelo matemático diferente, como por exemplo a taxa de crescimento de qualquer população.

**Nesse modelo admitimos que as condições nas quais o ensaio é executado determinam somente o comportamento probabilístico do resultado observável**.

**Exemplo:** em fenômenos meteorológicos, não podemos determinar qual será a precipitação em uma determinada região como resultado de uma chuva.

.pull-left[
<img src="https://media1.giphy.com/media/v1.Y2lkPTc5MGI3NjExOHg4NDF4ODVxZGpuZWV4YzlxOWdiNHQzZG9tendmdXFpN2F5bWE3NyZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/Mgq7EMQUrhcvC/giphy.gif" height="220">

]

.pull-right[
Observações como temperatura, pressão, velocidade do vento e umidade relativa do ar podem fornecer um prognóstico geral da chuva (fraca, média ou forte) entretanto, não tornam possível predizer quanta chuva cairá.
]

---
<img src="Aula02_files/figure-html/unnamed-chunk-2-1.png" style="display: block; margin: auto;" />
`$$Dados = Modelo + Ruído$$`

---

### Outros exemplos de fenômenos estocásticos (probabilísticos)

.pull-left[
- Tempo gasto em "Telas"
<img src="https://media1.tenor.com/m/4InIAd6CIjsAAAAC/smartphone-scroll.gif" height="180">

- Padrão de Consumo
<img src="https://media4.giphy.com/media/v1.Y2lkPTc5MGI3NjExdnRydDBiZm4ybTF0em1jb2N2Y3VmbjI4dWs5N3ZzYjE1ZTBqeWhjaSZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/NrPN39Iwv0nIj6ePZx/giphy.gif" height="270">
]

.pull-right[
- Produtividade de uma cultura
<img src="https://media4.giphy.com/media/v1.Y2lkPTc5MGI3NjExbjRpMWRvbWIwaTJhYWpqdHR1aGtta3hmdmNuNDVqaDhvbzQzenVheSZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/txCo7WXCwZpmM/giphy.gif" height="190">

- Ganho de peso de bovinos
<img src="https://media3.giphy.com/media/v1.Y2lkPTc5MGI3NjExN2t6aGNyY2VkdGozMWMzMWJib3IzanBmOHpxeWljd3lqZnF5cGZ3OCZlcD12MV9pbnRlcm5hbF9naWZfYnlfaWQmY3Q9Zw/PQR35jBsAEVPxSMkYj/giphy.gif" height="250">
]

---

## Padrão do emissão de Gases estufa

---

## Importância da Estatística

Assim, podemos concluir que...

> ...a Estatística é fundamental na análise de dados provenientes de quaisquer processos onde exista variabilidade, estando interessada nos métodos e processos quantitativos que servem para a

> - *coleta*; 
> - *organização*; 
> - *resumo*; 
> - *apresentação*; 
> - *análise*

> bem como na **obtenção de conclusões válidas** e na **tomada de decisões** a partir de tais análises.

---

#### Coleta informações

- Entrevista estruturada com produtores rurais sobre uso de fertilizantes.  
- *Medição direta em campo*, como teor de carbono no solo em diferentes áreas.  
- *Experimento controlado*, comparando produtividade sob diferentes doses de nitrogênio.  
- Uso de *sensores automáticos*, registrando temperatura e umidade a cada hora.  
- Extração de *dados secundários*, como séries históricas do Instituto Brasileiro de Geografia e Estatística (IBGE).  
- **Aplicação de questionário** a alunos para levantar horas de estudo por semana. Ferramenta aplicada na primeira semana de aula.

![](img/form.png)
---

#### Organização

Etapa em que os dados coletados são **estruturados** de forma sistemática, para permitir leitura, conferência e posterior análise. Envolve classificação, codificação, ordenação e tabulação.

Exemplo: na coleta dos dados das turmas, os dados estão dispersos, na ordem em que foram registrados. Organizar significa:

- ordenar as idades em ordem crescente;  
- corrigir ou retirar inconsistências;  
- construir uma tabela de frequências;  
- agrupar em classes (por exemplo para idade: 17–18, 19–20, 21–22 anos);
- codificar variáveis categóricas, (ex.: sexo: 0 = feminino, 1 = masculino).

Após essa etapa, os dados deixam de ser uma lista desestruturada e passam a ter forma adequada para análise. Como exemplo temos [dados-turmas-2026.xlsx](https://raw.githubusercontent.com/arpanosso/estatinfo/refs/heads/master/data/dados-turmas-2026.xlsx)

![](img/dados-turmas-2026.png)
---

#### Resumo

É a etapa em que os dados organizados são sintetizados por meio de medidas numéricas ou representações simples, reduzindo a informação sem perder o essencial.

**Horas de estudo por semana (variável quantitativa)**

- O resumo é feito com medidas de posição e dispersão.

<div class="datatables html-widget html-fill-item" id="htmlwidget-22cbeb611a2f78bde6c1" style="width:100%;height:auto;"></div>
<script type="application/json" data-for="htmlwidget-22cbeb611a2f78bde6c1">{"x":{"filter":"none","vertical":false,"data":[["1"],[6.99],[6],[4.77],[30],[0]],"container":"<table class=\"display\">\n  <thead>\n    <tr>\n      <th> <\/th>\n      <th>Media<\/th>\n      <th>Mediana<\/th>\n      <th>Desvio_padrao<\/th>\n      <th>Maximo<\/th>\n      <th>Minimo<\/th>\n    <\/tr>\n  <\/thead>\n<\/table>","options":{"columnDefs":[{"className":"dt-right","targets":[1,2,3,4,5]},{"orderable":false,"targets":0},{"name":" ","targets":0},{"name":"Media","targets":1},{"name":"Mediana","targets":2},{"name":"Desvio_padrao","targets":3},{"name":"Maximo","targets":4},{"name":"Minimo","targets":5}],"order":[],"autoWidth":false,"orderClasses":false}},"evals":[],"jsHooks":[]}</script>

Isso permite descrever tendência central e dispersão em poucas medidas.

---

#### Resumo

**Curso dos alunos (variável qualitativa)**

- O resumo é feito por frequências:

<div class="datatables html-widget html-fill-item" id="htmlwidget-d09bef3196e27bf10777" style="width:100%;height:auto;"></div>
<script type="application/json" data-for="htmlwidget-d09bef3196e27bf10777">{"x":{"filter":"none","vertical":false,"data":[["1","2"],["Administração","Agronomia"],["29%","71%"]],"container":"<table class=\"display\">\n  <thead>\n    <tr>\n      <th> <\/th>\n      <th>curso<\/th>\n      <th>Freq_porcent<\/th>\n    <\/tr>\n  <\/thead>\n<\/table>","options":{"columnDefs":[{"orderable":false,"targets":0},{"name":" ","targets":0},{"name":"curso","targets":1},{"name":"Freq_porcent","targets":2}],"order":[],"autoWidth":false,"orderClasses":false}},"evals":[],"jsHooks":[]}</script>

**OBS**: Aqui não faz sentido calcular média, o resumo adequado é por proporções.
---

#### Apresentação (visualização)

É a etapa em que os dados já organizados e resumidos são exibidos de forma visual ou tabular, para facilitar a comunicação e a interpretação.

**Horas de estudo por semana (variável quantitativa)**

- Tabela de frequências por classes

<div class="datatables html-widget html-fill-item" id="htmlwidget-90ead5b16ebfc480456f" style="width:100%;height:auto;"></div>
<script type="application/json" data-for="htmlwidget-90ead5b16ebfc480456f">{"x":{"filter":"none","vertical":false,"data":[["1","2","3","4","5"],["(-0.03,5]","(5,10]","(10,15]","(15,20]","(25,30]"],[42,35,10,3,1],[0.46,0.38,0.11,0.03,0.01],["46%","38%","11%","3%","1%"]],"container":"<table class=\"display\">\n  <thead>\n    <tr>\n      <th> <\/th>\n      <th>classe_estudo<\/th>\n      <th>Freq_absoluta<\/th>\n      <th>Freq_relativa<\/th>\n      <th>Freq_porcent<\/th>\n    <\/tr>\n  <\/thead>\n<\/table>","options":{"columnDefs":[{"className":"dt-right","targets":[2,3]},{"orderable":false,"targets":0},{"name":" ","targets":0},{"name":"classe_estudo","targets":1},{"name":"Freq_absoluta","targets":2},{"name":"Freq_relativa","targets":3},{"name":"Freq_porcent","targets":4}],"order":[],"autoWidth":false,"orderClasses":false}},"evals":[],"jsHooks":[]}</script>

---
- Histograma, gráfico de distribuição das horas.

<img src="Aula02_files/figure-html/unnamed-chunk-6-1.png" style="display: block; margin: auto;" />
---

- Boxplot, destacando mediana, quartis e possíveis outliers.

---
**Curso dos alunos (variável qualitativa)**

- Tabela de frequências absolutas e relativas.

<div class="datatables html-widget html-fill-item" id="htmlwidget-95312c91aa0890ddded5" style="width:100%;height:auto;"></div>
<script type="application/json" data-for="htmlwidget-95312c91aa0890ddded5">{"x":{"filter":"none","vertical":false,"data":[["1","2"],["Administração","Agronomia"],[26,65],[0.29,0.71],["29%","71%"]],"container":"<table class=\"display\">\n  <thead>\n    <tr>\n      <th> <\/th>\n      <th>curso<\/th>\n      <th>Freq_absoluta<\/th>\n      <th>Freq_relativa<\/th>\n      <th>Freq_porcent<\/th>\n    <\/tr>\n  <\/thead>\n<\/table>","options":{"columnDefs":[{"className":"dt-right","targets":[2,3]},{"orderable":false,"targets":0},{"name":" ","targets":0},{"name":"curso","targets":1},{"name":"Freq_absoluta","targets":2},{"name":"Freq_relativa","targets":3},{"name":"Freq_porcent","targets":4}],"order":[],"autoWidth":false,"orderClasses":false}},"evals":[],"jsHooks":[]}</script>
---

- Gráfico de barras, comparando ADM e AGRO.

<img src="Aula02_files/figure-html/unnamed-chunk-9-1.png" style="display: block; margin: auto;" />
---

- Gráfico de setores (pizza), mostrando proporções.

<img src="Aula02_files/figure-html/unnamed-chunk-10-1.png" style="display: block; margin: auto;" />
---

#### Análise

Etapa em que se aplicam métodos estatísticos para responder a uma pergunta de interesse, indo além da descrição.

**EXEMPLO**

> **Pergunta**: o tempo médio de estudo é diferente entre os sexos?

Temos:

- Variável quantitativa: **horas de estudo por semana**.
- Variável qualitativa: **sexo**.

---

---

#### Hipóteses

$$
`\begin{cases}
H_0: \mu_F = \mu_M \\
H_1: \mu_F \neq \mu_M
\end{cases}`
$$
A análise permite concluir, com base em evidência estatística (valor-p, intervalo de confiança), se a diferença observada pode ser atribuída ao acaso ou não.

```
## 
## 	Welch Two Sample t-test
## 
## data:  he_f and he_m
## t = 1.8878, df = 74.052, p-value = 0.06297
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.1038396  3.8467863
## sample estimates:
## mean of x mean of y 
##  8.181818  6.310345
```
Observa-se uma diferença média maior no grupo `$F$`, com evidência marginal `$(p = 0,063)$`, sugerindo uma possível tendência de maior tempo de estudo nesse grupo, embora sem significância estatística ao nível de `$5\%$`.
---

### Análise

O ciclo analítico pode ser ampliado com a inclusão de uma nova variável no **modelo**.

Nesse contexto, além de comparar cursos ou sexos isoladamente, podemos investigar uma questão mais específica:

> **Pergunta**: Existem diferenças nas horas de estudo entre os sexos dentro de cada curso?

Ou seja, a comparação passa a considerar simultaneamente curso e sexo, permitindo avaliar não apenas efeitos principais, mas também a possível interação entre esses fatores.

---
<img src="Aula02_files/figure-html/unnamed-chunk-13-1.png" style="display: block; margin: auto;" />

---

A análise continua ...

---
## Estatística

Para compreender esse ciclo, a Estatística é estruturada em três grandes áreas:

I - **Estatística Descritiva**: envolve organização, resumo e apresentação dos dados.

II - **Probabilidade**: fornece a base teórica para modelar a incerteza e o comportamento aleatório.

III - **Inferência Estatística**: utiliza a probabilidade para tirar conclusões sobre a população com base em uma amostra (estimação e testes de hipóteses).

A Descritiva descreve os dados observados; a Probabilidade modela o acaso; a Inferência permite generalizar resultados.

---
class: middle, center, inverse

# I - ESTATÍSTICA DESCRITIVA

---
## Estatística Descritiva

Utilizada nas etapas iniciais dos trabalhos, se refere à maneira de representar dados em tabelas e gráficos, resumi-los por meio de algumas medidas **sem, contudo, tirar conclusões sobre um grupo maior**.

É necessário, portanto, definirmos os nossos termos básicos para podermos nos comunicar durante a disciplina. Assim, serão definidos alguns conceitos.
--

### Dados
--

Considerados o material básico da estatística, são os valores observados de uma característica de interesse de cada amostra, é o registro da característica de interesse.

---

**Exemplos**

- Variação de temperatura no processo de secagem de um alimento.
- Tempo de reabilitação de doentes após determinados tratamentos.
- Número de produtos defeituosos em lotes oriundos de uma linha de montagem.
- Peso e alturas de plantas de uma determinada variedade após aplicação de um trato cultural.

Cada número desses constituem os **DADOS** e a característica comum entre eles é a **VARIABILIDADE** ou **VARIAÇÃO**.

---

**Exemplo de um banco de dados**

![](img/dados-turmas-2026.png)

---
### População Comum

É o conjunto de pessoas ou elementos que compartilham uma característica observável e que constituem o universo de interesse de um estudo. É o conjunto total de unidades sobre as quais se deseja tomar uma decisão.

Exemplo: todos os moradores de uma cidade; todos os alunos de uma universidade.
<img src="https://images.pexels.com/photos/9816/pexels-photo-9816.jpeg?cs=srgb&dl=pexels-ingo-joseph-9816.jpg&fm=jpg" style=" display: block; margin-left: auto; margin-right: auto;width: 80%"></img>

---

**Populações Estatísticas**: É o conjunto de todas as unidades estatísticas (indivíduos, objetos ou eventos) sobre as quais se deseja estudar uma ou mais variáveis. A população estatística não é formada pelos "dados", mas pelos elementos que possuem as características de interesse, mesmo que ainda não tenham sido observados.

.pull-left[
- Valores de pressão sanguínea de indivíduos.

População: Pessoas de uma cidade.
]

.pull-right[- Presença ou ausência de doenças.

População: Cervídeos do Pantanal
]

---

### População Estatistica

.pull-left[
- Nível de satisfação de funcionário.

População: Todos os funcionários da empresa.

]

.pull-right[

- Valores de produção de soja no Brasil.

População: Todas as propriedades produtoras de soja do estado do MT.
]

---

### Amostra

Amostra é qualquer subconjunto da população.

- Não conseguimos acessar toda uma população para estudar as características de interesse, tomaremos alguns elementos dessa população para formar um grupo a ser estudado.

- Impossibilidade de acesso e implicações éticas.

---
.pull-left[
### Parâmetro:

É a medida usada para descrever uma característica da população, por exemplo: média populacional `$(\mu)$` ou a variância populacional `$(\sigma^2)$`.]

.pull-right[
### Estatística
É a medida usada para descrever uma característica da amostra, em analogia, média amostral `$(\bar{x}\text{ ou } \hat{m} )$` e a variância amostral `$(s^2)$`.
]

---

### Variável

As informações obtidas, sejam com base nos elementos que constituem a população, sejam com base nos elementos que constituem a amostra, são denominadas **dados**.

Assim, definimos que todo dado coletado refere-se a uma característica da população, agora, para nós  determinada **VARIÁVEL**.

---

### Variável Qualitativa

É aquela que apresenta como possíveis realizações uma qualidade (ou atributo) do indivíduo pesquisado.

**Nominal**: é aquela para a qual **não existe ordenação** alguma das possíveis realizações (característica observados). Em estatística dizemos que os dados são **categóricos**.

---

**Ordinal**: é aquela para a qual **existe certa ordem** nos possíveis resultados. Apesar de ordenar, não permite a indicação em termos de quanto mais ou menos.

---
### Variável Quantitativa

**Discreta**: os possíveis valores formam um conjunto enumerável resultam, frequentemente, de um **processo  contagem** (os valores podem ser finito ou mesmo infinitos). Exemplos: número de filhos, número de células, número de ovos, número de ácaros ou insetos em uma planta.

---

### Variável Quantitativa

**Contínua**: os possíveis valores formam um intervalo de números reais e que resultam, normalmente, de um processo de medida (mensuração). Exemplos: peso, altura, produção de leite, pressão arterial, teor de nitrogênio no solo, desconto em folha de pagamento, valor de aluguel.

---
class: middle, center, inverse

# Ferramental

## Calculadora Científica

---
### Limpeza da Memória da Calculadora

![](img/calculadora01.png)
---
### Acesso do modo Estatístico (SD)

![](img/calculadora02.png)
---
### Exemplo de entrada de dados

Entrar com os valores `$3.25$`, `$1.25$`, `$3.20$` e `$2.30$`

![](img/calculadora03.png)

---
### Número total de elementos na memória 
![](img/calculadora04.png)
---

### A somatória de todos os elementos `$(\sum x)$`
![](img/calculadora05.png)
---
### A somatória do quadrado de todos os elementos `$(\sum x^2)$`
![](img/calculadora06.png)
---
### Média dos valores da memória `$(\bar{x})$`
![](img/calculadora07.png)
---
### Desvio padrão amostral de todos os elementos `$(s)$` ou `$\sigma_x$` 
![](img/calculadora08.png)
---
#### 1) Utilizando a Calculadora resolver as expressões:

`$$\begin{align*} & a)\; log_5 125 \\
& b)\; 2 \cdot sen(45°) \\
& c)\; \frac{1}{\sqrt{2\pi}} \\
& d)\; \frac{1}{\sqrt{2\pi+1}} \end{align*}$$`

---

#### 2) Dados a amostra da variável `$X=\{6,8,7\}$`, sendo `$\Sigma$` a somatória dos elementos de `$X$`  e `$\bar{x}$` a média (amostral) dos elementos de `$X$` e `$n$` o número total de elementos dessa amostra, calcule:

`$$\begin{align*} 
& a)\;Soma= \sum_{i=1}^n x_i \\
& b)\; \bar{x} = \frac{\sum_{i=1}^n x_i}{n}\\
& c)\; \beta = \frac{(\sum_{i=1}^n x_i)^2}{(n-1)\cdot(n-2) } \end{align*}$$`

---
### Resolução no R  
#### Exercício 01

``` r
# 1.a
log(125,5)
```

```
## [1] 3
```

``` r
# 1.b
2*sin(45*pi/180)
```

```
## [1] 1.414214
```

``` r
# 1.c
1/(sqrt(2*pi))
```

```
## [1] 0.3989423
```

``` r
# 1.d
1/(sqrt(2*pi+1))
```

```
## [1] 0.3705436
```

---
### Resolução no R

#### Exercício 02

``` r
# Definindo dados X
X = c(6,8,7)

# 2.a
sum(X)
```

```
## [1] 21
```

``` r
# 2.b
mean(X)
```

```
## [1] 7
```

``` r
# 2.c
sum(X)^2/((3-1)*(3-2))
```

```
## [1] 220.5
```