A Estatística Experimental tem como objetivo o estudo dos experimentos, isto é, seu planejamneto, execução, análise dos dados e interpretação dos resultados obtidos.
Para que um experimentador conduza e avalie uma pesquisa corretamente, é essencial um certo conhecimento de estatística, principalmente no que se refere às potencialidades e às limitações das técnicas utilizadas. Assim sendo, o curso de Experimentação Agrícola visa apresentar aos alunos os métodos estatística mais usado em Agronomia.
Vejamos então, alguns conceitos básicos necessários para um bom entendimento da estatística Experimental
Boa parte do conhecimento humano está baseado em um número relativamente reduzido de informações. Isto é verdadeiro, tanto no que se refere aos problemas do cotidiano, como no que se refere à pesquisa científica.
Por definição POPULAÇÃO é o conjunto de elementos que têm em comum uma determinada característica. Todo o subconjunto não vazio e com menor número de elemento do que o conjunto definido como população constitui, por definição, uma AMOSTRA desta população.
Uma população em ecologia é o número total de indivíduos de uma determinada espécie em uma área definida. Por exemplo, o número total de lagartas de Spodoptera frugiperda em uma cultura de milho constitui uma população. Esta população, embora finita, é considerada para fins de amostragem como uma população infinita.
Uma vez definida a unidade amostral (1 planta, um conjunto de 5 plantas, ou um quadrado no qual será contado o número de lagartas), a população pode ser considerada como um conjunto de unidades amostrais e um subconjunto tomado aleatoriamente deste subconjunto é chamado de AMOSTRA ALEATÓRIA DE TAMANHO N.
Assim sendo, as observações são obtidas através de contagens do número de indivíduos em cada unidade amostral. Estas observações são chamadas de VARIÁVEL EM ESTUDO.
É o método, elemento ou material, cujo efeito se deseja medir ou comparar em um experimento. Por exemplo, um tratamento pode ser: Uma variedade de cana-de-açúcar, um híbrido de sorgo, uma dose de um adubo para a cultura do milho, um espaçamento para cultura do algodão, um recipiente para produção de mudas de eucalipto, um inseticida para controle de pragas, etc.
Experimento é um trabalho previamente planejado, no qual se faz comparação dos efeitos dos tratamentos.
É a unidade na qual o tratamento é aplicado. É na parcela que obtemos os dados que deverão refletir o efeito de cada tratamento no ensaio. A parcela pode ser constituída por uma planta, uma área om um grupo de plantas, uma placa de petri com um meio de cultura, um animal, um lote de animais, etc.
É o plano utilizado na experimentação, e implica na forma como os tratamento deverão ser distribuídos nas unidades experimentais e como serão analisados os dados a serem obtidos. Como exemplo, temos o delineamento inteiramente casualizado (DIC), o delineamento em blocos casualizados (DBC) o delineamento em quadrado latino (DQL), entre outros.
As populações são descritas por certas características chamadas de Parâmetros. A amostras são descritas pelas mesmas características, que, neste caso, são chamadas de Estimativas de Parâmetros, Estatísticas da amostra. Alguns destes parâmetros são chamado de medidas de posição e outros de medida de dispersão
Uma característica comum a todas as populações ou amostras é a varaibilidade dos indivíduos que as constituem.
Geralmente, os dados de uma população ou amostra tendem a ser mais numerosos em torno de um valor central e vão se tornando mais raros à medida que no afatamos desse valor. A medida de posição representa o valor em torno do qual os dados observados tendem a se agrupar.
Das medidas de posição, a mais utilizada é a Média Aritmética, que pode se definida como: A Soma de todas as observações divididas pelo número delas
Assim, para uma população com \(N\) elementos, ditos \(x_1\), \(x_2\), … , \(x_N\), a média aritmética será:
\[ m = \frac{\sum_{i=1}^{N}x_i}{N} = \frac{x_1+x_2+...+x_N}{N} \] Para uma amostra com \(n\) elementos, ditos \(x_1\), \(x_2\), … , \(x_n\), a média aritmética será:
\[ \bar{x}=\hat{m} = \frac{\sum_{i=1}^{N}x_i}{N} = \frac{x_1+x_2+...+x_N}{n} \] exemplo
Considere como exemplo os dados abaixo, referente à altura de plantas daninha (em cm) em uma amostra de 5 plantas em uma área de pastagem.
\(x_1\) | \(x_2\) | \(x_3\) | \(x_4\) | \(x_5\) |
---|---|---|---|---|
5 | 3 | 2 | 4 | 3 |
Então, para estes dados, a estimativa da média aritmética será:
\[
\hat{m} = \frac{\sum_{i=1}^{N}x_i}{N} = \frac{5+3+2+4+3}{5} = \frac{17}{5} = 3,4\;cm
\]
# Defina o vetor de dados
X <- c(5,3,2,4,3)
# Calculando a soma dos elementos de X (G)
G=sum(X)
G
## [1] 17
# Encontrando o número total de elementos de X
n=length(X)
n
## [1] 5
# Calculando diretamente a média aritmética
mean(X)
## [1] 3.4
A diferença entre um valor observado (\(x_i\)) e a média aritmética (\(\hat{m}\)) é denominado de desvio (\(d_i\)), ou seja:
\[ d_i = x_i - \hat{m}, \text{ para i =1, 2, ...,n } \]
\(d_1 = 5-3.4\) | \(d_2=3-3.4\) | \(d_3 = 2-3.4\) | \(d_4 = 4-3.4\) | \(d_5 = 3-3.4\) |
---|---|---|---|---|
1,6 | -0,4 | -1,4 | 0,6 | -0,4 |
Podemos mostrar que a soma dos desvios é igual a zero, para qualquer conjunto de dados.
\[ \sum_{i=1}^{N}d_i = 0 \]
# Calculando os desvios
d<-X-mean(X)
# Apresentando os valores de desvios
d
## [1] 1.6 -0.4 -1.4 0.6 -0.4
# Prova de que o A Soma dos Desvios é igual a Zero
round(sum(d)) # a função rond arredonda a saida da função soma para 0 casas decimais
## [1] 0
As medidas de dispersão são também chamadas de medidas de variação, e medem o grau com que os dados tendem a se afastar de um valor central, que geralmente é a média aritmética.
Como em todas as amostras (ou populações) ocorre variabilidade dos elementos que as constituem, amostra com mesma média pode apresentar distribuições diferentes, e portanto, somente a média não fornece informação clara de como os dados se distribuem. Assim, para representar melhor a maneira pela qual os dados se distribuem, são utilizadas as medidas de dispersão ou de variação.
Dentre as medidas de dispersão, discutiremos a Variância, o Desvio PAdrão, o Erro padrão da Média e o Coeficiente de variação.
A variância é uma medida de dispersão que leva em conta todas as observações. É indiscutivelmente, a melhor medida de dispersão.
A variância de uma população é representada por \(\sigma^2\), lê-se sigma dois, e pode ser definida como “A média dos quadrados dos desvios de todos os dados em relação à média aritmética”.
Então, para uma população com \(N\) temos:
\[ \sigma^2 = \frac{SQD}{N} = \frac{d_1+d_2+...+d_N}{N} =\frac{\sum_{i=1}^Nd_i^2}{N} \\ \sigma^2 =\frac{\sum_{i=1}^N(x_i-m)^2}{N} \]
Note que utilizando esta fórmula o cálculo da variancia seria bastante trabalhoso, no caso de N ser um número muito grande.
Existe porém um método mais prático de se calcular a variância, que pode ser obtido desenvolvendo-se as fórmula da soma de quadrados dos desvios (SQD) . Assim, temos:
\[ SQD = \sum_{i=1}^N(x_i-m)^2 = \sum_{i=1}^Nx_i^2-\frac{(\sum_{i=1}^N x_i)^2}{N} \]
Então, a fórmula simplificada da variância será:
\[ \sigma^2 =\frac{\sum_{i=1}^Nx_i^2-\frac{(\sum_{i=1}^N x_i)^2}{N}}{N} \]
A vantagem desta fórmula é que trabalhamos diretamente com os dados originais, não havendo necessidade de calcularmos a média e os desvios em relação a ela.
O termo \(\frac{(\sum_{i=1}^Nx_i)^2}{N}\) é denomidado de Correção devido à média ou simplesmente Correção, representado por \(C\) e é de grande utilização nas futuras análise de variâncias.
Normalmente, na prática, trabalhamos com amostras, e a estimativa da variância, representada por \(s^2\), é calculada, para uma amostra com \(n\) elementos, representados por \(x_1\), \(x_2\), …,\(x_n\), por:
\[ s^2 = \frac{SQD}{n-1} = \frac{d_1+d_2+...+d_n}{n-1} =\frac{\sum_{i=1}^nd_i^2}{n-1} \\ s^2 =\frac{\sum_{i=1}^n(x_i-\hat{m})^2}{n-1} \]
ou ainda,
\[ s^2 =\frac{\sum_{i=1}^nx_i^2-\frac{(\sum_{i=1}^n x_i)^2}{n}}{n-1} \]
Observações:
1 - A variância tem sempre valor positivo, e sua unidade é quadrática.
2 - O denominador utilizado do nálculo da variância é chamado de grau de liberdade da estimativa da variância, sempre dado por \(n-1\)
exemplo No exemplo anterior de altura de plantas daninhas:
No caso temos
\(d_1 = 5-3.4\) | \(d_2=3-3.4\) | \(d_3 = 2-3.4\) | \(d_4 = 4-3.4\) | \(d_5 = 3-3.4\) |
---|---|---|---|---|
1,6 | -0,4 | -1,4 | 0,6 | -0,4 |
\[ s^2 =\frac{(1,6^2+(-0.4)^2+(-1,4)^2+0,6^2+(-0,4)^2)^2}{5-1} = \frac{5.2}{4} = 1,3 \;cm^2 \]
Pela fórmula que não utiliza os desvios teríamos:
\(x_1\) | \(x_2\) | \(x_3\) | \(x_4\) | \(x_5\) |
---|---|---|---|---|
5 | 3 | 2 | 4 | 3 |
\[ s^2 =\frac{\sum_{i=1}^nx_i^2-\frac{(\sum_{i=1}^n x_i)^2}{n}}{n-1} = \frac{(5^2+3^2+2^2+4^2+3^2)-\frac{(5+3+2+4+3)^2}{5}}{5-1} = \frac{63-\frac{(17)^2}{5}}{5-1} = \frac{63-57,8}{4}=1,3 \;cm^2 \]
# Forma mais simples de calcular a variância amostral
var(X)
## [1] 1.3
A variância, pela sua natureza, tem a unidade quadrática. A sua raiz quadrada, que ainda é uma medida de dispersão é denominada desvio padrão:
A vantagem do desvio padrão é ter a mesma unidade dos dados originais e, consequentemente, da média.
É a mais utilizada das medidas de dispersão, e é representada por \(\sigma\) para a população, com estimativa \(s\) para a amostra. Então:
\[ \sigma = \sqrt{\sigma^2} \text{ e } s = \sqrt{s^2} \]
exemplo \[
s = \sqrt{1,3} = 1,140175\;cm
\]
# Forma mais simples de calcular o desvio padrão
sd(X)
## [1] 1.140175
Se em vez de uma amostra tivéssemos várias, provenientes de uma mesma população, obteríamos diversas estimativas da média, e provavelmente distintas umas das outras.
A partir dessas diversas estimativas da média, poderíamos estimar uma variância, considerandos-e os desvios de cada média individual, em relação à média de todas elas. Seria então uma estimativa da variância das médias.
Entretanto, demonstra-se que a partir de uma única amostra, podemos estimar essa variância, através da fórmula:
\[ Var(\bar{X}) = \hat{V}(\hat{m}) = \frac{s^2}{n} \] onde \(s^2\) é a estimativa da variância dos \(n\) dados, calculada de maneira usual
A sua raiz quadrada é denominada Erro Padrão da Média, ou seja:
\[ s(\hat{m}) = \frac{s}{\sqrt{n}} \]
O erro padrão da média fornece uma idéia da precisão da estimativa da média, isto é quanto menor ele for, maior precisão terá a estimativa da média.
Assim para os dados de altura de plantas daninhas temos:
exemplo
\[ s(\hat{m}) = \frac{s}{\sqrt{n}} = \frac{1,140175}{\sqrt{5}} = 0,599\;cm \]
# Erro padrão da média
sd(X)/sqrt(n)
## [1] 0.509902
Sempre que apresentarmos uma média, é conveniente apresentar também o seu erro padrão. Assim, no exemplo poderíamos apresentar a média e o seu erro padrão, da seguinte maneira:
\[ 3,4 \pm 0,599\;cm \]
Quanto menor o valor do erro padrão da média, mais precisa foi a estimativa da média.
É uma medida de dispersão que expressa percentualmente o desvio padrão por unidade de média, ou seja:
\[ CV = \frac{100 \cdot s}{\hat{m}} \]
Como \(s\) e \(\hat{m}\) são expressos na mesma unidade dos dados, o coeficiente de variação é um número abstrato, isto é, não tem unidade e portanto é expresso em porcentagem da média.
Nos ensaios agrícolas de campo, esperam-se coeficientes de variação da ordem de 10 a 20%. Porém em ensaios de levantamento de pragas, normalmente os coeficientes de variação são maiores que 30%.
No exemplo de altura de plantas daninhas, temos:
exemplo
\[
CV = \frac{100 \cdot s}{\hat{m}} = \frac{100 \cdot 1,140175}{3,4} = 33,53\%
\]
# Coeficiente de Variação
100*sd(X)/mean(X)
## [1] 33.53457