7 Análise de Regressão
Introdução
Nos experimentos em que os tratamentos são quantitativos, como por exemplo, níveis crescentes de um adubo, doses crescentes de um inseticida, etc, muitas vezes existe uma correspondência funcional, denominada equação de regressão, que relaciona os valores dos tratamentos (\(X\)) com os dados analisados (\(Y\)).
Por exemplo, essa dependência pode ser notada no caso seguinte, onde X representa as doses de um adubo (\(kg/ha\)) e y a produção de milho (\(kg/ha\)).
X | 0 | 25 | 50 | 75 | 100 |
---|---|---|---|---|---|
Y | 2100 | 2600 | 3000 | 3550 | 4150 |
Vamos utilizar o R para representação gráfica dos dados:
# Criando as variáveis X e Y
<- seq(0,100,25)
X<-c(2100,2600,3000,3550,4150)
Y
# Construindo o gráfico
plot(X,Y,las=1,pch=15,col="red",cex=1.3,
xlab="Doses do adubo (kg/ha)",
ylab="Produção do milho (kg/ha)",
cex.lab=1.2)
# Análise de regressão linear
<-lm(Y~X)
regsummary.lm(reg)
##
## Call:
## lm(formula = Y ~ X)
##
## Residuals:
## 1 2 3 4 5
## 30 25 -80 -35 60
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2070.0000 50.4975 40.99 3.19e-05 ***
## X 20.2000 0.8246 24.50 0.000149 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 65.19 on 3 degrees of freedom
## Multiple R-squared: 0.995, Adjusted R-squared: 0.9934
## F-statistic: 600.1 on 1 and 3 DF, p-value: 0.0001491
# Adicionando a reta de regressão ao gráfico
abline(reg,col="blue",lwd=2,lty=2)
# adicionando o valore de Rquadrado e da equação ao gráfico
text(20,3000,"R² = 0,995",font=4)
text(20,3250,"Y = 2070 + 20,2X",font=4)
Verificamos, portanto, que há uma tendência de aumento na produção à medida que aumentamos a quantidade de adubo aplicada.
Vejamos então, como fazer a análise de variância para o estudo da regressão.
Obtenção da análise de variância, estudando-se os efeitos da regressão
Para estudo da regressão, vamos utilizar os dados do trabalho: “Efeito de doses de gesso na cultura do feijoeiro (Phaseolu vulgaris L.),” realizado por RAGAZZI (1979). Neste trabalho foram utilizadas 7 doses de gesso 0, 50, 100, 150, 200, 250, e 300 \(kg\;ha^{-1}\). Os resultados obtidos para peso de 1000 sementes, em gramas, são apresentados a seguir:
Tratamentos | Rep. 1 | Rep. 2 | Rep. 3 | Rep. 4 | Totais |
---|---|---|---|---|---|
0 | 134,8 | 139,7 | 147,6 | 132,3 | 554,4 |
50 | 161,7 | 157,7 | 150,3 | 144,7 | 614,4 |
100 | 160,7 | 172,7 | 163,4 | 161,3 | 658,1 |
150 | 169,8 | 168,2 | 160,7 | 161,0 | 659,7 |
200 | 165,7 | 160,0 | 158,2 | 151,0 | 634,9 |
250 | 171,8 | 157,3 | 150,4 | 160,4 | 639,9 |
300 | 154,5 | 160,4 | 148,8 | 154,0 | 617,7 |
Totais | 4379,1 |
Os dados podem ser encontrados online em feijaoREG.txt
A análise de variância preliminar será realizada de acordo com o delineamento experimental utilizado. O Ensaio foi montado de acordo com o delineamento inteiramente casualizado, e portanto, a análise de variância preliminar, obtido de maneira usual,
Quadro de análise de variância preliminar:
Causas de Variação | GL | SQ | QM | F |
---|---|---|---|---|
Tratamentos | 6 | 1941,83 | 323,64 | 7,67** |
Resíduo | 21 | 886,34 | 42,21 | – |
Total | 27 | 2828,17 | – | – |
Conclusão: O teste F foi significativo ao nível de \(1\%\) de probabilidade, logo, rejeitamos a hipótese da nulidade (\(H_0\)), e concluímos que as doses de gesso aplicadas possuem efeitos diferentes sobre o peso de 1000 sementes.
No entanto, um caso como este, em que os tratamentos são quantitativos, e em mais de 2 níveis, uma análise mais detalhada deve levar em conta a regressão, desdobrando-se os 6 graus de liberdade de tratamentos em:
Regressão Linear……..1 GL
Regressão Quadrática..1 GL
Regressão Cúbica……..1 GL
Regressão de 4º grau…1 GL
Regressão de 5º grau…1 GL
Regressão de 6º grau…1 GL
—————————————
(Tratamentos)…………(6) GL
Porém, as regressões de grau maior que 3º não tem interesse prático, de modo que, na análise de variância, podemos considerar as regressões de graus maior que o 3º como uma única causa de variação, que denominamos de Desvios da Regressão. Assim, no nosso exemplo, temos:
Causas de Variação | GL |
---|---|
Regressão Linear | 1 |
Regressão Quadrática | 1 |
Regressão Cúbica | 1 |
Desvios da Regressão | 3 |
(Tratamentos) | (6) |
Resíduo | 21 |
Total | 27 |
Esta decomposição pode ser feita pelo método dos polinômios ortogonais, e é de fácil aplicação quando as quantidades que determinam os tratamentos são igualmente espaçadas (equidistantes), o que ocorre no caso em estudo (0, 50, 100, 150, 20, 250, 300). Neste caso, os coeficientes dos polinômios ortogonais são obtidos em tabelas, como a seguintes:
CONCLUSÃO:
Os testes F para a regressão linear e regressão quadrática foram significativos ao nível de \(1\%\) de probabilidade, indicando que é possível estabelecer uma relação funcional entre a dose de gesso (\(X\)) e o peso de 1000 sementes do feijoeiro (\(Y\)).
A equação de regressão que melhor se ajusta aos dados é a correspondente à REGRESSÃO DE MAIS ALTO GRAU cujo teste F foi significativo.
Assim, sendo, no nosso exemplo, a equação que melhor se ajusta é a de 2º grau (Quadrática).
Quando o teste F para Desvios da Regressão for significativo, isto indica que existe alguma regressão significativa de grau maior que o 3º e, se tivermos interesse em estudá-la, devemos desdobrar os graus de liberdade de Desvio da Regressão.
Gráfico da Regressão Ajustada
Podemos fazer uma verificação do ajuste da equação de regressão, calculando os valores esperados de (\(\hat{Y}_i\)) por meio da equação de regressão ajustada, e os valores observados (\(\bar{Y}_{i\;Obs}\)) por meio das médias dos tratamentos.
Devemos verificar que \(\sum_{i=1}^I\bar{Y}_{i~Obs}=\sum_{i=1}^I\hat{Y}_{i}\). estes valores podem também ser utilizados para a construção do gráfico de regressão ajustada.
No nosso exemplo, temos:
Dose de Gesso (X) | \(\bar{Y}_{i~Obs}\) | \(\hat{Y}_i\) |
---|---|---|
0 | 138,60 | 140,78 |
50 | 153,60 | 152,51 |
100 | 164,53 | 160,32 |
150 | 164,93 | 164,22 |
200 | 158,73 | 164,20 |
250 | 159,98 | 160,27 |
300 | 154,43 | 152,42 |
Total | 1094,80 | 1094,72 |
Aplicação em R - Análise de Regressão
require(ExpDes.pt)
<-"https://raw.githubusercontent.com/arpanosso/curso_GIEU/master/dados/feijaoREG.txt"
caminho
<-read.table(caminho,h=T)
dados<- dados$trat
doses <-dados$y
y
# Construindo o gráfico
plot(doses,y, pch=21,bg="gray",cex=1.4,las=1,
xlab = "Dose de Gesso (kg/ha)",
ylab = "Ppeso de 1000 sementes (g)")
# Análise de Variância
dic(doses, y, quali = FALSE)
## ------------------------------------------------------------------------
## Quadro da analise de variancia
## ------------------------------------------------------------------------
## GL SQ QM Fc Pr>Fc
## Tratamento 6 1941.83 323.64 7.668 0.00018763
## Residuo 21 886.34 42.21
## Total 27 2828.17 365.85
## ------------------------------------------------------------------------
## CV = 4.15 %
##
## ------------------------------------------------------------------------
## Teste de normalidade dos residuos
## Valor-p: 0.5471519
## De acordo com o teste de Shapiro-Wilk a 5% de significancia, os residuos podem ser considerados normais.
## ------------------------------------------------------------------------
##
## ------------------------------------------------------------------------
## Teste de homogeneidade de variancia
## valor-p: 0.3337639
## De acordo com o teste de bartlett a 5% de significancia, as variancias podem ser consideradas homogeneas.
## ------------------------------------------------------------------------
##
## Ajuste de modelos polinomiais de regressao
## ------------------------------------------------------------------------
##
## Modelo Linear
## =========================================
## Estimativa Erro.padrao tc valor.p
## -----------------------------------------
## b0 150.5652 2.2134 68.0255 0
## b1 0.0389 0.0123 3.1664 0.0046
## -----------------------------------------
##
## R2 do modelo linear
## --------
## 0.217915
## --------
##
## Analise de variancia do modelo linear
## =========================================================
## GL SQ QM Fc valor.p
## ---------------------------------------------------------
## Efeito linear 1 423.1544 423.1544 10.03 0.00465
## Desvios de Regressao 5 1,518.6780 303.7356 7.2 0.00046
## Residuos 21 886.3375 42.2066
## ---------------------------------------------------------
## ------------------------------------------------------------------------
##
## Modelo quadratico
## =========================================
## Estimativa Erro.padrao tc valor.p
## -----------------------------------------
## b0 140.7839 2.8354 49.6527 0
## b1 0.2736 0.0443 6.1812 0
## b2 -0.0008 0.0001 -5.5196 0.00002
## -----------------------------------------
##
## R2 do modelo quadratico
## --------
## 0.880095
## --------
##
## Analise de variancia do modelo quadratico
## ===========================================================
## GL SQ QM Fc valor.p
## -----------------------------------------------------------
## Efeito linear 1 423.1544 423.1544 10.03 0.00465
## Efeito quadratico 1 1,285.8430 1,285.8430 30.47 2e-05
## Desvios de Regressao 4 232.8346 58.2087 1.38 0.27505
## Residuos 21 886.3375 42.2066
## -----------------------------------------------------------
## ------------------------------------------------------------------------
##
## Modelo cubico
## =========================================
## Estimativa Erro.padrao tc valor.p
## -----------------------------------------
## b0 138.2423 3.1302 44.1645 0
## b1 0.4431 0.0989 4.4812 0.0002
## b2 -0.0023 0.0008 -2.8551 0.0095
## b3 0.000003 0 1.9166 0.0690
## -----------------------------------------
##
## R2 do modelo cubico
## --------
## 0.959938
## --------
##
## Analise de variancia do modelo cubico
## ===========================================================
## GL SQ QM Fc valor.p
## -----------------------------------------------------------
## Efeito linear 1 423.1544 423.1544 10.03 0.00465
## Efeito quadratico 1 1,285.8430 1,285.8430 30.47 2e-05
## Efeito cubico 1 155.0417 155.0417 3.67 0.069
## Desvios de Regressao 3 77.7930 25.9310 0.61 0.61327
## Residuos 21 886.3375 42.2066
## -----------------------------------------------------------
## ------------------------------------------------------------------------
# Construção do gráfico
<- seq(0,300,50)
X <- tapply(y, doses, mean)
Y plot(X,Y,las=1,pch=15,col="red",cex=1.3,
xlab="Doses de Gesso (kg/ha)",
ylab="Peso de 1000 sementes (g)",
cex.lab=1.2)
curve(140.7839+0.2736*x-0.0008*x^2,add=TRUE,
col="blue",lwd=2,lty=2)
text(150,145,"R² = 0,88",font=4)
text(150,147,"Y = 140.7839+0.2736X-0.0008X²",font=4)
Gráfico 1. relação entre o Peso de 1000 sementes e a dose de gesso aplicada.