7 Análise de Regressão

Introdução

Nos experimentos em que os tratamentos são quantitativos, como por exemplo, níveis crescentes de um adubo, doses crescentes de um inseticida, etc, muitas vezes existe uma correspondência funcional, denominada equação de regressão, que relaciona os valores dos tratamentos (\(X\)) com os dados analisados (\(Y\)).

Por exemplo, essa dependência pode ser notada no caso seguinte, onde X representa as doses de um adubo (\(kg/ha\)) e y a produção de milho (\(kg/ha\)).

X 0 25 50 75 100
Y 2100 2600 3000 3550 4150

Vamos utilizar o R para representação gráfica dos dados:

# Criando as variáveis X e Y
X<- seq(0,100,25)
Y<-c(2100,2600,3000,3550,4150)

# Construindo o gráfico
plot(X,Y,las=1,pch=15,col="red",cex=1.3,
     xlab="Doses do adubo (kg/ha)",
     ylab="Produção do milho (kg/ha)",
     cex.lab=1.2)

# Análise de regressão linear
reg<-lm(Y~X)
summary.lm(reg)
## 
## Call:
## lm(formula = Y ~ X)
## 
## Residuals:
##   1   2   3   4   5 
##  30  25 -80 -35  60 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2070.0000    50.4975   40.99 3.19e-05 ***
## X             20.2000     0.8246   24.50 0.000149 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 65.19 on 3 degrees of freedom
## Multiple R-squared:  0.995,  Adjusted R-squared:  0.9934 
## F-statistic: 600.1 on 1 and 3 DF,  p-value: 0.0001491
# Adicionando a reta de regressão ao gráfico
abline(reg,col="blue",lwd=2,lty=2)

# adicionando o valore de Rquadrado e da equação ao gráfico
text(20,3000,"R² = 0,995",font=4)
text(20,3250,"Y = 2070 + 20,2X",font=4)

Verificamos, portanto, que há uma tendência de aumento na produção à medida que aumentamos a quantidade de adubo aplicada.

Vejamos então, como fazer a análise de variância para o estudo da regressão.

Obtenção da análise de variância, estudando-se os efeitos da regressão

Para estudo da regressão, vamos utilizar os dados do trabalho: “Efeito de doses de gesso na cultura do feijoeiro (Phaseolu vulgaris L.),” realizado por RAGAZZI (1979). Neste trabalho foram utilizadas 7 doses de gesso 0, 50, 100, 150, 200, 250, e 300 \(kg\;ha^{-1}\). Os resultados obtidos para peso de 1000 sementes, em gramas, são apresentados a seguir:

Tratamentos Rep. 1 Rep. 2 Rep. 3 Rep. 4 Totais
0 134,8 139,7 147,6 132,3 554,4
50 161,7 157,7 150,3 144,7 614,4
100 160,7 172,7 163,4 161,3 658,1
150 169,8 168,2 160,7 161,0 659,7
200 165,7 160,0 158,2 151,0 634,9
250 171,8 157,3 150,4 160,4 639,9
300 154,5 160,4 148,8 154,0 617,7
Totais 4379,1

Os dados podem ser encontrados online em feijaoREG.txt

A análise de variância preliminar será realizada de acordo com o delineamento experimental utilizado. O Ensaio foi montado de acordo com o delineamento inteiramente casualizado, e portanto, a análise de variância preliminar, obtido de maneira usual,

Quadro de análise de variância preliminar:

Causas de Variação GL SQ QM F
Tratamentos 6 1941,83 323,64 7,67**
Resíduo 21 886,34 42,21
Total 27 2828,17

Conclusão: O teste F foi significativo ao nível de \(1\%\) de probabilidade, logo, rejeitamos a hipótese da nulidade (\(H_0\)), e concluímos que as doses de gesso aplicadas possuem efeitos diferentes sobre o peso de 1000 sementes.

No entanto, um caso como este, em que os tratamentos são quantitativos, e em mais de 2 níveis, uma análise mais detalhada deve levar em conta a regressão, desdobrando-se os 6 graus de liberdade de tratamentos em:

Regressão Linear……..1 GL
Regressão Quadrática..1 GL
Regressão Cúbica……..1 GL
Regressão de 4º grau…1 GL
Regressão de 5º grau…1 GL
Regressão de 6º grau…1 GL
—————————————
(Tratamentos)…………(6) GL

Porém, as regressões de grau maior que 3º não tem interesse prático, de modo que, na análise de variância, podemos considerar as regressões de graus maior que o 3º como uma única causa de variação, que denominamos de Desvios da Regressão. Assim, no nosso exemplo, temos:

Causas de Variação GL
Regressão Linear 1
Regressão Quadrática 1
Regressão Cúbica 1
Desvios da Regressão 3
(Tratamentos) (6)
Resíduo 21
Total 27

Esta decomposição pode ser feita pelo método dos polinômios ortogonais, e é de fácil aplicação quando as quantidades que determinam os tratamentos são igualmente espaçadas (equidistantes), o que ocorre no caso em estudo (0, 50, 100, 150, 20, 250, 300). Neste caso, os coeficientes dos polinômios ortogonais são obtidos em tabelas, como a seguintes:

CONCLUSÃO:
Os testes F para a regressão linear e regressão quadrática foram significativos ao nível de \(1\%\) de probabilidade, indicando que é possível estabelecer uma relação funcional entre a dose de gesso (\(X\)) e o peso de 1000 sementes do feijoeiro (\(Y\)).

A equação de regressão que melhor se ajusta aos dados é a correspondente à REGRESSÃO DE MAIS ALTO GRAU cujo teste F foi significativo.

Assim, sendo, no nosso exemplo, a equação que melhor se ajusta é a de 2º grau (Quadrática).

Quando o teste F para Desvios da Regressão for significativo, isto indica que existe alguma regressão significativa de grau maior que o 3º e, se tivermos interesse em estudá-la, devemos desdobrar os graus de liberdade de Desvio da Regressão.

Gráfico da Regressão Ajustada

Podemos fazer uma verificação do ajuste da equação de regressão, calculando os valores esperados de (\(\hat{Y}_i\)) por meio da equação de regressão ajustada, e os valores observados (\(\bar{Y}_{i\;Obs}\)) por meio das médias dos tratamentos.

Devemos verificar que \(\sum_{i=1}^I\bar{Y}_{i~Obs}=\sum_{i=1}^I\hat{Y}_{i}\). estes valores podem também ser utilizados para a construção do gráfico de regressão ajustada.

No nosso exemplo, temos:

Dose de Gesso (X) \(\bar{Y}_{i~Obs}\) \(\hat{Y}_i\)
0 138,60 140,78
50 153,60 152,51
100 164,53 160,32
150 164,93 164,22
200 158,73 164,20
250 159,98 160,27
300 154,43 152,42
Total 1094,80 1094,72

Aplicação em R - Análise de Regressão

require(ExpDes.pt)
caminho<-"https://raw.githubusercontent.com/arpanosso/curso_GIEU/master/dados/feijaoREG.txt"

dados<-read.table(caminho,h=T)
doses <- dados$trat
y<-dados$y

# Construindo o gráfico
plot(doses,y, pch=21,bg="gray",cex=1.4,las=1,
     xlab = "Dose de Gesso (kg/ha)",
     ylab = "Ppeso de 1000 sementes (g)")

# Análise de Variância
dic(doses, y, quali = FALSE)
## ------------------------------------------------------------------------
## Quadro da analise de variancia
## ------------------------------------------------------------------------
##            GL      SQ     QM    Fc      Pr>Fc
## Tratamento  6 1941.83 323.64 7.668 0.00018763
## Residuo    21  886.34  42.21                 
## Total      27 2828.17 365.85                 
## ------------------------------------------------------------------------
## CV = 4.15 %
## 
## ------------------------------------------------------------------------
## Teste de normalidade dos residuos 
## Valor-p:  0.5471519 
## De acordo com o teste de Shapiro-Wilk a 5% de significancia, os residuos podem ser considerados normais.
## ------------------------------------------------------------------------
## 
## ------------------------------------------------------------------------
## Teste de homogeneidade de variancia 
## valor-p:  0.3337639 
## De acordo com o teste de bartlett a 5% de significancia, as variancias podem ser consideradas homogeneas.
## ------------------------------------------------------------------------
## 
## Ajuste de modelos polinomiais de regressao
## ------------------------------------------------------------------------
## 
## Modelo Linear
## =========================================
##    Estimativa Erro.padrao   tc    valor.p
## -----------------------------------------
## b0  150.5652    2.2134    68.0255    0   
## b1   0.0389     0.0123    3.1664  0.0046 
## -----------------------------------------
## 
## R2 do modelo linear
## --------
## 0.217915
## --------
## 
## Analise de variancia do modelo linear
## =========================================================
##                      GL     SQ        QM     Fc   valor.p
## ---------------------------------------------------------
## Efeito linear        1   423.1544  423.1544 10.03 0.00465
## Desvios de Regressao 5  1,518.6780 303.7356  7.2  0.00046
## Residuos             21  886.3375  42.2066               
## ---------------------------------------------------------
## ------------------------------------------------------------------------
## 
## Modelo quadratico
## =========================================
##    Estimativa Erro.padrao   tc    valor.p
## -----------------------------------------
## b0  140.7839    2.8354    49.6527    0   
## b1   0.2736     0.0443    6.1812     0   
## b2  -0.0008     0.0001    -5.5196 0.00002
## -----------------------------------------
## 
## R2 do modelo quadratico
## --------
## 0.880095
## --------
## 
## Analise de variancia do modelo quadratico
## ===========================================================
##                      GL     SQ         QM      Fc   valor.p
## -----------------------------------------------------------
## Efeito linear        1   423.1544   423.1544  10.03 0.00465
## Efeito quadratico    1  1,285.8430 1,285.8430 30.47  2e-05 
## Desvios de Regressao 4   232.8346   58.2087   1.38  0.27505
## Residuos             21  886.3375   42.2066                
## -----------------------------------------------------------
## ------------------------------------------------------------------------
## 
## Modelo cubico
## =========================================
##    Estimativa Erro.padrao   tc    valor.p
## -----------------------------------------
## b0  138.2423    3.1302    44.1645    0   
## b1   0.4431     0.0989    4.4812  0.0002 
## b2  -0.0023     0.0008    -2.8551 0.0095 
## b3  0.000003       0      1.9166  0.0690 
## -----------------------------------------
## 
## R2 do modelo cubico
## --------
## 0.959938
## --------
## 
## Analise de variancia do modelo cubico
## ===========================================================
##                      GL     SQ         QM      Fc   valor.p
## -----------------------------------------------------------
## Efeito linear        1   423.1544   423.1544  10.03 0.00465
## Efeito quadratico    1  1,285.8430 1,285.8430 30.47  2e-05 
## Efeito cubico        1   155.0417   155.0417  3.67   0.069 
## Desvios de Regressao 3   77.7930    25.9310   0.61  0.61327
## Residuos             21  886.3375   42.2066                
## -----------------------------------------------------------
## ------------------------------------------------------------------------
# Construção do gráfico
X <- seq(0,300,50)
Y <- tapply(y, doses, mean)
plot(X,Y,las=1,pch=15,col="red",cex=1.3,
     xlab="Doses de Gesso (kg/ha)",
     ylab="Peso de 1000 sementes (g)",
     cex.lab=1.2)
curve(140.7839+0.2736*x-0.0008*x^2,add=TRUE,
      col="blue",lwd=2,lty=2)

text(150,145,"R² = 0,88",font=4)
text(150,147,"Y = 140.7839+0.2736X-0.0008X²",font=4)

Gráfico 1. relação entre o Peso de 1000 sementes e a dose de gesso aplicada.