1 Wczytanie i przygotowanie danych

1.1 Wczytanie zbioru danych z pliku płaskiego

autodane<-read.table("/usr/miswdm/autodane.csv", header = TRUE, sep = ",", dec = ".")

1.2 Zmienne pomocnicze

p<-2                # liczba predyktorów
no<-nrow(autodane)
indices<-seq(no)
df<-no-p-1          # liczba stopni swobody

1.3 Zmienne egzogeniczne

wiek<-autodane$Wiek
przebieg<-autodane$Przebieg

1.4 Zmienna endogeniczna

cena<-autodane$Cena

1.5 Nowa obserwacja

Do prognozowania ceny.

new.car<-data.frame(wiek=4, przebieg=145)

2 Obliczanie kowariancji

Kowariancja – miara wielkości zależności liniowej pomiędzy zmiennymi losowymi: \(\begin{aligned} Cov(X, Y)=\mathbb{E}[(X-\mathbb{E}[X])\cdot(Y-\mathbb{E}[Y])]=\mathbb{E}[XY]-\mathbb{E}[X]\cdot\mathbb{E}[Y] \end{aligned}\)

2.1 Wariancja wieku

\(\begin{aligned} Var(X)=\mathbb{E}[(X-\mathbb{E}[X])^2]=\mathbb{E}[X^2]-{\mathbb{E}[X]}^2 \end{aligned}\)

Zgodny, nieobciążony estymator z próbki:
\(\begin{aligned} Var(X)=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2 \end{aligned}\)

wiek.mean<-sum(wiek)/no
wiek.diff<-wiek-wiek.mean
wiek.diff.power<-wiek.diff^2
var.wiek<-sum(wiek.diff.power)/(no-1)
[1] 7.066667

2.2 Wariancja przebiegu

Zgodny, nieobciążony estymator z próbki.

przebieg.mean<-sum(przebieg)/no
przebieg.diff<-przebieg-przebieg.mean
przebieg.diff.power<-przebieg.diff^2
var.przebieg<-sum(przebieg.diff.power)/(no-1)
[1] 2540

2.3 Kowariancja zmiennych egzogenicznych

Zgodny, nieobciążony estymator z próbki:
\(\begin{aligned} Cov(X, Y)=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})\cdot(y_i-\bar{y}) \end{aligned}\)

x.mult<-wiek.diff*przebieg.diff
cov.x<-sum(x.mult)/(no-1)
[1] 119.8889

Obliczenia pomocnicze.

cena.mean<-sum(cena)/no
cena.diff<-cena-cena.mean
wiek.cena.mult<-wiek.diff*cena.diff
przebieg.cena.mult<-przebieg.diff*cena.diff

Kowariancja wieku i ceny.

cov.wiek.cena<-sum(wiek.cena.mult)/(no-1)
[1] -24.66667

Kowariancja przebiegu i ceny.

cov.przebieg.cena<-sum(przebieg.cena.mult)/(no-1)
[1] -432.7778

3 Wyznaczanie wartości współczynników modelu

3.1 Macierz kowariancji zmiennych niezależnych

A<-matrix(c(var.wiek, cov.x, cov.x, var.przebieg), nrow=p)
dimnames(A)<-list(c('wiek', 'przebieg'), c('wiek', 'przebieg'))

Alternatywnie.

A<-cov(cbind(wiek, przebieg))
               wiek  przebieg
wiek       7.066667  119.8889
przebieg 119.888889 2540.0000

3.2 Wektor kowariancji wartości zmiennych niezależnych i zmiennych zależnych (obserwacji)

B<-c(cov.wiek.cena, cov.przebieg.cena)

Alternatywnie.

B<-cov(cbind(wiek, przebieg), cena)
[1]  -24.66667 -432.77778

3.3 Układ równań liniowych

7.0666667 * B1 + 119.8888889 * B2 = -24.6666667
119.8888889 * B1 + 2540 * B2 = -432.7777778

Rozwiązanie układu.

coef<-solve(A, B)
B1<-coef[1]; B2<-coef[2]
[1] "-3.01122024477396; -0.0282543025323229"

3.4 Wartość wyrazu wolnego B0

Obliczenia pomocnicze.

aux<-B1*wiek+B2*przebieg
aux.numerator<-cena-aux

Wartość wyrazu wolnego B0.

B0<-sum(aux.numerator)/no

Alternatywnie

B0<-mean(cena-as.matrix(cbind(wiek, przebieg)) %*% coef)
[1] 46.9232

4 Model regresji liniowej

4.1 Funkcja prognozy wartości zmiennej zależnej

est.fnc<-function(a, b) B0+B1*a+B2*b

Cena = 46.9232017 - 3.0112202 * Wiek - 0.0282543 * Przebieg

4.2 Prognozowana cena nowej obserwacji

result<-est.fnc(new.car$wiek, new.car$przebieg)[[1]]
[1] 30.78145

4.3 Wariancja resztowa

Obliczenia pomocnicze.

cena.est<-est.fnc(wiek, przebieg)
cena.est.diff<-cena-cena.est
cena.est.diff.power<-cena.est.diff^2

Suma kwadratów resztowych (suma kwadratów błędów).

RSS<-sum(cena.est.diff.power)
[1] 93.4586

Nieobciążony estymator wariancji błędu obserwacji \(\sigma^2\):
\(\begin{aligned} S^2=\frac{\sum_{i=1}^n(y_i-\hat{y_i})^2}{df}=\frac{\sum_{i=1}^n(y_i-\hat{y_i})^2}{n-k}=\frac{RSS}{n-p-1}={RSE}^2 \end{aligned}\)
\(df\) - liczba stopni swobody
\(n\) - liczba obserwacji
\(k\) - liczba estymowanych parametrów; \(k=p+1\)

S2<-RSS/df
[1] 13.35123

5 Dopasowanie modelu

5.1 Współczynnik R2

Całkowita suma kwadratów.

cena.diff.power<-cena.diff^2
TSS<-sum(cena.diff.power)
[1] 872

\(\begin{aligned} R^2=\frac{Regresyjna\ suma\ kwadratów}{Całkowita\ suma\ kwadratów} \end{aligned}\)

R2<-(TSS-RSS)/TSS
[1] 0.8928227

5.2 Współczynnik R2 dopasowany

R2.adj<-1-(1-R2)*(no-1)/df
[1] 0.8622006

5.3 Statystyka F

F<-df*(TSS-RSS)/(p*RSS)
F.pValue<-pf(F, p, df, lower.tail=FALSE)
[1] 0.0004030507

5.4 Test t-Studenta

5.4.1 Macierz zmiennych niezależnych

Pierwszą kolumną jest wartość 1 dla wyznaczenia wartości błędu parametru wyrazu wolnego.

X<-as.matrix(cbind(rep(1, no), wiek, przebieg))

5.4.2 Estymator macierzy kowariancji estymatora metody najmniejszych kwadratów

Macierz kowariancji parametrów modelu.

Sigma<-S2*solve(t(X)%*%X)  #to samo co Sigma<-S2*solve(t(X)%*%X, diag(2))
colnames(Sigma)[1]<-rownames(Sigma)[1]<-'Intercept'

5.4.3 Błędy współczynników

Błąd współczynnika B0.

B0.err<-sqrt(diag(Sigma)['Intercept'])  # to samo co B0.err<-sqrt(Sigma[1,1])
Intercept 
 2.962759 

Błąd współczynnika B1.

B1.err<-sqrt(diag(Sigma)['wiek'])       # to samo co B1.err<-sqrt(Sigma[2,2])
    wiek 
1.026498 

Błąd współczynnika B2.

B2.err<-sqrt(diag(Sigma)['przebieg'])   # to samo co B2.err<-sqrt(Sigma[3,3])
  przebieg 
0.05414379 

5.4.4 Wartości statystyki t

Dla współczynników B0, B1, B2.

B0.t<-B0/B0.err
B1.t<-B1/B1.err
B2.t<-B2/B2.err
[1] "Intercept: 15.8376706620683; wiek: -2.93348798741743; przebieg: -0.521838285707935"

H0: nie ma zależności pomiędzy predyktorem a zmienną objaśnianą; Bi = 0.
Przyjęty poziom istotności: 5%.

alpha<-1-.05/2                          # test obustronny
tValue<-qt(alpha, df, lower.tail=TRUE)  # kwatyl rozkładu t-Studenta

Moduł wartości brzegowej obszaru krytycznego wynosi zatem:

[1] 2.364624

p-wartości

Współczynnik W obszarze krytycznym 5%? p-wartość
B0 Intercept TRUE Pr(>|15.84|)=9.7e-07
B1 wiek TRUE Pr(>|-2.933|)=0.0219
B2 cena FALSE Pr(>|-0.5218|)=0.618

5.5 Przedziały ufności współczynników modelu

Poziom ufności ciągle 95%.

tValues<-qt(c(1-alpha, alpha), df)
B0.conf<-B0+B0.err*tValues
B1.conf<-B1+B1.err*tValues
B2.conf<-B2+B2.err*tValues
Intercept: [39.917389890249; 53.929013589753]
wiek: [-5.43850286812919; -0.583937621418716]
przebieg: [-0.156284021335215; 0.099775416270569]

5.6 Przedział ufności wyestymowanych wartości modelu

Poziom istotności 5%

cena.est.conf<-data.frame(cena.est)
for (i in indices) {
  C<-c(1, wiek[i], przebieg[i])
  delta<-sqrt(drop(t(C)%*%Sigma%*%C))
  interval<-cena.est[i]+tValues*delta
  cena.est.conf$lwr[i]<-interval[1]
  cena.est.conf$upr[i]<-interval[2]
}

6 Prognoza punktowa i błąd ex-ante

6.1 Wariancja prognozy

\(\begin{aligned} S^2_\tau=S^2+S^2\cdot\left(\frac{1}{n}+\frac{(x_\tau-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)= \end{aligned}\\ \begin{aligned} =S^2\cdot\left(1+\frac{1}{n}+\frac{(x_\tau-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)= \end{aligned}\\ \begin{aligned} =S^2\cdot\left(1+\frac{\sum_{i=1}^nx_i^2+nx_\tau^2-2x_\tau\sum_{i=1}^nx_i}{n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2}\right) \end{aligned}\)
\(\hat{\Sigma}\) - estymator macierzy kowariancji estymatora metody najmniejszych kwadratów
\(C\) - wektor wartości nowej obserwacji (do kombinacji liniowej z modelem regresji)
Standardowy błąd obserwacji:
\(\begin{aligned} \delta_\tau=S\sqrt{\frac{1}{n}+\frac{(x_\tau-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}=\sqrt{C^T\hat{\Sigma}C}=\sqrt{\delta_\tau^2} \end{aligned}\)

C<-c(1, new.car$wiek, new.car$przebieg)
est.var<-drop(t(C)%*%Sigma%*%C)          # to samo co est.var<-drop(C%*%Sigma%*%C)
[1] 24.9955

6.2 Błąd ex-ante

Błąd prognozy punktowej:
\(\begin{aligned} S_\tau=\sqrt{S^2+\delta_\tau^2}=\sqrt{S^2+C^T\hat{\Sigma}C} \end{aligned}\)

exAnte<-sqrt(S2+est.var)
[1] 6.192473

6.3 Względny błąd ex-ante

Względny błąd prognozy punktowej:
\(\begin{aligned} \eta_\tau=\frac{S_\tau}{|\hat{y_\tau}|}\cdot100\% \end{aligned}\)

exAnte.rel<-exAnte/abs(est.fnc(C[2], C[3]))
     wiek 
0.2011755 

6.4 Przedział ufności prognozy

result.conf<-result+exAnte*tValues
[1] 16.13857 45.42432

7 Wykorzystanie pakietu stats

Funkcja lm z pakietu stats (będąca przeciążeniem funkcji glm z tego samego pakietu) pozwala na stworzenie modelu regresji liniowej z zastosowaniem formuł.

est<-lm(cena~wiek+przebieg)

Współczynniki modelu.

est$coefficients  #to samo co coefficients(est)
(Intercept)        wiek    przebieg 
 46.9232017  -3.0112202  -0.0282543 

Podsumowanie modelu.

summary(est)

Call:
lm(formula = cena ~ wiek + przebieg)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.0194 -0.9033 -0.1010  1.4341  6.1219 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 46.92320    2.96276  15.838  9.7e-07 ***
wiek        -3.01122    1.02650  -2.933   0.0219 *  
przebieg    -0.02825    0.05414  -0.522   0.6179    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.654 on 7 degrees of freedom
Multiple R-squared:  0.8928,    Adjusted R-squared:  0.8622 
F-statistic: 29.16 on 2 and 7 DF,  p-value: 0.0004031

Przedziały ufności współczynników modelu (ang. confidence intervals).

confint(est)
                2.5 %      97.5 %
(Intercept) 39.917390 53.92901359
wiek        -5.438503 -0.58393762
przebieg    -0.156284  0.09977542

Przedziały ufności wyestymowanych wartości modelu (ang. narrow intervals).

predict(est, interval="confidence", level=.95)
        fit       lwr      upr
1  11.72522  5.731752 17.71870
2  27.01935 22.767096 31.27161
3  19.44292 15.775111 23.11074
4  33.46561 30.008315 36.92290
5  18.59529 13.701139 23.48945
6  23.86686 18.207126 29.52659
7  29.04167 24.593028 33.49031
8  26.87808 23.092696 30.66346
9  36.47683 32.178454 40.77520
10 43.48817 37.490825 49.48551

Predykcja z zadanym poziomem tolerancji (ang. wide intervals).

pred<-predict(est, newdata=new.car, se.fit=TRUE, level=.95, interval="prediction")  # błąd.obserwacji=TRUE
$fit
       fit      lwr      upr
1 30.78145 16.13857 45.42432

$se.fit
[1] 4.99955

$df
[1] 7

$residual.scale
[1] 3.653933

Błąd ex-ante (wariancja modelu + wariancja obserwacji).

signif(sqrt(pred$residual.scale^2+pred$se.fit**2), 4)
[1] 6.192

8 Zmienne skorelowane

summary(lm(cena~wiek*przebieg))

Alternatywnie.

summary(lm(cena~wiek+przebieg+wiek:przebieg))

Call:
lm(formula = cena ~ wiek * przebieg)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.0207 -0.9115 -0.0935  1.4333  6.1194 

Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
(Intercept)   46.9001050  4.9745134   9.428  8.1e-05 ***
wiek          -3.0095093  1.1440731  -2.631    0.039 *  
przebieg      -0.0276481  0.1158114  -0.239    0.819    
wiek:przebieg -0.0000646  0.0106521  -0.006    0.995    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.947 on 6 degrees of freedom
Multiple R-squared:  0.8928,    Adjusted R-squared:  0.8392 
F-statistic: 16.66 on 3 and 6 DF,  p-value: 0.002582

9 Wizualizacja

library(scatterplot3d)
s3d<-scatterplot3d(x=wiek, y=przebieg, z=cena, angle=55, highlight.3d=T, scale.y=0.8)
s3d$plane3d(est)
residual3d<-function(x, y, z, residual){
  s3d$points3d(x=x, y=y, z=z-residual, type='p', lwd=1, pch=5, col=3)
  s3d$points3d(x=c(x, x), y=c(y, y), z=c(z-residual, z), type='l', lwd=1, col='dark green')
}
for (i in indices) {
  residual3d(wiek[i], przebieg[i], cena[i], est$residuals[i])
}
# Predykcja z zadanym poziomem tolerancji (ang. wide intervals).
s3d$points3d(x=new.car$wiek, y=new.car$przebieg, z=pred$fit[,'fit'], lwd=1, pch=21, bg=8, col=2)
s3d$points3d(x=rep(new.car$wiek, 2), y=rep(new.car$przebieg, 2), z=pred$fit[,2:3], lwd=1, type='l', col=2)

9.1 Przedziały ufności (osobny przykład)

x<-1:7
y<-c(8, 13, 14, 17, 18, 20, 22)
est<-lm(y~x)

Call:
lm(formula = y ~ x)

Residuals:
      1       2       3       4       5       6       7 
-1.5714  1.2857  0.1429  1.0000 -0.1429 -0.2857 -0.4286 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   7.4286     0.8806   8.436 0.000384 ***
x             2.1429     0.1969  10.882 0.000114 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.042 on 5 degrees of freedom
Multiple R-squared:  0.9595,    Adjusted R-squared:  0.9514 
F-statistic: 118.4 on 1 and 5 DF,  p-value: 0.0001138

Przedziały ufności.

confint(est)  # to samo co confint(est, level=.95))
               2.5 %   97.5 %
(Intercept) 5.164838 9.692304
x           1.636671 2.649043

t-statystyka, stopni swobody: 5.

res<-signif(residuals(est), 3)
pre<-predict(est, level=.99, interval="confidence")
plot(x, y)
abline(est)
segments(x, y, x, pre[,"fit"], col="red")
library(MASS)
library(calibrate)
textxy(x, y, res, cex=0.8)
# Przedziały ufności (ang. narrow intervals)
# 99%
lines(x, pre[,2], col=8)
lines(x, pre[,3], col=8)
# 95%
pre<-predict(est, level=0.95, interval="confidence")
lines(est$model[["x"]], pre[,2], col=5)
lines(est$model[["x"]], pre[,3], col=5)
# Predykcja z zadanym poziomem tolerancji (ang. wide intervals)
# 99%
result<-predict(est, newdata=data.frame(x=c(4.5)), level=.99, interval="prediction")
segments(4.5, result[,"lwr"], 4.5, result[,"upr"], col=8, lwd=5)
textxy(4.5, result[,"lwr"], round(result[,"lwr"], 2), cex=0.85, col=8)
textxy(4.5, result[,"upr"], round(result[,"upr"], 2), cex=0.85, col=8)
# 95%
result<-predict(est, newdata=data.frame(x=c(4.5)), level=.95, interval="prediction")
segments(4.5, result[,"lwr"], 4.5, result[,"upr"], col=5, lwd=2)
textxy(4.5, result[,"lwr"], round(result[,"lwr"], 2), cex=0.85, col=5)
textxy(4.5, result[,"upr"], round(result[,"upr"], 2), cex=0.85, col=5)
points(4.5, result[,"fit"], pch=23, col="darkgreen", bg="green")

---
title: "Linear Regression"
author: "Krzysztof Mierzejewski"
date: "01-04-2018"
output:
  html_notebook:
    self_contained: true
    code_folding: show
    df_print: paged
    number_sections: true
    toc: true
    toc_depth: 2
    toc_float:
      collapsed: true
      smooth_scroll: true
---
# Wczytanie i przygotowanie danych
## Wczytanie zbioru danych z pliku płaskiego
```{r}
autodane<-read.table("/usr/miswdm/autodane.csv", header = TRUE, sep = ",", dec = ".")
```
```{r echo=FALSE}
print(autodane)
```
## Zmienne pomocnicze
```{r}
p<-2                # liczba predyktorów
no<-nrow(autodane)
indices<-seq(no)
df<-no-p-1          # liczba stopni swobody
```
## Zmienne egzogeniczne
```{r}
wiek<-autodane$Wiek
przebieg<-autodane$Przebieg
```
## Zmienna endogeniczna
```{r}
cena<-autodane$Cena
```
## Nowa obserwacja
Do prognozowania ceny.
```{r}
new.car<-data.frame(wiek=4, przebieg=145)
```
# Obliczanie kowariancji
Kowariancja – miara wielkości zależności liniowej pomiędzy zmiennymi losowymi:
$\begin{aligned}
Cov(X, Y)=\mathbb{E}[(X-\mathbb{E}[X])\cdot(Y-\mathbb{E}[Y])]=\mathbb{E}[XY]-\mathbb{E}[X]\cdot\mathbb{E}[Y]
\end{aligned}$

## Wariancja wieku
$\begin{aligned}
Var(X)=\mathbb{E}[(X-\mathbb{E}[X])^2]=\mathbb{E}[X^2]-{\mathbb{E}[X]}^2
\end{aligned}$

Zgodny, nieobciążony estymator z próbki:  
$\begin{aligned}
Var(X)=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2
\end{aligned}$
```{r}
wiek.mean<-sum(wiek)/no
wiek.diff<-wiek-wiek.mean
wiek.diff.power<-wiek.diff^2
var.wiek<-sum(wiek.diff.power)/(no-1)
```
```{r echo=FALSE}
print(var.wiek)
```
## Wariancja przebiegu
Zgodny, nieobciążony estymator z próbki.
```{r}
przebieg.mean<-sum(przebieg)/no
przebieg.diff<-przebieg-przebieg.mean
przebieg.diff.power<-przebieg.diff^2
var.przebieg<-sum(przebieg.diff.power)/(no-1)
```
```{r echo=FALSE}
print(var.przebieg)
```
## Kowariancja zmiennych egzogenicznych
Zgodny, nieobciążony estymator z próbki:  
$\begin{aligned}
Cov(X, Y)=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})\cdot(y_i-\bar{y})
\end{aligned}$
```{r}
x.mult<-wiek.diff*przebieg.diff
cov.x<-sum(x.mult)/(no-1)
```
```{r echo=FALSE}
print(cov.x)
```
Obliczenia pomocnicze.
```{r}
cena.mean<-sum(cena)/no
cena.diff<-cena-cena.mean
wiek.cena.mult<-wiek.diff*cena.diff
przebieg.cena.mult<-przebieg.diff*cena.diff
```
Kowariancja wieku i ceny.
```{r}
cov.wiek.cena<-sum(wiek.cena.mult)/(no-1)
```
```{r echo=FALSE}
print(cov.wiek.cena)
```
Kowariancja przebiegu i ceny.
```{r}
cov.przebieg.cena<-sum(przebieg.cena.mult)/(no-1)
```
```{r echo=FALSE}
print(cov.przebieg.cena)
```
# Wyznaczanie wartości współczynników modelu
## Macierz kowariancji zmiennych niezależnych
```{r}
A<-matrix(c(var.wiek, cov.x, cov.x, var.przebieg), nrow=p)
dimnames(A)<-list(c('wiek', 'przebieg'), c('wiek', 'przebieg'))
```
Alternatywnie.
```{r eval=FALSE}
A<-cov(cbind(wiek, przebieg))
```
```{r echo=FALSE}
print(A)
```
## Wektor kowariancji wartości zmiennych niezależnych i zmiennych zależnych (obserwacji)
```{r}
B<-c(cov.wiek.cena, cov.przebieg.cena)
```
Alternatywnie.
```{r eval=FALSE}
B<-cov(cbind(wiek, przebieg), cena)
```
```{r echo=FALSE}
print(B)
```
## Układ równań liniowych
`r var.wiek` \* B~1~ + `r cov.x` \* B~2~ = `r cov.wiek.cena`  
`r cov.x` \* B~1~ + `r var.przebieg` \* B~2~ = `r cov.przebieg.cena`

Rozwiązanie układu.
```{r}
coef<-solve(A, B)
B1<-coef[1]; B2<-coef[2]
```
```{r echo=FALSE}
paste(B1, B2, sep = '; ')
```
## Wartość wyrazu wolnego B~0~
Obliczenia pomocnicze.
```{r}
aux<-B1*wiek+B2*przebieg
aux.numerator<-cena-aux
```
Wartość wyrazu wolnego B~0~.
```{r}
B0<-sum(aux.numerator)/no
```
Alternatywnie
```{r eval=FALSE}
B0<-mean(cena-as.matrix(cbind(wiek, przebieg)) %*% coef)
```
```{r echo=FALSE}
print(B0)
```
# Model regresji liniowej
## Funkcja prognozy wartości zmiennej zależnej
```{r}
est.fnc<-function(a, b) B0+B1*a+B2*b
```
Cena = `r B0` `r ifelse(B1 < 0, '-', '+')` `r abs(B1)` \* Wiek `r ifelse(B2 < 0, '-', '+')` `r abs(B2)` \* Przebieg

## Prognozowana cena nowej obserwacji
```{r}
result<-est.fnc(new.car$wiek, new.car$przebieg)[[1]]
```
```{r echo=FALSE}
print(result)
```
## Wariancja resztowa
Obliczenia pomocnicze.
```{r}
cena.est<-est.fnc(wiek, przebieg)
cena.est.diff<-cena-cena.est
cena.est.diff.power<-cena.est.diff^2
```
Suma kwadratów resztowych (suma kwadratów błędów).
```{r}
RSS<-sum(cena.est.diff.power)
```
```{r echo=FALSE}
print(RSS)
```
Nieobciążony estymator wariancji błędu obserwacji $\sigma^2$:  
$\begin{aligned}
S^2=\frac{\sum_{i=1}^n(y_i-\hat{y_i})^2}{df}=\frac{\sum_{i=1}^n(y_i-\hat{y_i})^2}{n-k}=\frac{RSS}{n-p-1}={RSE}^2
\end{aligned}$  
$df$ - liczba stopni swobody  
$n$ - liczba obserwacji  
$k$ - liczba estymowanych parametrów; $k=p+1$
```{r}
S2<-RSS/df
```
```{r echo=FALSE}
print(S2)
```
# Dopasowanie modelu
## Współczynnik R^2^
Całkowita suma kwadratów.
```{r}
cena.diff.power<-cena.diff^2
TSS<-sum(cena.diff.power)
```
```{r echo=FALSE}
print(TSS)
```
$\begin{aligned}
R^2=\frac{Regresyjna\ suma\ kwadratów}{Całkowita\ suma\ kwadratów}
\end{aligned}$
```{r}
R2<-(TSS-RSS)/TSS
```
```{r echo=FALSE}
print(R2)
```
## Współczynnik R^2^ dopasowany
```{r}
R2.adj<-1-(1-R2)*(no-1)/df
```
```{r echo=FALSE}
print(R2.adj)
```
## Statystyka F
```{r}
F<-df*(TSS-RSS)/(p*RSS)
F.pValue<-pf(F, p, df, lower.tail=FALSE)
```
```{r echo=FALSE}
print(F.pValue)
```
## Test t-Studenta
### Macierz zmiennych niezależnych
Pierwszą kolumną jest wartość `1` dla wyznaczenia wartości błędu parametru wyrazu wolnego.
```{r}
X<-as.matrix(cbind(rep(1, no), wiek, przebieg))
```
### Estymator macierzy kowariancji estymatora metody najmniejszych kwadratów
Macierz kowariancji parametrów modelu.
```{r}
Sigma<-S2*solve(t(X)%*%X)  #to samo co Sigma<-S2*solve(t(X)%*%X, diag(2))
colnames(Sigma)[1]<-rownames(Sigma)[1]<-'Intercept'
```
### Błędy współczynników
Błąd współczynnika B~0~.
```{r}
B0.err<-sqrt(diag(Sigma)['Intercept'])  # to samo co B0.err<-sqrt(Sigma[1,1])
```
```{r echo=FALSE}
print(B0.err)
```
Błąd współczynnika B~1~.
```{r}
B1.err<-sqrt(diag(Sigma)['wiek'])       # to samo co B1.err<-sqrt(Sigma[2,2])
```
```{r echo=FALSE}
print(B1.err)
```
Błąd współczynnika B~2~.
```{r}
B2.err<-sqrt(diag(Sigma)['przebieg'])   # to samo co B2.err<-sqrt(Sigma[3,3])
```
```{r echo=FALSE}
print(B2.err)
```
### Wartości statystyki **t**
Dla współczynników B~0~, B~1~, B~2~. 
```{r}
B0.t<-B0/B0.err
B1.t<-B1/B1.err
B2.t<-B2/B2.err
```
```{r echo=FALSE}
paste(c('Intercept', 'wiek', 'przebieg'), c(B0.t, B1.t, B2.t), sep = ': ', collapse = '; ')
```
**H~0~**: _nie ma zależności pomiędzy predyktorem a zmienną objaśnianą; B~i~ = 0_.  
Przyjęty poziom istotności: **5%**. 
```{r}
alpha<-1-.05/2                          # test obustronny
tValue<-qt(alpha, df, lower.tail=TRUE)  # kwatyl rozkładu t-Studenta
```
Moduł wartości brzegowej obszaru krytycznego wynosi zatem:
```{r echo=FALSE}
print(tValue)
```
**p-wartości**
```{r echo=FALSE}
B0.t.pr <- format(signif(2*pt(abs(B0.t), df, lower.tail=FALSE) ,3))
B1.t.pr <- format(signif(2*pt(abs(B1.t), df, lower.tail=FALSE) ,3))
B2.t.pr <- format(signif(2*pt(abs(B2.t), df, lower.tail=FALSE) ,3))
```
| Współczynnik   | W obszarze krytycznym 5%?  | p-wartość                                    |
| ---------------|:--------------------------:| --------------------------------------------:|
| B~0~ Intercept | `r abs(B0.t)>tValue`      | Pr(>\|`r signif(B0.t, 4)`\|)=**`r B0.t.pr`** |
| B~1~ wiek      | `r abs(B1.t)>tValue`      | Pr(>\|`r signif(B1.t, 4)`\|)=**`r B1.t.pr`** |
| B~2~ cena      | `r abs(B2.t)>tValue`      | Pr(>\|`r signif(B2.t, 4)`\|)=**`r B2.t.pr`** |
```{r}
```
## Przedziały ufności współczynników modelu
Poziom ufności ciągle **95%**.
```{r}
tValues<-qt(c(1-alpha, alpha), df)
B0.conf<-B0+B0.err*tValues
B1.conf<-B1+B1.err*tValues
B2.conf<-B2+B2.err*tValues
```
```{r echo=FALSE}
cat(paste(c('Intercept', 'wiek', 'przebieg'), c(paste('[', paste(B0.conf, collapse='; '), ']', sep=''), paste('[', paste(B1.conf, collapse='; '), ']', sep=''), paste('[', paste(B2.conf, collapse='; '), ']', sep='')), sep = ': ', collapse = '\n'))
```
## Przedział ufności wyestymowanych wartości modelu
Poziom istotności **5%**
```{r}
cena.est.conf<-data.frame(cena.est)
for (i in indices) {
  C<-c(1, wiek[i], przebieg[i])
  delta<-sqrt(drop(t(C)%*%Sigma%*%C))
  interval<-cena.est[i]+tValues*delta
  cena.est.conf$lwr[i]<-interval[1]
  cena.est.conf$upr[i]<-interval[2]
}
```
```{r echo=FALSE}
print(cena.est.conf)
```
# Prognoza punktowa i błąd ex-ante
## Wariancja prognozy
$\begin{aligned}
S^2_\tau=S^2+S^2\cdot\left(\frac{1}{n}+\frac{(x_\tau-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)=
\end{aligned}\\
\begin{aligned}
=S^2\cdot\left(1+\frac{1}{n}+\frac{(x_\tau-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)=
\end{aligned}\\
\begin{aligned}
=S^2\cdot\left(1+\frac{\sum_{i=1}^nx_i^2+nx_\tau^2-2x_\tau\sum_{i=1}^nx_i}{n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2}\right)
\end{aligned}$  
$\hat{\Sigma}$ - estymator macierzy kowariancji estymatora metody najmniejszych kwadratów  
$C$ - wektor wartości nowej obserwacji (do kombinacji liniowej z modelem regresji)  
Standardowy błąd obserwacji:  
$\begin{aligned}
\delta_\tau=S\sqrt{\frac{1}{n}+\frac{(x_\tau-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}=\sqrt{C^T\hat{\Sigma}C}=\sqrt{\delta_\tau^2}
\end{aligned}$
```{r}
C<-c(1, new.car$wiek, new.car$przebieg)
est.var<-drop(t(C)%*%Sigma%*%C)          # to samo co est.var<-drop(C%*%Sigma%*%C)
```
```{r echo=FALSE}
print(est.var)
```
## Błąd ex-ante
Błąd prognozy punktowej:  
$\begin{aligned}
S_\tau=\sqrt{S^2+\delta_\tau^2}=\sqrt{S^2+C^T\hat{\Sigma}C}
\end{aligned}$
```{r}
exAnte<-sqrt(S2+est.var)
```
```{r echo=FALSE}
print(exAnte)
```
## Względny błąd ex-ante
Względny błąd prognozy punktowej:  
$\begin{aligned}
\eta_\tau=\frac{S_\tau}{|\hat{y_\tau}|}\cdot100\%
\end{aligned}$
```{r}
exAnte.rel<-exAnte/abs(est.fnc(C[2], C[3]))
```
```{r echo=FALSE}
print(exAnte.rel)
```
## Przedział ufności prognozy
```{r}
result.conf<-result+exAnte*tValues
```
```{r echo=FALSE}
print(result.conf)
```
# Wykorzystanie pakietu `stats`
Funkcja `lm` z pakietu `stats` (będąca przeciążeniem funkcji `glm` z tego samego pakietu) pozwala na stworzenie modelu regresji liniowej z zastosowaniem _formuł_.
```{r}
est<-lm(cena~wiek+przebieg)
```
Współczynniki modelu.
```{r}
est$coefficients  #to samo co coefficients(est)
```
Podsumowanie modelu.
```{r}
summary(est)
```
Przedziały ufności współczynników modelu (ang. _confidence intervals_).
```{r}
confint(est)
```
Przedziały ufności wyestymowanych wartości modelu (ang. _narrow intervals_).
```{r}
predict(est, interval="confidence", level=.95)
```
Predykcja z zadanym poziomem tolerancji (ang. _wide intervals_).
```{r}
pred<-predict(est, newdata=new.car, se.fit=TRUE, level=.95, interval="prediction")  # błąd.obserwacji=TRUE
```
```{r echo=FALSE}
print(pred)
```
Błąd ex-ante (wariancja modelu + wariancja obserwacji).
```{r}
signif(sqrt(pred$residual.scale^2+pred$se.fit**2), 4)
```
# Zmienne skorelowane
```{r eval=FALSE}
summary(lm(cena~wiek*przebieg))
```
Alternatywnie.
```{r eval=FALSE}
summary(lm(cena~wiek+przebieg+wiek:przebieg))
```
```{r echo=FALSE}
summary(lm(cena~wiek*przebieg))
```
# Wizualizacja
```{r eval=FALSE}
library(scatterplot3d)
s3d<-scatterplot3d(x=wiek, y=przebieg, z=cena, angle=55, highlight.3d=T, scale.y=0.8)
s3d$plane3d(est)
residual3d<-function(x, y, z, residual){
  s3d$points3d(x=x, y=y, z=z-residual, type='p', lwd=1, pch=5, col=3)
  s3d$points3d(x=c(x, x), y=c(y, y), z=c(z-residual, z), type='l', lwd=1, col='dark green')
}
for (i in indices) {
  residual3d(wiek[i], przebieg[i], cena[i], est$residuals[i])
}
# Predykcja z zadanym poziomem tolerancji (ang. wide intervals).
s3d$points3d(x=new.car$wiek, y=new.car$przebieg, z=pred$fit[,'fit'], lwd=1, pch=21, bg=8, col=2)
s3d$points3d(x=rep(new.car$wiek, 2), y=rep(new.car$przebieg, 2), z=pred$fit[,2:3], lwd=1, type='l', col=2)
```
```{r echo=FALSE}
library(scatterplot3d)
s3d<-scatterplot3d(x=wiek, y=przebieg, z=cena, angle=55, highlight.3d=T, scale.y=0.8)
s3d$plane3d(est)
residual3d<-function(x, y, z, residual){
  s3d$points3d(x=x, y=y, z=z-residual, type='p', lwd=1, pch=5, col=3)
  s3d$points3d(x=c(x, x), y=c(y, y), z=c(z-residual, z), type='l', lwd=1, col='dark green')
}
for (i in indices) {
  residual3d(wiek[i], przebieg[i], cena[i], est$residuals[i])
}
# Predykcja z zadanym poziomem tolerancji (ang. wide intervals).
s3d$points3d(x=new.car$wiek, y=new.car$przebieg, z=pred$fit[,'fit'], lwd=1, pch=21, bg=8, col=2)
s3d$points3d(x=rep(new.car$wiek, 2), y=rep(new.car$przebieg, 2), z=pred$fit[,2:3], lwd=1, type='l', col=2)
```
## Przedziały ufności (osobny przykład)
```{r}
x<-1:7
y<-c(8, 13, 14, 17, 18, 20, 22)
est<-lm(y~x)
```
```{r echo=FALSE}
print(summary(est))
```
Przedziały ufności.
```{r}
confint(est)  # to samo co confint(est, level=.95))
```
t-statystyka, stopni swobody: `r df.residual(est)`.
```{r eval=FALSE}
res<-signif(residuals(est), 3)
pre<-predict(est, level=.99, interval="confidence")
plot(x, y)
abline(est)
segments(x, y, x, pre[,"fit"], col="red")
library(MASS)
library(calibrate)
textxy(x, y, res, cex=0.8)
# Przedziały ufności (ang. narrow intervals)
# 99%
lines(x, pre[,2], col=8)
lines(x, pre[,3], col=8)
# 95%
pre<-predict(est, level=0.95, interval="confidence")
lines(est$model[["x"]], pre[,2], col=5)
lines(est$model[["x"]], pre[,3], col=5)
# Predykcja z zadanym poziomem tolerancji (ang. wide intervals)
# 99%
result<-predict(est, newdata=data.frame(x=c(4.5)), level=.99, interval="prediction")
segments(4.5, result[,"lwr"], 4.5, result[,"upr"], col=8, lwd=5)
textxy(4.5, result[,"lwr"], round(result[,"lwr"], 2), cex=0.85, col=8)
textxy(4.5, result[,"upr"], round(result[,"upr"], 2), cex=0.85, col=8)
# 95%
result<-predict(est, newdata=data.frame(x=c(4.5)), level=.95, interval="prediction")
segments(4.5, result[,"lwr"], 4.5, result[,"upr"], col=5, lwd=2)
textxy(4.5, result[,"lwr"], round(result[,"lwr"], 2), cex=0.85, col=5)
textxy(4.5, result[,"upr"], round(result[,"upr"], 2), cex=0.85, col=5)
points(4.5, result[,"fit"], pch=23, col="darkgreen", bg="green")
```
```{r echo=FALSE}
res<-signif(residuals(est), 3)
pre<-predict(est, level=.99, interval="confidence")
plot(x, y)
abline(est)
segments(x, y, x, pre[,"fit"], col="red")
library(MASS)
library(calibrate)
textxy(x, y, res, cex=0.8)
# Przedziały ufności (ang. narrow intervals)
# 99%
lines(x, pre[,2], col=8)
lines(x, pre[,3], col=8)
# 95%
pre<-predict(est, level=0.95, interval="confidence")
lines(est$model[["x"]], pre[,2], col=5)
lines(est$model[["x"]], pre[,3], col=5)
# Predykcja z zadanym poziomem tolerancji (ang. wide intervals)
# 99%
result<-predict(est, newdata=data.frame(x=c(4.5)), level=.99, interval="prediction")
segments(4.5, result[,"lwr"], 4.5, result[,"upr"], col=8, lwd=5)
textxy(4.5, result[,"lwr"], round(result[,"lwr"], 2), cex=0.85, col=8)
textxy(4.5, result[,"upr"], round(result[,"upr"], 2), cex=0.85, col=8)
# 95%
result<-predict(est, newdata=data.frame(x=c(4.5)), level=.95, interval="prediction")
segments(4.5, result[,"lwr"], 4.5, result[,"upr"], col=5, lwd=2)
textxy(4.5, result[,"lwr"], round(result[,"lwr"], 2), cex=0.85, col=5)
textxy(4.5, result[,"upr"], round(result[,"upr"], 2), cex=0.85, col=5)
points(4.5, result[,"fit"], pch=23, col="darkgreen", bg="green")
```