Administratie | Alimentatie | Arta cultura | Asistenta sociala | Astronomie |
Biologie | Chimie | Comunicare | Constructii | Cosmetica |
Desen | Diverse | Drept | Economie | Engleza |
Filozofie | Fizica | Franceza | Geografie | Germana |
Informatica | Istorie | Latina | Management | Marketing |
Matematica | Mecanica | Medicina | Pedagogie | Psihologie |
Romana | Stiinte politice | Transporturi | Turism |
REGRESIA SIMPLA
Studiem, pentru inceput, cel mai simplu model econometric: o variabila endogena reprezinta evolutia fenomenului considerat si aceasta evolutie este explicata printr-o singura variabila exogena.
In cadrul capitolului este prezentata metoda de estimare a parametrilor care intervin intr-un model econometric, se vor examina proprietatile estimatorilor obtinuti si se vor generaliza rezultatele analizei pentru modele mai complexe. Intr-o prima parte se va trata obtinerea estimatorilor parametrilor modelului si proprietatilor lor, iar intr-o a doua parte se da o interpretarea geometrica a metodei utilizate, determinarea intervalelor de incredere referitoare la parametri si previziunea care poate fi facuta cu un astfel de model.
1. Modelul liniar al regresiei simple
Consideram modelul:
(1) , t=1, 2, ,T
in care: Y reprezinta o variabila endogena;
X o variabila exogena;
e o variabila aleatoare ale carei caracteristici vor fi precizate prin ipoteze.
Se dispune de T observatii asupra lui Y si X, adica T cupluri (xt, yt) care sunt realizari ale lui X si Y. a si b sunt parametri reali necunoscuti pe care dorim sa-i estimam cu ajutorul observatiilor (xt, yt) cunoscute.
Ipoteze fundamentale
Pentru a putea obtine rezultatele enuntate la inceput, vom simplifica lucrurile impunind o serie de ipoteze restrictive asupra modelului. Ulterior, in alte capitole, se vor relaxa aceste restrictii, discutind implicatiile abandonarii unora din aceste ipoteze asupra calitatii estimatorilor.
I1:
xt si yt sunt marimi numerice observate fara eroare;
X -variabila explicativa se considera data autonom in model;
Y -variabila endogena este o variabila aleatoare, prin intermediul lui e
I2:
a)- e urmeaza o lege de distributie independenta de timp, adica media si dispersia lui e nu depind de t:
,
, cantitate finita,
.
Observatie
S-au folosit aici, pentru medie si
dispersie, notatiile , respectiv
, provenind de la "speranta matematica" si
"varianta" unei variabile aleatoare. Se presupune ca studentii
au cunostinte elementare despre teoria probabilitatilor
si statistica matematica. Altfel, ele trebuie revazute!
b)- Realizarile lui e sunt independente de realizarile lui X in cursul timpului. Aceasta este ipoteza de homoscedasticitate. In caz contrar, exista heteroscedasticitate.
c)- Independenta erorilor
(se va vedea pe parcurs ca variabila aleatoare e reprezinta "erori" sau
"reziduuri"). Doua erori relative la doua observatii diferite t si t' sunt independente intre ele, insemnind ca au
covarianta nula: , ceea ce implica
.
Prin definitie, cov( si tinind cont de a) rezulta implicatia.
d)- Normalitatea erorilor. Presupunem ca e urmeaza o lege de repartitie normala , cu media 0 si
dispersia , ceea ce poate fi scris astfel:
I3:
Primele momente empirice ale variabilei X, pentru T foarte mare, sunt finite:
(media empirica).
(varianta
empirica).
Aceasta ipoteza va fi folosita pentru a preciza proprietatile asimptotice ale estimatorilor parametrilor a si b.
Ipotezele I1, I2, I3 pot parea foarte restrictive. Vom vedea ulterior ce consecinte are abandonarea unora dintre ele asupra proprietatilor estimatorilor lui a si b.
Determinarea estimatorilor parametrilor prin metoda celor mai mici patrate
Determinarea
estimatorilor parametrilor a si b (notati cu si
) prin metoda celor mai mici patrate (MCMMP)
se face punand conditia ca suma
patratelor erorilor sa fie minima, adica:
.
Pentru ca sa fie
minimala, trebuie ca:
conditii necesare: ,
.
conditii suficiente: ,
.
Calculam derivatele partiale ale
functiei .
.
Atunci, conditiile de ordinul I (necesare) conduc la sistemul de ecuatii:
,
iar conditiile suficiente (de ordinul II) sunt verificate.
Ecuatiile conditii de ordinul I (numite ecuatii normale, vezi justificarea geometrica din partea a II-a), le impartim la T, rezultand:
.
Din a doua ecuatie avem si inlocuind in
prima ecuatie:
.
Am obtinut
estimatorii si
ai parametrilor a si b dati de
relatiile:
Observatie
este o variabila
aleatoare pentru ca e functie de yt,
iar
este aleator pentru
ca e functie de
.
Proprietatile estimatorilor
Vom arata ca estimatorii si
obtinuti prin metoda celor mai mici patrate
sunt nedeplasati si convergenti. In demonstratie
vom tine cont de ipotezele I1, I2, I3.
Pentru a usura demonstrarea proprietatilor enuntate,
transformam mai intai expresiile (2) pentru a le exprima in functie
de parametrii a si b. Vom considera modelul (1)
, t=1, 2, ,T,
insumam dupa toti t
si impartim la T. Rezulta:
, adica
.
Scadem membru cu membru pe (2) din (1):
si inlocuim in expresia lui
:
(deoarece ).
Din expresia lui , avem ca
, adica
, iar din (2)
, astfel ca prin scadere rezulta:
sau
. Am obtinut ca:
.
si
sunt estimatori
nedeplasati pentru a si b.
Un estimator este
nedeplasat daca media estimatorului este chiar parametrul estimat. Vom
aplica operatorul de medie E in relatiile gasite mai sus. Pentru comoditate,
notam cu wt cantitatea:
, astfel ca
Rezulta:
, pentru ca E(a)=a si E(et
Avem ca: E(b)=b,
si
, deci
si
sunt
estimatori convergenti pentru a
si b.
Stiind ca si
, este suficient sa aratam ca
si
pentru ca
si
sa fie convergenti in probabilitate
catre a si b. Calculam varianta
estimatorilor
si
Stim ca , adica
.
Conform ipotezelor
fundamentale, si
, pentru
, rezultand:
,
dar
.
In final, dispersia estimatorului este:
Conform ipotezei I3,
si
avem ca
Am obtinut ca (
este convergent in probabilitate catre a).
Determinam acum
dispersia estimatorului :
Evaluam, pe rind, fiecare termen:
(deoarece ).
dar ,
adica .
Folosind aceste rezultate partiale, se obtine:
Dispersia estimatorului este:
Cum insa si
rezulta ca
, adica
(
converge in probabilitate catre b) .
Covarianta estimatorilor si
Calculam acum covarianta estimatorilor pornind de la definitie:
.
Matricea de varianta si
covarianta a lui si
, notata
este deci:
Se remarca faptul ca contine pe
, adica varianta lui
care este
necunoscuta. Se pune deci problema de a obtine o estimatie
pentru
, adica o estimatie pentru
. Notam aceasta estimatie cu
.
Determinarea unui estimator nedeplasat pentru varianta erorilor
Utilizand estimatorii si
putem
calcula estimatia variabilei endogene yt,
notata
(se mai numesc si valori ajustate ale
variabilei endogene):
Atunci diferenta dintre yt si este un estimator
pentru eroarea
. Notam
. Avem ca
. Remarca: deoarece
si
converg in
probabilitate catre a si b, distributia lui
converge in
probabilitate catre distributia lui
(distributie
normala, conform I2).
Stim ca si inlocuind
obtinem:
.
iar prin ridicare la patrat:
Insumam dupa t=1,2,,T si impartim la T:
.
Dar: , si
pentru ca .
Inlocuind, rezulta:
.
Notam cu dispersia erorilor
fata de media lor si cum ea este o variabila aleatoare, ii
calculam media
:
Aplicand acum operatorul de medie in relatia:
,
si tinind cont de expresia variantei
estimatorului , rezulta:
.
Relatia gasita se poate scrie si
astfel: , asa ca, notand
, am obtinut:
, adica
este un estimator
nedeplasat pentru
(varianta
erorilor).
Este de remarcat ca modelul presupune estimarea a
doi parametri (a si b), iar numitorul lui
este T- (T-2)
constituie "numarul gradelor de
libertate". Vom reveni ulterior asupra acestei probleme.
In concluzie, pentru modelul liniar al regresiei simple, avem estimatorii:
Estimatorul permite sa
dam o estimatie a variantelor si covariantei
parametrilor din model, deci o estimatie a matricei
, notata
:
, unde:
,
,
.
Interpretarea geometrica a metodei celor mai mici patrate
Am determinat estimatorii si
ai parametrilor
modelului utilizand conditia necesara de existenta a
minimului sumei patratelor erorilor
. Putem sa dam o conditie necesara
si suficienta pentru ca
sa fie
minimala, cu ajutorul unei reprezentari grafice. Aceasta
conditie va consta in egalitatea cu zero a doua produse scalare care
redau ecuatiile normale.
Modelul se scrie sub
forma matriceala astfel:
,
unde:
,
,
,
.
In
spatiul ortonormat consideram
vectorii Y, X, U si e
Vectorul 0H=aX+bU
apartine planului (L) determinat de vectorii X si U. Fie 0A=Y, 0B=X, 0C=U, HA=e. Cantitatea este minimala
daca HA este ortogonal pe (L),
adica pe X si U. Aceasta conditie se traduce
prin egalitatea cu zero a produsului scalar al vectorilor respectivi:
, sau
, adica
.
Am regasit, deci, sistemul de ecuatii normale.
Notam proiectia pe
planul (L) a vectorului Y si cu
vectorul HA ortogonal
la planul (L).
A efectua o regresie a variabilei Y asupra variabilei X in modelul revine, deci, la a
proiecta vectorul Y pe planul (L) din
determinat de X si U.
Observatie
Consideram modelul . O reprezentare analoga celei dinainte este:
In scriere matriciala, modelul este , iar conform cu reprezentarea grafica, avem
relatia OA=OH+HA.
este minimala
daca
(HA este perpendicular pe 0H),
adica
sau
sau
,
si
. Masura algebrica a proiectiei vectorului Y pe suportul vectorului U este
. Vom utiliza aceasta observatie pentru a exprima
ecuatia variantei.
Ecuatia variantei
Reluam reprezentarea geometrica precedenta si notam cu K proiectia lui A pe suportul vectorului U:
Evident, KH este perpendicular in K pe 0C. In triunghiul AKH, dreptunghic, avem:
.
Stim ca si
, adica:
. Dar si
, rezultand ca
.
Deoarece: AK=0A-0K ( dreptunghic in K)
HK=0H-0K (dreptunghic in K),
rezulta, folosind (1):
Aceasta este ecuatia variantei. Vom reveni asupra ei cand vom aborda regresia multipla.
3.4. Coeficientul de corelatie liniara
Coeficientul de corelatie liniara intre variabilele X si Y, notat r, se calculeaza cu relatia:
.
In general, , unde
si
sunt abaterile
standard (radicalul dispersiei) ale variabilelor X si Y.
Stim ca estimatorul parametrului a are expresia , astfel ca putem scrie:
. Am obtinut o expresie a coeficientului de
corelatie in functie de estimator, iar prin ridicare la patrat:
.
Un
calcul imediat arata ca: .
In
acelasi timp, ecuatia variantei conduce la: , de unde:
.
Pe de alta parte, utilizand figura geometrica
si notand cu α unghiul , avem
,
, adica
.
In mod necesar, si
.
Cand , nu exista o relatie de tip liniar
intre yt si xt, adica a=0.
Cand , yt
este legat de xt printr-o
relatie de forma
.
implica a>0, iar
implica a<0.
Cand relatia dintre yt si xt nu este stricta,
adica , atunci r este apropiat de 1, semnul
lui r fiind cel al lui a.
3.5. Distributia de probabilitate a estimatorilor
Deoarece erorile et t=1,2,,T au o distributie normala, de medie zero
si dispersie , densitatea de probabilitate a lui et este:
.
Cum et si et' sunt independente pentru , densitatea de probabilitate a vectorului aleator (e e eT) va fi egala cu produsul
densitatilor de probabilitate relative la fiecare et
Dar, si
(deoarece
).
Evaluam suma patratelor erorilor:
( ,
pentru ca asa cum arata reprezentarea
grafica, vectorul
este ortogonal la
planul (L), prin urmare este
perpendicular pe orice vector din acel plan, deci si pe X si U. Produsele scalare cu acesti vectori vor fi nule,
adica:
si
).
Intr-o scriere matriciala:
( lasam studentilor placerea de a verifica !).
Inlocuind in (1) fiecare et prin expresiile calculate mai sus, deducem densitatea de probabilitate a vectorului aleator
(y1,y2,,yT):
Tinand cont de matricea de varianta
si covarianta a estimatorilor, , se arata usor ca:
si
unde
este densitatea de
probabilitate a lui
, iar
cea a lui
.
Cu aceste rezultate si facind apel la unele teoreme importante ale statisticii matematice, putem deduce urmatoarele distributii de probabilitate:
Deoarece , adica
, variabila aleatoare definita de raportul
urmeaza o
repartitie c (hi-patrat) cu (T-2) grade de libertate. (Vectorul
admite T-2 componente independente nenule distribuite dupa T-2 legi normale independente, cu media
zero si abatere standard
)
Folosind relatile de calcul stabilite anterior, rezulta
ca
(am utilizat aici notatiile si
pentru varianta estimatorului
, respectiv pentru estimatia acesteia). Atunci variabila
aleatoare definita de raportul
urmeaza tot o
repartitie c cu (T-2) grade de libertate.
Cuplul urmeaza o
repartitie normala bidimensionala, astfel ca variabilele
aleatoare definite mai jos au repartitiile urmatoare:
;
v
(repartitia
Student cu (T-2) grade de libertate);
v
;
v
.
Expresia este variabila
aleatoare repartizata Fisher-Snedecor, cu 2 si (T-2) grade de
libertate.
4. Teste si intervale de incredere
Pentru ca exista tabele cu valorile legilor de probabilitate anterioare, putem determina intervale de incredere pentru parametrii a si b la un nivel de semnificatie a fixat.
este luat din tabela
distributiei Student cu (T-2)
grade de libertate. Un calcul simplu conduce la intervalul de incredere pentru
parametrul a, de forma:
ceea
ce permite afirmatia ca adevarata valoare a parametrului real a , se gaseste in intervalul
de valori cu probabilitatea
1-α.
Cand se doreste testarea unei valori a0 a parametrului a, este suficient, pentru a accepta aceasta valoare cu riscul a, sa ne asiguram ca:
.
Altfel spus, este suficient ca a0 sa apartina intervalului de incredere
stabilit: .
De asemenea, .
este ecuatia unei
elipse cu centrul in
care defineste
astfel o "regiune" de incredere pentru cuplul
la nivelul de
semnificatie a
Proiectiile acestei elipse pe axe
determina, de asemenea, doua intervale de incredere pentru a si b, centrate in si
. Dar, este important de remarcat ca, nivelul de
semnificatie referitor la aceste intervale nu mai este nivelul a asociat elipsei.
Daca se doreste testarea simultana a doua valori a0, b0 alese apriori, este suficient sa inlocuim a si b in expresia F prin a0 si b0.
Daca se accepta
valorile, altfel ele vor fi respinse. Altfel spus, pentru a accepta cuplul (a0, b0) la nivelul de semnificatie a este suficient ca punctul M0(a0,b0)
sa apartina elipsei de incredere asociata cuplului (a, b).
Observatii
5. Previziunea cu modelul liniar
Fie realizarea variabilei
exogene la momentul q. Valoarea previzionata
pentru endogena Y va fi:
,
iar realizarea efectiva a lui Y este:
.
Eroarea de previziune se poate exprima prin variabila
aleatoare .
.
Se remarca imediat ca , iar varianta erorii de previziune este:
Ultimii doi termeni sunt nuli (s-a demonstrat
anterior!) (e si , ca si e si
sunt necorelati).
Deci:
.
Notam varianta erorii de previziune cu si folosind
relatiile de calcul anterioare, rezulta:
este necunoscut, dar
estimat prin
si varianta
estimata a erorii de previziune este:
Aceasta varianta poate fi
redusa, pe de o parte prin cresterea numarului de
observatii (T), iar pe de
alta parte, prin alegerea lui astfel incat
sa nu fie prea
mare (adica facand o previziune pe termen scurt).
Deoarece erorile sunt normal distribuite, atunci si
si
(urmeaza legi
normale). Rezulta urmatoarele distributii de probabilitate
pentru variabilele:
.
urmeaza o lege
Student cu T-2 grade de libertate
pentru ca
.
In planul (x,y)
trasam dreapta de ajustare . Fie
punctul situat pe
dreapta de ajustare. Putem construi, avand P
ca centru si paralel cu axa 0y
un interval de incredere M1M2
la nivelul de semnificatie a
.
fiind luat din tabela
distributiei Student. Pentru T
dat,
ca functie de
este minim pentru
. Punctele M1
si M2 sunt deci
situate, cand q variaza, pe doua
arce de curba (vezi figura), care determina astfel regiunea
careia ii apartine
pentru
dat, cu o
probabilitate egala cu (1-a
Observatii
1. "O variabila aleatoare t este distribuita dupa o lege
Student cu T-2 grade de libertate
daca expresia este raportul dintre o
variabila aleatoare distribuita
cu 1 grad de libertate
si o alta distribuita
cu (T-2) grade de libertate". Fie
. Atunci:
.
"O
variabila aleatoare F este
distribuita dupa o lege Fisher-Snedecor cu n1 si n2 grade de libertate
daca expresia este raportul dintre o
variabila aleatoare distribuita
cu n1 grade de libertate si
o alta distribuita
cu n2 grade de libertate".
Fie .
Atunci:
pentru ca urmeaza o lege
normala bidimensionala.
3. Jacobianul transformarii permite
exprimarea densitatii de probailitate a vectorului aleator pornind de la cea a
lui
. Cand
este cunoscuta,
pentru a obtine
, procedam astfel:
Inlocuim prin expresia ei in
functie de
;
Inmultim expresia obtinuta cu valoarea absoluta a determinantului:
4. Am vazut ca ,
si
fiind distribuite
normal.
este o combinatie
liniara de
. Deci:
este distribuita c cu 1 grad de libertate
pentru ca este patratul unei variabile aleatoare N(0,1).
Deoarece , prin impartirea la
, obtinem:
Rezulta ca:
.
6. Experienta de calcul
Pentru a studia cum variaza cheltuielile de intretinere si reparatii ale unui utilaj agricol in functie de "varsta" utilajului, s-au cules urmatoarele date:
Varsta utilajului (xt) -in luni- |
|
|
|
|
|
|
|
|
Cheltuieli anuale de intretinere si reparatii (yt) -in RON- |
|
|
|
|
|
|
|
|
Varsta utilajului (xt) -in luni- |
|
|
|
|
|
|
|
|
Cheltuieli anuale de intretinere si reparatii (yt) -in RON- |
|
|
|
|
|
|
|
|
Rezolvare:
Cautam sa estimam parametrii
unei regresii liniare inte variabilele X
si Y, de forma , presupunind ca
sunt indeplinite ipotezele fundamentale I1,I2,I3.
1. Pentru a calcula estimatorii, se folosesc relatiile de calcul stabilite anterior (in cadrul seminarului se vor prezenta facilitatile de calcul oferite de diferite pachete de programe dedicate). Elementele necesare calculului sunt date in tabelul ce urmeaza:
Pe baza elementelor din tabelul de calcul, se determina:
-
- -
- coeficientul de corelatie liniara:
Valoarea apropiata de 1 a coeficientului de corelatie arata ca intre cele doua variabile studiate exista o corelatie liniara.
Observatie: Am vazut ca:
Patratul coeficientului de corelatie liniara este raportul dintre variabilitatea explicata prin model si variabilitatea totala.
- ecuatia de analiza a variantei:
variabilitatea totala = variabilitatea explicata + variabilitatea reziduala
= 6137,719 + 132,014
In spatiul observatiilor, Y este cu atat mai bine explicat prin modelul liniar, cu cat este mai aproape se planul (L) generat de vectorii X si U (vectorul unitar), deci cu cat variabilitatea reziduala este mai mica fata de variabilitatea empirica totala. Aceasta face ca raportul dintre variabilitatea explicata prin model si variabilitatea totala, adica ρ2, sa fie apropiat de 1.
- estimatiile variantelor reziduurilor si ale estimatorilor:
- calculul intervalelor de incredere pentru estimatori:
Variabilele
aleatoare si
urmeaza fiecare o
repartitie Student cu (T-2)
grade de libertate. Alegand un nivel de semnificatie α=0,05, putem
extrage din tabelele repartitiei (astfel de tabele se gasesc in
majoritatea cartilor de econometrie, sau de statistica
matematica) valoarea ttab corespunzatoare numarului
de grade de libertate si nivelului de semnificatie ales. In cazul
nostru, pentru T-2=13 grade de libertate si α=5%, gasim ttab=2,16.
Intervalele de incredere vor fi:
[1,28-(2,16)(0,052) ; 1,28+(2,16)(0,052)]=
= [1,17 ; 1,39]
[31,67 -(2,16)(1,5) ; 31,67+(2,16)(1,5)]=
=[28,43 ; 34,91]
Prin urmare, putem afirma ca valorile parametrilor reali a si b se gasesc in aceste intervale cu o probabilitate de 95%.
Stabilim
acum un interval de incredere pentru estimatorul variantei erorilor. Am
vazut ca variabila aleatoare urmeaza o lege de
repartitie hi-patrat cu (T-2) grade de libertate. In tabelele legii
hi-patrat vom gasi, pentru un nivel de semnificatie α dat,
doua valori: v1 avand
probabilitatea (1-α/2) de a fi depasita, respectiv v2 avand probabilitatea
(α/2) de a fi depasita, astfel ca
Se obtine astfel intervalul de incredere:
pentru =0,05 si 13 grade de libertate extragem din tabela v1=5,01 si v2=24,7 rezultand intervalul:
[5,34 ; 26,34]
- testam daca parametrii a si b ai modelului sunt semnificativ diferiti de zero la pragul de semnificatie α=0,05.
Variabilele
aleatoare si
urmeaza legi de
probabilitate Student cu (T-2) grade de libertate. Aceste rapoarte se numesc
si "raportul t" Student empiric (tcalculat). Se accepta
ipoteza H0: (a=0) daca tcalculat (luat in
modul) este mai mic decat ttabelat , altfel
se accepta ipoteza contrara H1:(a
Acest lucru se poate scrie:
. Este exact
acelasi lucru cu a spune ca 0 sa apartina intervalului
de incredere determinat pentru a. Cum
[1,17 ; 1,39], acceptam ipoteza H1:(a
0). La fel stau lucrurile si pentru b. Prin urmare, a si
b sunt semnificativ diferiti de
zero la pragul de semnificatie de 5%. Se spune ca variabila explicativa
(exogena) X (varsta utilajului)
este "contributiva".
-
ne propunem acum sa determinam o previziune a cheltuielilor de intretinere si reparatii
pentru un utilaj de 4 ani (48 de luni). Notam cu cheltuielile de
intretinere si reparatii pentru un utilaj cu "varsta"
. Avem ca
Ce eroare corespunde unei astfel de previziuni? Stim ca:
, este o
variabila aleatoare distribuita normal, cu media zero si
varianta estimata a erorii de previziune:
Deoarece
variabila aleatoare este distribuita
Student cu (T-2) grade de libertate, putem determina un interval de incredere
pentru valoarea previzionata:
Cu o probabilitate de 95%, valoarea adevarata a
cheltuielilor de intretinere si reparatii pentru un utilaj de 48
de luni se va afla in intervalul determinat.
Acest document nu se poate descarca
E posibil sa te intereseze alte documente despre: |
Copyright © 2025 - Toate drepturile rezervate QReferat.com | Folositi documentele afisate ca sursa de inspiratie. Va recomandam sa nu copiati textul, ci sa compuneti propriul document pe baza informatiilor de pe site. { Home } { Contact } { Termeni si conditii } |
Documente similare:
|
ComentariiCaracterizari
|
Cauta document |