De Econometrist

De Econometrist neemt een statistische kijk op de wereld.

Econometrie

Econometrie voor dummies-Lineaire regressie

Studeert je broer, vriendin, moeder, of iemand anders in jouw omgeving Econometrie en heb je nooit begrepen wat de studie precies inhoudt, dan is dit artikel voor jou! Vandaag kun je het gedachteproces van een econometrist volgen, die je een versimpeld voorbeeld uit het werkveld laat zien.

Als econometrist wil je de relatie tussen verschillende variabelen beschrijven, om zo voorspellingen te kunnen maken over de toekomst. Je krijgt vaak een dataset toegespeeld, waar je dan verbanden in moet zien te gaan leggen. Vandaag hebben we een simpele dataset gekregen met twee variabelen waarin we geïnteresseerd zijn: het aantal uren dat studenten hebben geleerd voor een tentamen en het cijfer dat ze halen. We hebben gegevens voor 10 studenten. Wij moeten het verband gaan bepalen tussen deze twee variabelen. De data ziet er als volgt uit:

 

cijfer 6 6 4 6 8 7 6 8 5 4
uren 60 40 50 80 90 80 60 50 30 20

 

Wat kunnen we hier uit opmaken? Het lijkt misschien zo te zijn dat studenten die meer studeren een iets hoger cijfer halen. Een echte econometrist weet echter dat een plaatje meer zegt dan duizend woorden, en maakt meteen een grafiek:

Elke punt in de grafiek staat voor een student, met het aantal uren dat ze gestudeerd hebben en het cijfer dat ze hebben gehaald. Het verband is meteen veel duidelijker: studenten die meer gestudeerd hebben, hebben gemiddeld hogere cijfers gehaald. We gaan uit van een lineair verband, zodat we een blik kunnen werpen op het model dat het meest gebruikt wordt binnen de econometrie: het lineaire regressiemodel. Een keuze voor een lijn is echter nog niet zo simpel. Hieronder heb ik drie lijnen geprobeerd, die allemaal wel met de data lijken te passen, maar hele andere verbanden aangeven.

Hoe kunnen we hier nu een keuze tussen maken? Om daar een antwoord op te kunnen geven, moeten we eerst meer weten over het lineaire regressiemodel.

Lineaire regressie

Bij een lineaire regressie hebben we een lineair verband tussen de variabelen: een lijn dus. De formule voor een lijn is als volgt:

    \begin{equation*} y= a+bx \end{equation*}

Waar y staat voor het cijfer, x voor het aantal uren gestudeerd, a voor het snijpunt met de y-as en b voor de helling van de lijn. In de praktijk liggen de punten nooit op één rechte lijn, maar zullen ze er altijd wat van afwijken, zoals te zijn is in de grafiek hierboven. Daarom voegen we de residuen (e)  toe, het verschil tussen de lijn en de punten in de grafiek. Nu hebben we het voor econometristen welbekende lineaire regressiemodel:

(1)   \begin{equation*} y= a+bx+e \end{equation*}

Het doel is om de punten zo goed mogelijk op een lijn te laten liggen, dus om de residuen zo klein mogelijk te hebben. Bij het lineaire regressiemodel wordt ervoor gekozen om de kwadraten van de residuen te minimaliseren.


Voor de econometristen: wist je dat lineaire regressie de maximum likelihood estimator is voor het verband als de residuen normaal verdeeld zijn?


Dat ziet er als volgt uit:

Hier is de lijn gekozen die de oppervlakte van de vierkantjes (kwadraten van de residuen) minimaliseert. Elk statistiekprogramma zal ons vertellen dat daar het volgende model bij hoort:

(2)   \begin{equation*} \textrm{cijfer}=3.71+0.041uren+e \end{equation*}

Iemand die dus 10 uur meer gestudeerd heeft, zal gemiddeld 0.41 hoger halen op het tentamen.

Betekent dit dat als je een punt hoger wil halen, je 25 uur extra moet studeren?

NEE! Daarvoor weten we veel te weinig!

Correlatie en causaliteit

Het is enorm belangrijk om onderscheid te maken tussen de aanwezigheid van een verband, en de oorzaak van een verband. Dit onderscheid wordt in de media vaak vergeten en dat leidt tot sensationele, zogenaamd wetenschappelijke ontdekkingen. Binnen de econometrie zijn er strenge eisen waar een model aan moet voldoen voordat je kunt zeggen dat de ene variabele de andere veroorzaakt. Er zijn veel redenen waarom een correlatie geen oorzakelijk verband hoeft bloot te leggen. Zo kan het bijvoorbeeld zijn dat je een belangrijke variabele hebt weggelaten uit je model. In ons voorbeeld is het mogelijk dat de studenten die er niks van snapten ver voor het tentamen en dus sowieso al een lager punt zouden halen, ook minder zijn gaan studeren.

Het verband tussen het aantal uren dat gestudeerd is en het cijfer wordt dan onduidelijk. Als je niet weet hoe groot het begrip van de stof vooraf was, is het dus eigenlijk niet mogelijk iets te zeggen over het oorzakelijke verband tussen de gestudeerde uren en het cijfer. Gelukkig had onze wijze econometrist al van tevoren bedacht dat het begrip van de stof twee weken voor het tentamen een belangrijke rol zou spelen en heeft ook die gegevens verzameld. Het begrip van de stof wordt op een schaal van 1-100 uitgedrukt.

cijfer 6 6 4 6 8 7 6 8 5 4
uren 60 40 50 80 90 80 60 50 30 20
begrip 45 20 29 46 66 55 50 60 41 22

 

We breiden nu ons model uit naar:

(3)   \begin{equation*} \textrm{cijfer}=a+b*uren+c*begrip+e \end{equation*}

En proberen ook nu weer de kwadraten van de residuen te minimaliseren. We krijgen het volgende model:

(4)   \begin{equation*} \textrm{cijfer}=2.68+0.007*uren+0.067*begrip+e \end{equation*}

En ineens is het effect van meer studeren bijna verwaarloosbaar. Dit komt omdat in ons vorige model het positieve effect van meer begrip werd toegeschreven aan meer studeren, omdat er ook een positief verband was tussen begrip en studie-uren.


Voor de econometristen: aan welke Gauss-Markov aannames zou met ons nieuwe model nog niet voldaan kunnen zijn?


Interpretatie

Nu we ons uiteindelijke model hebben gevonden, kunnen we kijken naar wat het gevonden verband betekent. Normaal zouden we nog veel meer testen uitvoeren om te kijken of ons model correct is, maar nu nemen we dat gemakshalve aan. We hebben dus een klein effect gevonden van 0.007 punt hoger per gestudeerd uur, of 143 uur studeren voor 1 punt hoger. Wat hierbij belangrijk is om in te zien, is dat de waardes voor de regressiecoëfficiënten in vergelijking (4) slechts een schatting zijn. We hebben maar gegevens gebruikt van 10 personen en kunnen dus niet met heel veel zekerheid zeggen hoe het onder alle studenten is. In de statistiek kiezen we ervoor om met minstens 95% zekerheid bepaalde uitspraken doen. Daarom geeft een statistiekprogramma ons ook twee grenzen waarbinnen het echte effect met 95% zekerheid zit. In dit geval zijn de grenzen -0.039 en 0.053 punt hoger per gestudeerd uur. We weten dus niet eens met 95% zekerheid of het effect van studeren positief is! De conclusie van de econometrist zou dan ook zijn dat meer studeren geen statistisch significant effect heeft op het cijfer, en dat is toch iets heel anders dan we aan het begin dachten! DisclaimerAlle getallen zijn gefingeerd. De auteur kan niet verantwoordelijk gesteld worden voor onvoldoendes na gebrek aan studeren.

Conclusie

We hebben vandaag gezien hoe je een lineair verband tussen twee variabelen vaststelt, en ook dat het weglaten van een variabele uit je model een enorme vertekening kan geven. We hebben twee belangrijke dingen geleerd van onze econometrist die ook in elk ander werkveld enorm nuttig zijn: maak altijd een plaatje en geloof niet meteen de eerste de beste verklaring voor een fenomeen.

Wees op je hoede voor gestuntel met data, al dan niet met opzet, en bij twijfel: raadpleeg de dichtstbijzijnde econometrist!

 


This article is written by Balder Stalmeier.

Deel dit artikel:

By Daniele Zedda • 18 February

← PREV POST

By Daniele Zedda • 18 February

NEXT POST → 34
Share on