Paneldata

In de statistiek en de econometrie zijn paneldata of longitudinale data waarnemingen in de tijd aan meerdere variabelen. Tijdreeksen zijn speciale eendimensionale gevallen van paneldata.

Analyse van paneldata[bewerken | brontekst bewerken]

Een panel ziet eruit als:

$X_{it},\;i=1,\ldots ,N\;t=1,\ldots ,T$ ,

waarin $i$ de individuele dimensie is en $t$ de tijddimensie . Een standaard paneldata-regressie-model wordt genoteerd als $y_{it}=\alpha +\beta 'X_{it}+u_{it}$ . Men kan verschillende veronderstellingen maken over de structuur van dit model. Twee belangrijke modellen zijn het fixed effects model en het random effects model. Het fixed effects model noteert men als

y_{it}=\alpha +\beta 'X_{it}+u_{it}

u_{it}=\mu _{i}+\nu _{it}

$\mu _{i}$ zijn de individuele effecten, en omdat we aannemen dat deze vast staan over de verschillende tijdseenheden noemen we dit het fixedeffectsmodel. Het randomeffectsmodel neemt ook nog aan dat

\mu _{i}\sim {\text{i.i.d.}}N(0,\sigma _{\mu }^{2})

en

\nu _{it}\sim {\text{i.i.d.}}N(0,\sigma _{\nu }^{2}).

Voor- en nadelen[bewerken | brontekst bewerken]

Voordelen[bewerken | brontekst bewerken]

In tegenstelling tot doorsnedeanalyse, waarin alle relevante variabelen op een moment gemeten worden, kan paneldata een causaal verband aantonen.
Vergeleken met trendanalyse, waar telkens een nieuwe groep geselecteerd wordt, heeft het verschil in persoonlijke voorkeur tussen mensen een minder grote invloed.
Er kan een veel grotere dataset gemaakt worden dan bij doorsnedeanalyse en tijdreeksanalyse.

Nadelen[bewerken | brontekst bewerken]

In de loop der tijd kunnen vragen anders geïnterpreteerd worden.
Doordat het onderzoek een langere tijd in beslag neemt kan zijn relevantie afnemen. Er kunnen alweer nieuwe relevantere onderzoeken gestart zijn.
De groep die het hele onderzoek meedoet, wordt steeds kleiner naarmate het onderzoek langer duurt. Dit is vooral een probleem als de mensen die vertrekken uit het panel tekenend zijn voor het onderzoek.
Doordat mensen weten dat ze in een panel zitten, kunnen ze zich anders gaan gedragen. Hierdoor zijn ze dan niet meer representatief.
Persoonlijke veranderingen, zoals het krijgen van kinderen en het doorstromen in een bedrijf, kunnen ervoor zorgen dat het panel niet meer representatief is.
Paneldata is vaak erg duur en tijdrovend.

Voorbeeld[bewerken | brontekst bewerken]

gebalanceerde paneldata:		ongebalanceerde paneldata:
${\begin{matrix}\mathrm {persoon} &\mathrm {jaar} &\mathrm {inkomen} &\mathrm {leeftijd} &\mathrm {geslacht} \\1&2003&1500&27&1\\1&2004&1700&28&1\\1&2005&2000&29&1\\2&2003&2100&41&2\\2&2004&2100&42&2\\2&2005&2200&43&2\end{matrix}}$		${\begin{matrix}\mathrm {persoon} &\mathrm {jaar} &\mathrm {inkomen} &\mathrm {leeftijd} &\mathrm {geslacht} \\1&2003&1500&27&1\\1&2004&1700&28&1\\2&2003&2100&41&2\\2&2004&2100&42&2\\2&2005&2200&43&2\\3&2004&3000&35&1\end{matrix}}$

Het voorbeeld hierboven is een voorbeeld van twee datasets. Individuele eigenschappen (inkomen, leeftijd, geslacht) zijn verzameld voor meerdere personen over meerdere jaren. Het rechtervoorbeeld is ongebalanceerd, omdat niet ieder persoon ieder jaar is geobserveerd.

Een bekende dataset waar sprake is van paneldata is die van de gebruikers van de bonuskaart van Albert Heijn. Van meerdere consumenten wordt op verschillende momenten (namelijk iedere dag) gekeken wat er wordt aangeschaft.