Paneldata

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Paneldata is een begrip uit de statistiek en de econometrie. Paneldata staat voor een multidimensionale dataset, namelijk meerdere observaties van meerdere variabelen op verschillende momenten. Dit betekent dat de eigenschappen van meerdere mensen of instanties, op meerdere momenten geobserveerd worden. Tijdreeksanalyse en doorsnedeanalyse zijn speciale eendimensionale gevallen van paneldata, want een tijdreeksanalyse maakt maar gebruik van één variabele, terwijl een doorsnedeanalyse maar op één moment observeert.

Analyse van paneldata[bewerken]

Een panel ziet er uit als:

X_{it}, \; i = 1, \dots, N \; t = 1, \dots, T,

waar i de individuele dimensie is en t de tijddimensie is. Een standaard paneldata regressie-model wordt genoteerd als y_{it} = \alpha + \beta' X_{it} + u_{it}. Men kan verschillende aannames maken over de structuur van dit model. Twee belangrijke modellen zijn het fixed effects model en het random effects model. Het fixed effects model noteert men als

y_{it} = \alpha + \beta' X_{it} + u_{it},
u_{it} = \mu_i + \nu_{it}.

\mu_i zijn de individuele effecten en omdat we aannemen dat deze vast staan over de verschillende tijdseenheden noemen we dit het fixed effects model. Het random effects model neemt ook nog aan dat

\mu_i \sim \text{i.i.d.} N(0, \sigma^2_{\mu})

en

\nu_{it} \sim \text{i.i.d.} N(0, \sigma^2_{\nu}).

Voor- en nadelen[bewerken]

Voordelen[bewerken]

  • In tegenstelling tot doorsnedeanalyse, waarin alle relevante variabelen op een moment gemeten worden, kan paneldata een causaal verband aantonen.
  • Vergeleken met trendanalyse, waar telkens een nieuwe groep geselecteerd wordt, heeft het verschil in persoonlijke voorkeur tussen mensen een minder grote invloed.
  • Er kan een veel grotere dataset gemaakt worden dan bij doorsnedeanalyse en tijdreeksanalyse.

Nadelen[bewerken]

  • In de loop der tijd kunnen vragen anders geïnterpreteerd worden.
  • Doordat het onderzoek een langere tijd in beslag neemt kan zijn relevantie afnemen. Er kunnen alweer nieuwe relevantere onderzoeken gestart zijn.
  • De groep die het hele onderzoek meedoet wordt steeds kleiner naarmate het onderzoek langer duurt. Dit is vooral een probleem als de mensen die vertrekken uit het panel, tekenend zijn voor het onderzoek.
  • Doordat mensen weten dat ze in een panel zitten, kunnen ze zich anders gaan gedragen. Hierdoor zijn ze dan niet meer representatief.
  • Persoonlijke veranderingen, zoals het krijgen van kinderen en het doorstromen in een bedrijf kunnen ervoor zorgen dat het panel niet meer representatief is.
  • Paneldata is vaak erg duur en tijdrovend.

Voorbeeld[bewerken]

gebalanceerde paneldata: ongebalanceerde paneldata:
\begin{matrix} 
\mathrm{persoon} & \mathrm{jaar} & \mathrm{inkomen} & \mathrm{leeftijd} & \mathrm{geslacht}\\
1 & 2003 & 1500 & 27 & 1 \\
1 & 2004 & 1700 & 28 & 1 \\
1 & 2005 & 2000 & 29 & 1 \\
2 & 2003 & 2100 & 41 & 2 \\
2 & 2004 & 2100 & 42 & 2 \\
2 & 2005 & 2200 & 43 & 2 
\end{matrix} \begin{matrix} 
\mathrm{persoon} & \mathrm{jaar} & \mathrm{inkomen} & \mathrm{leeftijd} & \mathrm{geslacht}\\
1 & 2003 & 1500 & 27 & 1 \\
1 & 2004 & 1700 & 28 & 1 \\
2 & 2003 & 2100 & 41 & 2 \\
2 & 2004 & 2100 & 42 & 2 \\
2 & 2005 & 2200 & 43 & 2 \\
3 & 2004 & 3000 & 35 & 1
\end{matrix}

Het voorbeeld hierboven is een voorbeeld van twee datasets. Individuele eigenschappen (inkomen, leeftijd, geslacht) zijn verzameld voor meerdere personen over meerdere jaren. Het rechter voorbeeld is ongebalanceerd, omdat niet ieder persoon ieder jaar is geobserveerd.

Een bekende dataset waar sprake is van paneldata is die van de gebruikers van de bonuskaart van Albert Heijn. Van meerdere consumenten wordt op verschillende momenten (namelijk iedere dag) gekeken wat er wordt aangeschaft.