Autocorrelatie

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken
Boven: Grafiek van 100 aselecte getallen met een „verborgen” sinus erin.
Onder: Autocorrelatiefunctie hiervan.

In de statistiek en de signaalverwerking is autocorrelatie de kruiscorrelatie van een functie of signaal met zichzelf. Men kan autocorrelatie beschouwen als de mate van gelijkenis tussen de functie en een in de tijd verschoven kopie daarvan. Het is een wiskundig instrument om zich herhalende patronen te vinden, zoals de aanwezigheid van een periodiek signaal in ruis, of om de ontbrekende grondtoon te vinden in een signaal waarvan alleen de boventonen gegeven zijn. Autocorrelatie wordt veel gebruikt in de signaalverwerking om reeksen van waarden te analyseren, zoals tijdsafhankelijke signalen.

Definities[bewerken]

Verschillende onderzoeksgebieden definiëren de autocorrelatie op verschillende wijze, en deze definities zijn niet allemaal equivalent. In sommige gebieden worden de termen autocorrelatie en autocovariantie door elkaar gebruikt.

Statistiek[bewerken]

In de statistiek beschrijft de autocorrelatie van een stochastisch proces de correlatie tussen de waarden van dit proces op verschillende tijdstippen, als functie van de twee tijdstippen of van het tijdsverschil. Stel dat X een herhaalbaar proces en i een tijdstip na het starten van het proces. (i kan voor een discreet proces een geheel getal of voor een continu proces een reëel getal zijn). Dan is Xi de waarde (of de realisatie gegenereerd door een gegeven run) van het proces op tijstip i. Stel verder dat het proces voor alle tijdstippen i gedefinieerde waarden heeft voor de verwachtingswaarde μi en de variantie σi2. De defnitie van de autocorrelatie is dan:

R(s,t) = \frac{\operatorname{E}[(X_t - \mu_t)(X_s - \mu_s)]}{\sigma_t\sigma_s}\,

waarin E de verwachtingswaarde is. Merk op dat deze formule niet voor alle tijdreeksen of processen goed gedefinieerd is, aangezien de variantie nul (voor constante processen) of oneindig kan zijn. Als de functie R goed gedefinieerd is, moet zijn waarde in het bereik [–1, 1] liggen, waarbij 1 volledige correlatie en –1 volledige anticorrelatie betekent.

Als Xt een stationair proces van de tweede orde is, zijn de verwachtingswaarde μ en de variantie σ2 tijdsonafhankelijk. De autocorrelatie hangt in dat geval alleen af van het verschil tussen t en s: de correlatie hangt alleen nog af van het tijdsverschil tussen de twee waarden en niet meer van hun tijdstip. Dit impliceert tevens dat de autocorrelatie kan worden uitgedrukt als een functie van de tijdvertraging, en dat dit een even functie is van de vertraging τ = s – t. Dit leidt tot de bekendere vorm:

R(\tau) = \frac{\operatorname{E}[(X_t - \mu)(X_{t+\tau} - \mu)]}{\sigma^2}

Omdat dit een even functie is, geldt

R(\tau) = R(-\tau)\!

In sommige andere vakgebieden dan statistiek en tijdreeksanalyse is het gebruikelijk de normering met σ2 te laten vervallen en de term autocorrelatie uitwisselbaar te gebruiken met autocovariantie. De normering is echter van belang zowel omdat de interpretatie van de autocorrelatie als een correlatie een schaalvrije maat biedt voor de sterkte van de statistische afhankelijkheid, als omdat de normering van invloed is op de statistische eigenschappen van de geschatte autocorrelaties.

Signaalverwerking[bewerken]

In de signaalverwerking wordt bovenstaande definitie veelal gebruikt zonder de normering, dat wil zeggen zonder het gemiddelde eraf te trekken en het resultaat te delen door de variantie. Wanneer de autocorrelatiefunctie wordt genormeerd met het gemiddelde en de variantie, noemt men dat soms de autocorrelatiecoëfficiënt.[1]

Als f(t) een signaal is, wordt de continue autocorrelatie Rff(τ) meestal de continue kruiscorrelatie-integraal van f(t) bij een tijdsvertraging τ genoemd:

R_{ff}(\tau) = (f(t) * \overline{f}(-t))(\tau) = \int_{-\infty}^\infty f(t+\tau)\overline{f}(t)\, {\rm d}t = \int_{-\infty}^\infty f(t)\overline{f}(t-\tau)\, {\rm d}t

waarin \scriptstyle \overline{f} de complex geconjugeerde en \scriptstyle * de convolutie voorstellen. Voor een reële functie geldt \scriptstyle \overline{f} = f.

De discrete autocorrelatie R bij vertraging j voor een discreet signaal xn luidt

R_{xx}(j) = \sum_n x_n\,\overline{x}_{n-j}.

Bovenstaande definities gelden voor signalen die kwadratisch integreerbaar of kwadratisch sommeerbaar zijn, dat wil zeggen dat zij een eindige energie hebben. Signalen die „eeuwig voortduren” worden daarentegen als aselecte processen behandeld, waarbij op grond van de verwachte waarden verschillende definities worden gebruikt. Voor stationaire aselecte processen in brede zin worden de autocorrelaties gedefinieerd als

R_{ff}(\tau) = \operatorname{E}\left[f(t)\overline{f}(t-\tau)\right]
R_{xx}(j) = \operatorname{E}\left[x_n\,\overline{x}_{n-j}\right].

Voor stationaire processen zullen dit ook functies van t of n zijn.

Voor processen die ook ergodisch zijn kan de verwachte waarde worden vervangen door de limiet over een tijdsgemiddelde. De autocorrelatie van een ergodisch proces wordt soms gedefinieerd als of gelijkgesteld aan[1]

R_{ff}(\tau) = \lim_{T \rightarrow \infty} \frac{1}{T} \int_0^T f(t+\tau)\overline{f}(t)\, {\rm d}t
R_{xx}(j) = \lim_{N \rightarrow \infty} \frac{1}{N} \sum_{n=0}^{N-1}x_n\,\overline{x}_{n-j}.

Deze definities hebben het voordeel dat zij een zinvol goed-gedefinieerd resultaat met één parameter geven voor ergodische functies, zelfs wanneer deze functies niet het resultaat zijn van ergodische processen.

Anderzijds kunnen „eeuwigdurende” signalen worden geanalyseerd met een autocorrelatie over een korte tijd, met behulp van integralen over een eindige tijd.

Meerdimensionale autocorrelatie wordt op soortgelijke wijze gedefinieerd. Zo leidt de autocorrelate van een kwadratisch sommeerbaar discreet signaal in drie dimensies tot

R(j,k,\ell) = \sum_{n,q,r} x_{n,q,r}\,x_{n-j,q-k,r-\ell}

Wanneer de gemiddelde waarden worden afgetrokken voordat de autocorrelatiefunctie wordt berekend, wordt de resulterende functie meestal de autocovariantiefunctie genoemd.

Eigenschappen[bewerken]

In deze paragraaf worden alleen eendimensionale autocorrelaties beschreven, omdat de meeste eigenschappen eenvoudig zijn over te brengen op meerdimensionale gevallen.

  • Een fundamentele eigenschap van autocorrelatie is symmetrie: \scriptstyle R(i)\ =\ R(-i), hetgeen eenvoudig uit de definitie valt af te leiden. In het continue geval is de autocorrelatie een even functie indien f een reële functie is:
R_f(-\tau) = R_f(\tau)\,
en een Hermitische functie indien f een complexe functie functie is:
R_f(-\tau) = R_f^*(\tau)\,
  • De continue autocorrelatiefunctie heeft een piek in de oorsprong, waar hij een reële waarde heeft. Dat wil zeggen dat voor elke τ geldt \scriptstyle |R_f(\tau)|\ \leq\ R_f(0). Dit is een gevolg van de ongelijkheid van Cauchy-Schwarz. Hetzelfde geldt in het geval van een discrete functie.
  • De autocorrelatiefunctie van een periodieke functie is zelf eveneens periodiek, met dezelfde periode.
  • De autocorrelatie van de som van twee volledig ongecorreleerde functies (hun kruiscorrelatie bedraagt 0 voor alle τ) is de som van de autocorrelaties van de afzonderlijke functies.
  • Aangezien autocorrelatie een bijzonder soort kruiscorrelatie is, behoudt hij alle eigenschappen van de kruiscorrelatie.
R(\tau) = \int_{-\infty}^\infty S(f) e^{j 2 \pi f \tau} \, {\rm d}f
S(f) = \int_{-\infty}^\infty R(\tau) e^{- j 2 \pi f \tau} \, {\rm d}\tau.
  • Voor functies met reële waarden heeft de autocorrelatiefunctie een symmetrische getransformeerde, zodat de stelling van Wiener-Khinchin ook kan worden uitgedrukt in alleen reële cosinussen:
R(\tau) = \int_{-\infty}^\infty S(f) \cos(2 \pi f \tau) \, {\rm d}f
S(f) = \int_{-\infty}^\infty R(\tau) \cos(2 \pi f \tau) \, {\rm d}\tau

Efficiënte berekening[bewerken]

Voor gegevens in de vorm van een discrete reeks is het vaak nodig de autocorrelatie snel te berekenen. Terwijl de brute-forcemethode van de orde n2 is, zijn er verschillende efficiënte algoritmes die de autocorrelatie kunnen berekenen met een orde n log(n). Zo kan met de stelling van Wiener-Khinchin de autocorrelatie worden berekend vanuit de ruwe gegevens X met behulp van twee Fast Fourier transformaties (FFT):[2]

F_R(f) = \text{FFT}(X(t)) \!
S(f) = F_R(f) {F_R}^*(f)
R(\tau) = \text{IFFT}(S(f)) \!

waarin IFFT de inverse Fast Fourier transformatie is. Het sterretje geeft de complex geconjugeerde aan.

Toepassingen[bewerken]

  • Het meten van optische spectra en van zeer korte lichtpulsen van lasers, met behulp van zogenaamde optische autocorrelatoren.
  • Het meten van de grootteverdeling van zeer kleine deeltes of micellen in een vloeistof. Als een laserbundel in de vloeistof schijnt, wordt het licht enigszins verstrooid, wat gecorreleerd is aan de bewegingen van de deeltjes. Autocorrelatie van het signaal levert een beeld van de diffusiesnelheid van de deeltjes. Als de viscositeit van de deeltjes bekend is, kan hieruit de grootte van de deeltjes worden berekend.
  • In de signaalverwerking kan autocorrelatie informatie verschaffen over zich herhalende patronen, zoals de maat in muziek, of de frequentie van pulsars, hoewel de tijdstip van de maat hiermee niet kan worden bepaald. Ook kan de hoogte van een muziektoon ermee worden geschat.
  • Ruimtelijke, in plaats van tijdsafhankelijke, autocorrelatie met behulp van de Patterson-functie wordt gebruik in de röntgendiffractie voor het herstellen van de Fourierfase-informatie van atoomposities, die niet met diffractie alleen kunnen worden verkregen.
  • In de statistiek wordt ruimtelijke autocorrelatie tussen bepaalde posities gebruikt om de onnauwkeurigheden in de gemiddelde waarden te schatten wanneer een heterogene populatie wordt bemonsterd.
  • De SEQUEST-algoritme voor het analyseren van massaspectra gebruikt autocorrelatie in combinatie met kruiscorrelatie om de overeenkomst te achterhalen tussen het waargenomen spectrum en een geïdealiseerd spectrum van een peptide.
  • In paneldata verstaat men onder ruimtelijke autocorrelatie de ruimtelijke correlatie van een variabele met zichzelf.

Zie ook[bewerken]

Externe links[bewerken]

Voetnoten[bewerken]

  1. a b (en) Patrick F. Dunn, Measurement and Data Analysis for Engineering and Science, New York: McGraw–Hill, 2005 ISBN 0-07-282538-3
  2. (en) Box, G. E. P., G. M. Jenkins, en G. C. Reinsel. Time Series Analysis: Forecasting and Control. 3rd ed. Upper Saddle River, NJ: Prentice–Hall, 1994.