Regressie in segmenten

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken
Gesegmenteerde lineaire regressie

Regressie in segmenten is een methode van regressie waarbij de onafhankelijke variabelen worden verdeeld in segmenten en waarbij een regressie-analyse apart wordt uitgevoerd voor ieder segment of interval. Gesegmenteerde regressie is nuttig wanneer de relatie tussen onafhankelijke en afhankelijke variabelen plotselinge veranderingen vertoont van segment tot segment. De grenzen tussen de segmenten worden dan breekpunten genoemd. Wanneer in de segmenten lineaire regressies worden uitgevoerd spreekt men van gesegmenteerde lineaire regressie.

Het breekpunt kan worden geïnterpreteerd als hetzij een kritieke hetzij een veilige waarde of als een drempelwaarde, waarboven of waaronder (on)gewenste effecten optreden. Het breekpunt kan van belang zijn voor het nemen van beslissingen[1].

Gesegmenteerde lineare regressie van twee variabelen met twee intervallen[bewerken]

Eerste gedeelte horizontaal
Eerste gedeelte helt omhoog
Eerste gedeelte helt omlaag

Een regressie analyse van twee variabelen is gebaseerd op een ( y , x ) gegevensbestand, waar y de afhankelijke en 'x de onafhankelijke variabele is. Bij een regressie met twee segmenten wordt de kleinste-kwadratenmethode toegepast op elk van de twee segmenten, waarbij de regressie lijnen zo worden aangebracht dat zij zo nauw mogelijk aansluiten bij de gegevens terwijl de som van de kwadraten van de verschillen (SKV) tussen waargenomen (y) en berekende (Yr) waarden van de afhankelijke variabele zo klein mogelijk wordt gemaakt. Bij lineaire gesegmenteerde regressie leidt dit tot twee uitkomsten:

  • Yr = A1.x + K1     voor x < BP (breekpunt)
  • Yr = A2.x + K2     voor x > BP (breekpunt)

waar:

Yr is de verwachte (voorspelde) waarde van y bij een bepaalde waarde van x;
A1 en A2 zijn de regressie coëfficienten, die een aanwijzing zijn voor de helling van de lijn segmenten;
K1 en K2 zijn de regressie constanten die de Yr waarde geven op de y-as, waar x=0).

De gegevens kunnen verschillende soorten tendensen vertonen [2] , zie de figuren.

De methode geeft ook twee waarden van de correlatiecoëfficiënt (R):

  • (R1)2 = 1 − som { (y − Yr)2 } / som { (y − Yg1)2 }     voor x < BP (breekpunt)
  • (R2)2 = 1 − som { (y − Yr)2 } / som { (y − Yg2)2 }     voor x > BP (breekpunt)

waar:

som { (y − Yr)2 } is de geminimaliseerde SKV per segment;
Yg1 en Yg2 zijn de gemiddelde waarden van y in the respectievelijke segmenten.

Voor de bepaling van de meest waarschijnlijke tendens dienen statistische toetsen te worden toegepast om er zeker van te zijn dat de tendens betrouwbaar is (significant).

Wanneer geen significant breekpunt kan worden gevonden, valt men terug op de gewone lineaire regressie zonder breekpunt.

Voorbeeld[bewerken]

Voor de blauwe figuur bovenaan de pagina, die het verband geeft tussen de opbrengst van mosterd (Yr = Ym , t/ha) en zoutgehalte van de bodem (x = Ss, uitgedrukt als elektrische geleidbaarheid van de bodem oplossing: EC in dS/m), wordt gevonden dat [3]

BP = 4.93 , A1 = 0 , K1 = 1.74 , A2 = −0.129 , K2 = 2.38 , (R1)2 = 0.0035 (niet significant) , (R2)2 = 0.395 (significant) en:

  • Ym = 1.74 t/ha                        for Ss < 4.93 (breekpunt)
  • Ym = −0.129 Ss + 2.38 t/ha     for Ss > 4.93 (breekpunt)

hetgeen er op wijst dat bodemzoutgehalten < 4.93 dS/m veilig zijn en bodemzoutgehalten > 4.93 dS/m de opbrengst verlagen @ 0.129 t/ha per eenheid toename van het zoutgehalte. De figuur toont ook de betrouwbaarheidskrommen zoals hier beneden nader uitgewerkt.

Toetsingen[bewerken]

Voorbeeld van een tijdreeks, type 5, volgens het programma SegReg [4]

De volgende statistische toetsen moeten gebruikt worden bij het bepalen van de verschillen tendenstypen:

  1. significantie van het breekpunt (BP) door BP uit te drukken als een functie van regressiecoëfficiënten A1 en A2, en de gemiddelden Y1 en Y2 van de (y) gegevens, en de gemiddelden X1 en X2 van de x gegevens links en recht van BP met gebruikmaking van de wetten van voortplanting van fouten in optellingen en vermenigvuldigingen om de standaard afwijking (SA) van BP te berekening met de toets van Student.
  2. significantie van A1 en A2 door toepassing van de kansverdeling van Student en de standaard afwijking SA van A1 en A2
  3. significantie van het verschil tussen A1 en A2 door toepassing van de kansverdeling van Student met gebruikmaking van de SA van het verschil
  4. significantie van het verschil tussen Y1 en Y2 door toepassing van de kansverdeling van Student met gebruikmaking van de SA van het verschil

Bovendien wordt gebruikgemaakt van de correlatiecoëfficiënt van alle gegevens (Ra), de coëfficiënt van verklaring, betrouwbaarheidsintervallen van de regressielijnen en variantie analyse [5]

De determinatiecoëfficiënt (R2), die gemaximaliseerd dient te worden onder de voorwaarden van de significantietoetsen, wordt gevonden als:

R^2 = \frac{1-\sum(y-y_r)^2}{1-\sum(y-y_a)^2}.

De Cv coëfficiënt kan waarden aannemen tussen 0 (totale afwezigheid van verklaring) en 1 (volledige verklaring).
De optimale waarde van het breekpunt BP wordt gevonden door de Cv coëfficiënt te maximaliseren.

Referenties[bewerken]

  1. Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39 : [1]
  2. Drainage research in farmers' fields: analysis of data. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands : [2]
  3. R.J.Oosterbaan, D.P.Sharma, K.N.Singh and K.V.G.K.Rao, 1990, Crop production and soil salinity: evaluation of field data from India by segmented linear regression. In: Proceedings of the Symposium on Land Drainage for Salinity Control in Arid and Semi-Arid Regions, February 25th to March 2nd, 1990, Cairo, Egypt, Vol. 3, Session V, p. 373 - 383.
  4. SegReg, free software for segmented linear regression, download at : [3]
  5. Statistical significance of segmented linear regression with break-point using variance analysis and F-tests. Download van [4] onder nr. 13, of direct als PDF : [5]