Recovery Time Objective

Recovery Time Objective (RTO) betekent hersteltijddoelstelling en is een begrip uit de wereld van de informatietechnologie. RTO is het streven om te voldoen aan de afgesproken hersteltijd na een computercrash, door de afdeling ICT en/of een ICT dienstverlener.

RTO is verwant aan RPO, beide zijn tijdsintervallen..

Zero RTO[bewerken | brontekst bewerken]

Een RTO van nul is niet haalbaar voor een volledige ICT-infrastructuur, maar wel voor één of enkele specifieke bedrijfskritische toepassing(en). Vooral bij database en web gerelateerde toepassingen zijn voorzieningen voorhanden, waarbij een defect nagenoeg naadloos wordt opgevangen.

Binnen de wereld van de informatietechnologie zijn er diverse oplossingen die fouttolerant zijn, enkele voorbeelden:

RAID
NLB
Server Cluster
SAN Cluster
VMware HA (High Availability)
Oracle RAC en/of Dataguard

Meestal vereisen deze oplossingen zowel specialistische hardware als software.

Minimaal haalbare waarden[bewerken | brontekst bewerken]

De onderstaande tabel geeft een globaal overzicht van de dienstverleningscijfers die in veel 'SLA's' worden afgesproken.

Item	Voldoende kostenfactor 0,5	Ruim voldoende kostenfactor 1	Goed kostenfactor 10^*	Zeer goed kostenfactor 50^*	Uitmuntend kostenfactor 100^*
Openstelling Informatievoorziening	05:00 – 03:00	7×24	7×24	7×24	7×24
Geplande downtime	≤ 5× / jaar	≤ 3 weekend / jaar	≤ 1 weekend / jaar	≤ 1 zon-, feestdag / jaar	geen
Openstellingtijd Servicedesk	08:30-17:00	7×24	7×24	7×24	7×24
Herstelvenster Incidenten	5× (08:30-17:00)	7× (08:00-18:00)	7×24	7×24	7×24
Dataverlies (RPO)	≤ 2 uur	≤ 1 uur	≤ 30 min.	≤ 15 min	enkele seconden
Ongeplande downtime volledige ICT-infrastructuur (RTO)	≤ 16 uur	≤ 8 uur	≤ 6 uur	≤ 4 uur	≤ 3 uur
Specifieke afspraak voor "applicatie X" (RTO ^{App. X})	≤ 8 uur ^(H)	≤ 2 uur ^(H)	≤ 30 sec.^(A)	0^(A)	0^(A)
Beschikbaarheid ICT-infrastructuur	99,85%	99,90%	99,95%	99,97%	99,98%

^(H) Handmatig aan de hand van uitgewerkte procedures
^(A) Automatisch
^* vermeerderde kostenfactoren worden voor 50% bepaald door apparatuur- en licentiekosten en voor de overige 50% door manuren voor intensief testen en het uitwerken van noodprocedures.

Theoretische beschikbaarheid[bewerken | brontekst bewerken]

Beschikbaarheidswaarde[bewerken | brontekst bewerken]

Beschikbaarheidswaarde is de “uptime”-verwachting van een apparaat of systeem, over een vooraf gedefinieerde tijdspanne.

beschikbaarheid = (1 − max. verwachte downtimeafgesproken tijdspanne) × 100%

Beschikbaarheid wordt uitgedrukt als een percentage. Een beschikbaarheid van 99%. zegt dat het systeem gemiddeld over een jaar genomen 99% van de tijd operationeel is. Dat komt neer op een toelaatbare downtime van 87 uur en 36 minuten op jaarbasis.

Het mag bekend worden verondersteld dat een beschikbaarheidswaarde van 100% niet haalbaar is. Feitelijk kunnen ook lagere waarden niet gegarandeerd worden. Het probleem zit in reeds verbruikte downtime. Zodra de maximaal toelaatbare downtime vóór het verstrijken van de overeengekomen tijdspanne verbruikt is moet men (om de overeengekomen beschikbaarheid te halen) over het restant van die tijdspanne soms een beschikbaarheid garanderen van 100%, en dat is niet mogelijk.

Statistisch gezien kan achteraf voldaan zijn aan een overeengekomen beschikbaarheid, maar vooraf is geen enkele garantie te geven. De valkuil is hier de afgesproken tijdspanne. In feite moet men na het incident opnieuw gaan tellen. Dit wordt in de praktijk nooit geaccepteerd. Deze impasse dwingt tot het afgeven en accepteren van loze beloften. Alleen goede afspraken over sancties helpen.

Beschikbaarheid van een keten[bewerken | brontekst bewerken]

De beschikbaarheid van een keten is het product van de beschikbaarheidscijfers van de afzonderlijke componenten. De tussen deze componenten liggende IT-infrastructuur moet hierbij meegenomen worden.

Bij een keten van 10 schakels met een individuele beschikbaarheid van (stel) 99,99% geldt:
Beschikbaarheid keten = 0,9999¹⁰ = 0,999 = 99,9%

wat in de praktijk neerkomt op een ongeplande downtime op jaarbasis van totaal (dit hoeft niet aan één stuk te zijn):

365 dagen × (1 − 0,999) = 0,365 dag = 8 uur en 45 minuten.

MTBF, MTTF en FR[bewerken | brontekst bewerken]

De MTBF-waarde (mean time between failures) staat voor de gemiddelde tijd dat een samengesteld apparaat of onderdeel operationeel kan zijn voordat een defect optreedt. Belangrijk hierbij is de term gemiddeld. Het is niet uitgesloten dat een onderdeel met een hoge MTBF kort na ingebruikname defect raakt. Gemiddeld genomen wordt de beloofde MTBF doorgaans waargemaakt.

Voor componenten ligt de waarde vaak op duizenden en zelfs tienduizenden uren. Bijvoorbeeld een harde schijf kan een MTBF hebben van 30.000 uur. De MTBF-waarde wordt meestal bepaald door intensief testen en ervaring bij soortgelijke producten. Bij samengestelde systemen is de MTBF vast te stellen door berekeningen waarbij de MTBF van alle afzonderlijke componenten meewegen.

Hierbij geldt:

{\frac {1}{MTBF(device)}}={\frac {1}{MTBF(Comp\,1)}}+{\frac {1}{MTBF(Comp\,2)}}+...+{\frac {1}{MTBF(Comp\,N)}}

Hieruit volgt dat de MTBF van een samengesteld apparaat altijd slechter is dan de component met laagste MTBF.
Een voorbeeld: wanneer een samengesteld apparaat uit drie onderdelen bestaat met een MTBF van resp. 10.000, 20.000 en 30.000 uur, dan is de MTBF van het gehele apparaat:

{\frac {1}{MTBF(device)}}={\frac {1}{10^{4}}}+{\frac {1}{2\cdot 10^{4}}}+{\frac {1}{3\cdot 10^{4}}}={\frac {6}{6\cdot 10^{4}}}+{\frac {3}{6\cdot 10^{4}}}+{\frac {2}{6\cdot 10^{4}}}={\frac {11}{6\cdot 10^{4}}}

\Rightarrow MTBF(device)={\frac {6\cdot 10^{4}}{11}}\ \approx \ 5455\,\mathrm {uur}

Naast MTBF worden ook grootheden gehanteerd als MTTF (mean time to failure) en λ (failure rate: FR). MTTF wordt gebruikt bij componenten die niet te repareren zijn, zoals een microprocessor of een geheugenbank. λ is de inverse waarde van MTBF.

Indien er geen MTBF-waarde beschikbaar is, kan deze worden samengesteld uit de volgende grootheden:

FD (fatigue and durability) = veroudering
AD (accidental damage) = menselijke schade zonder opzet
ED (environmental deterioration) = schade door nadelige omgevingsinvloeden

Hierbij gaat men uit van de volgende verhouding: FD/AD/ED = 50/30/20. Vervolgens stelt men: $\mathrm {N}$ = 'Item fatigue test life' (levensduur bij stresstest), dan geldt:

\lambda ={\frac {1}{MTBF}}={\frac {1}{\mathrm {N} \cdot 0{,}5}}+{\frac {1}{\mathrm {N} \cdot 0{,}3}}+{\frac {1}{\mathrm {N} \cdot 0{,}2}}

\Rightarrow MTBF\approx {\frac {\mathrm {N} }{10{,}3}}

Hieruit volgt dat de MTBF van een apparaat een factor 10,3 lager gesteld moet worden dan de levensduur die gevonden wordt bij een 'stresstest'.

Formule voor de beschikbaarheid[bewerken | brontekst bewerken]

De beschikbaarheid kan worden berekend uit de reparatietijd MTTR en de verwachte defectvrije periode MTBF. In de praktijk telt ook de MLDT (Mean Logistics Delay Time) mee. De formule luidt dan:

Beschikbaarheid = MTBFMTBF + MTTR + MLDT × 100%