MapReduce
MapReduce is een door Google geïntroduceerd framework voor het in korte tijd uitvoeren van berekeningen over heel grote hoeveelheden data van vaak meerdere petabytes. MapReduce wordt door Google onder andere gebruikt voor het indiceren van grote hoeveelheden documenten voor de zoekmachine van Google en het analyseren van bezoekersaantallen en bezoekersgedrag van websites (Google Analytics).
Met MapReduce kan in korte tijd veel data worden verwerkt doordat het een grote taak opsplitst in deeltaken. Die deeltaken worden over meerdere computers verdeeld. De computers voeren vervolgens de deeltaken gelijktijdig uit (distributie). Dit via de functies map en fold (reduce) die bekend zijn uit de functionele programmeertalen. Als een van de computers het begeeft tijdens het uitvoeren van zijn deeltaak dan wordt die deeltaak automatisch door een andere computer overgenomen. Dit maakt het systeem zeer robuust.
Hadoop is een op MapReduce geïnspireerd opensource Java-framework voor de bouw van data-intensieve gedistribueerde applicaties.
Externe link[bewerken]
- "MapReduce: Simplified Data Processing on Large Clusters" — paper van Jeffrey Dean and Sanjay Ghemawat; van Google Labs