news

Jak Google radzi sobie z tymi wszystkimi danymi?

Jeśli centrum danych jest informatycznym mózgiem firmy, to Google jest najbardziej łebską firmą na świecie. Choć cały czas ewoluuje, to dalej jej główna działalność skupia się na wiedzeniu wszystkiego. Oto kilka sposobów, dzięki którym mózg pracuje na najwyższych obrotach.
 
Sposób na poradzenie sobie z tak ogromną ilością danych nazywa się MapReduce. Jest to system opracowany przez same Google. Działa na zasadzie kilku prostych kroków, rozdzielając każdy rodzaj informacji i przekazując go poszatkowanego legionom innych komputerów.
 
Przyglądając się pracy MapReduce w 2008, Wired wyobraził sobie cały ten proces jako wyszukiwanie częstotliwości występowania słów w Google Books. Oto pięć głównych założeń w pracy systemu:
 
1. Najpierw dane muszą zostać zebrane. W tym wypadku, maszyny Google zbierają zeskanowaną stronę każdej książki znajdującej się w Google Books.
 
2. Informacje są oznaczane. W tym celu używa się właśnie MapReduce. Główny komputer określa wartość danych i dzieli je na mniejsze, łatwiejsze w obróbce, po czym przydziela innym komputerom. Dane te mogą być jeszcze nieraz później podzielone, zależy to jedynie od poziomu ich skomplikowania.
 
3. Informacje są zapisywane. Aby proces ten był jak najefektywniejszy, dane są zapisywane na dyskach twardych lokalnych komputerów, a nie wysyłane w ogromnych ilościach do centrali.
 
4. Dane są wyłapywane i ociosywane. Specjalnie do tego przeznaczone maszyny wyciągają dane od tych, które je poćwiartowały, i przetwarzają w listę słów oraz kolejność w której będą się pojawiać.
 
5. Dane są gotowe. Końcowy produkt działania systemu MapReduce magazyn Wired określił jako „zbiór informacji o twojej informacji”. W naszym przypadku, efektem byłaby możliwość wyszukania dowolnego słowa w zbiorze Google Books i sprawdzenia jak często się ono tam pojawia.
 

Powyższy przykład pokazał w jaki sposób Google radzi sobie z sortowaniem i rozdzielaniem najróżniejszych typów danych, z różnych źródeł, różnym użytkownikom. Kolejnym ambitnym zadaniem jest poradzenie sobie z tym, czego Google nie ma jeszcze na swoim sprzęcie, a co znajduje się w Internecie.
 
W zeszłym miesiącu Wired miał zaszczyt przyjrzeć się „algorytmowi, który rządzi siecią„. Okazało się, że nie istnieje jeden konkretny algorytm, lecz cały ich zestaw. Google nie zwalnia pierwszego miejsca na podium wyszukiwarek internetowych, ponieważ cały czas aktualizuje swoje metody wynajdywania informacji w sieci.
 
Nie chodzi jednak tylko o dopasowanie wyszukiwanych ciągów znaków do tego informacji umieszczonych w bazie. Amit Singhal, guru Google Search wyjaśnia: „nie dopasowujesz słów; starasz się dopasować ich znaczenie”.
 
Słowa są zbiorem skończonym. Nie potrzeba centrów danych by je składować – słownik wyrazów w zupełności wystarczy. Inną parą kaloszy jest za to znaczenie tych słów. Spotykamy się z nimi codziennie i jeszcze częściej z nich korzystamy, dla przykładu, w żartach. Każdy z nas ma w głowie własny MapReduce.
 
Google może i jest najlepszy w tym co robi, a ich systemy (takie jak MapReduce) tylko potwierdzają fakt, że będą jeszcze lepsi. Lecz jeśli chodzi o możliwości do przetworzania danych pod każdym możliwym kątem, to jeden człowiek jest w stanie przebić Googletrixa. Przynajmniej na razie. [Wired, Wikipedia]

Zdjęcie dzięki CNET


podobne treści