POMOC: Hadoop - DUŻE dane
#11

chewren123 napisał: Amazon EC2 jest świetny. Ale ma swoją cenę: Amazon EC2 Cennik, Pay as you Go dla Cloud Computing Services Pomysł, aby rozpocząć od zera od zera, to ubrudzić rękę, coś w rodzaju samodzielnej wymiany oleju silnikowego zamiast mechanika i płacenia 100 USD / -. Stamtąd opcje są dostępne od prostego indeksowania lub rozwiązywania problemu dużych zbiorów danych za pomocą R. Dołącz do nas, David i Kellogs. Jesteście ukrytymi smokami i przyczajonymi tygrysami. Nie jestem smokiem ani tygrysem W każdym razie DUŻE DANE nie są moją grą, przynajmniej jeszcze nie Co ciekawe, kiedy mówisz, że Amazon ma swoją cenę, co porównujesz? Załóżmy, że jeśli Jumpstart was nie sponsoruje, jakie inne opcje są tańsze? Wiem, że dość dobrze znam ceny AWS i zastanawiam się, w której części uważasz, że cena jest nieodpowiednia lub nieodpowiednia? Zapraszam do dyskusji na ten temat Kolejna część dotyczy tego, w jaki sposób używanie AWS EC2 oznacza, że nie zaczynasz od zera? To prawda, że nie musisz martwić się infrastrukturą fizyczną i instalacją podstawowego systemu operacyjnego, ale nie rozumiem innych, w jaki sposób istotność konfiguracji i instalacji Hadoop jest łatwiejsza dzięki AWS EC2? Zapewniam cię, że możesz naprawdę ubrudzić się podczas pracy w AWS EC2, to nie ułatwi ci dużo (mniej części fizycznej). Nie naciskam na AWS, nie próbuję zrozumieć, co jest powodem, dla którego nie wybrałem się. Jeśli jest to kwestia preferencji, mówię, że wszystko jest w porządku, ale wydaje się, że wyrażone przez ciebie obawy nie uzasadniają, dlaczego AWS byłby nieodpowiedni
Reply
#12

Wdrożenie klastrów Hadoop w SG nie jest możliwe w przypadku nieruchomości, które mamy tutaj. Rozmawiałem o Hadoop z konsultantem Cloudera, a on zacytował, że dobrej wielkości klaster prawdopodobnie będzie potrzebował około 500 węzłów Powiedziawszy to, Hadoop ma dużo potencjału. Prawie wszystkie problemy na świecie można zaimplementować w MapReduce
Reply
#13

hawthorne napisał: Wdrożenie klastrów Hadoop w SG nie jest możliwe w przypadku nieruchomości, które mamy tutaj. Rozmawiałem o Hadoop z konsultantem Cloudera, a on zacytował, że dobrej wielkości klaster prawdopodobnie będzie potrzebował około 500 węzłów Ciekawe, czy do celów akademickich potrzebowałoby 500 węzłów? Rozumiem, że klaster na dużą skalę będzie miał nowe zestawy problemów, ale z naukowego punktu widzenia nie wydaje się całkowicie prawdą, że wdrożenie Hadoop musi być tak duże. Załóżmy, że cokolwiek pomiędzy 20-50 węzłów będzie w stanie dostrzec pewne nieodłączne problemy dotyczące infrastruktury i wydajności. Czy mogę zapytać, jakie są kryteria posiadania 500 węzłów? Jak wspomniałem z AWS w SG, można mieć tyle węzłów, ile chcesz. Pytanie, czy możesz sobie pozwolić
Reply
#14

davidktw napisał: Ciekawe, czy do celów akademickich potrzebowałoby 500 węzłów? Rozumiem, w jaki sposób klaster na dużą skalę będzie miał nowe zestawy problemów, ale z naukowego punktu widzenia nie wydaje się całkowicie prawdą, że wdrożenie Hadoop musi być tak duże. Załóżmy, że cokolwiek między 20-50 węzłów będzie w stanie dostrzec pewne nieodłączne problemy dotyczące infrastruktury i wydajności. Czy mogę zapytać, jakie są kryteria posiadania 500 węzłów? Jak wspomniałem z AWS w SG, można mieć tyle węzłów, ile chcesz. Pytanie, czy możesz sobie pozwolić Do celów uczenia się wystarczy 4-węzłowy klaster Hadoop, aby rozpocząć pisanie zadań MapReduce lub eksplorację gałęzi, świń lub HBase. Patrzę z perspektywy branży, w której jesteśmy zainteresowani zebraniem ogromnej ilości danych. Aby zobaczyć możliwości Hadoop w tym prawdziwym problemie, potrzebna będzie spora klaster. 500 węzłów jest obliczanych na podstawie ilości danych, które próbujesz rozbić, oraz czasu potrzebnego na zwrócenie wyników. Klastry Hadoop nie są tak kosztowne. komputery stacjonarne są wystarczające do działania jako węzły obliczeniowe (chociaż branża preferuje węzły klasy serwerowej). Głównym wyzwaniem są nadal nieruchomości. Gdzie zamierzasz umieścić swój klaster? Jak zapewnić skuteczne chłodzenie itp
Reply
#15

hawthorne napisał: Do celów uczenia się wystarczy 4-węzłowy klaster Hadoop, aby rozpocząć pisanie zadań MapReduce lub eksplorację gałęzi, świń lub HBase. Patrzę z perspektywy branży, w której jesteśmy zainteresowani zebraniem ogromnej ilości danych. Aby zobaczyć możliwości Hadoop w tym prawdziwym problemie, potrzebna będzie spora klaster. 500 węzłów jest obliczanych na podstawie ilości danych, które próbujesz rozbić, oraz czasu potrzebnego na zwrócenie wyników. Klastry Hadoop nie są tak kosztowne. komputery stacjonarne są wystarczające do działania jako węzły obliczeniowe (chociaż branża preferuje węzły klasy serwerowej). Głównym wyzwaniem są nadal nieruchomości. Gdzie zamierzasz umieścić swój klaster? Jak zapewnić skuteczne chłodzenie itp Masz rację co do wielkości, pod warunkiem, że masz na myśli rozwiązanie problemu przemysłowego, to powiem dowolny rozmiar, o ile możesz uzasadnić moc obliczeniową klastra wielkością problemu, który próbujesz rozwiązać. Ale jeśli mnie zapytasz, nie przejmuję się zbytnio nieruchomościami, aby wdrożyć klaster hadoop od 500 do 1000 węzłów. Po pierwsze, bądźmy realistami. Jeśli płacisz dobre pieniądze, aby rozwiązać problem przemysłowy, który będzie wymagał 500 węzłów, nie będziesz używać pulpitu. Właśnie dlatego tworzone są systemy typu blade, dlatego tworzone są serwery rackowe. Singapur to kropka na mapie globalnej, a nie kropka na kawałku papieru formatu A4. Centra danych, na które natknąłem się w samym parku naukowym Cintech 1, są w stanie pomieścić ponad 500 węzłów. Wyzwanie jest w rzeczywistości związane z infrastrukturą sieciową, posiadanie 500 węzłów będzie bardzo wymagające dla infrastruktury sieciowej. Mówi się, że nauka o rakietach nie jest też gospodarzem dla 500 węzłów. Myślę, że musimy tu być realistami. To, że Hadoop może być hostowany na sprzęcie towarowym, nie oznacza, że tak musi być. Przy 500 węzłach wątpię, czy Twój sprzęt towarowy da ci najlepszy huk za dolara. Będziesz musiał zmierzyć się z wymianą sprzętu i wieloma problemami operacyjnymi, starając się utrzymać 500 węzłów w doskonałym stanie. Musisz mieć sprzęt monitorujący, taki jak HP Lightsout, Dell iDRAC itp., Aby ułatwić monitorowanie i zdalne zarządzanie. Jeśli mam poradzić sobie z 500 fizycznymi systemami, nie ma mowy, żebym użył obudowy typu desktop / cokół, marnując miejsce. Wątpię, czy użyję twardego dysku wdrożonego na każdym serwerze, marnując czas na problemy operacyjne. Wolę kilka dużych sieci SAN z tymi wszystkimi bezdyskowymi serwerami połączonymi za pośrednictwem Infiniband, sieci 10 Gbs lub światłowodów. W ten sposób mogę zrobić miejsce dla serwerów tylko 1U. Wystarczy hostować nieco więcej niż 10 x szafy 42U, aby mieć 500 fizycznych węzłów. W rzeczywistości, jeśli zamierzam używać serwerów typu blade, mogę obsługiwać jeszcze większą gęstość. Korzystając z serwerów kasetowych IBM, które można znaleźć pod adresem http://www-03.ibm.com/systems/bladec...dware/chassis/, potrzebuję tylko szafy 10x 42U do hostowania 560 węzłów fizycznych w szafach 10x 42U z odstępami 5U pomiędzy nimi gniazdo w KVM, przełączniki i okablowanie w każdej szafie. Ale oczywiście wiem, że serwery typu blade są naprawdę szkodliwe dla centrum danych bez odpowiedniego systemu chłodzenia. Pamiętam, że wcześniej odwiedzałem pokojowe centrum danych w Internecie, jest bardzo zimno, więc tak naprawdę nie martwię się o systemy chłodzenia. Skuteczne chłodzenie dla 500 węzłów nie stanowi przełomu. Jeśli Amazon może obsługiwać AWS w Singapurze, 500 węzłów mieści się w limitach. W rzeczywistości, jeśli głównym celem jest rozwiązanie problemu, zamiast próbować dowiedzieć się, jak duży klaster można zbudować, wówczas sensowne jest używanie dobrych maszyn o dobrych specyfikacjach do uruchamiania klastra.
Reply


Forum Jump:

Thread Rating:
  • 0 Vote(s) - 0 Average
  • 1
  • 2
  • 3
  • 4
  • 5


Users browsing this thread: 2 Guest(s)