chewren123 napisał: Amazon EC2 jest świetny. Ale ma swoją cenę: Amazon EC2 Cennik, Pay as you Go dla Cloud Computing Services Pomysł, aby rozpocząć od zera od zera, to ubrudzić rękę, coś w rodzaju samodzielnej wymiany oleju silnikowego zamiast mechanika i płacenia 100 USD / -. Stamtąd opcje są dostępne od prostego indeksowania lub rozwiązywania problemu dużych zbiorów danych za pomocą R. Dołącz do nas, David i Kellogs. Jesteście ukrytymi smokami i przyczajonymi tygrysami. Nie jestem smokiem ani tygrysem W każdym razie DUŻE DANE nie są moją grą, przynajmniej jeszcze nie Co ciekawe, kiedy mówisz, że Amazon ma swoją cenę, co porównujesz? Załóżmy, że gdyby Jumpstart was nie sponsorował, jakie inne opcje są tańsze? Wiem, że dość dobrze znam ceny AWS i zastanawiam się, w której części uważasz, że cena jest nieodpowiednia lub nieodpowiednia? Zapraszam do dyskusji na ten temat Kolejna część dotyczy tego, w jaki sposób używanie AWS EC2 oznacza, że nie zaczynasz od zera? To prawda, że nie musisz martwić się infrastrukturą fizyczną i instalacją podstawowego systemu operacyjnego, ale nie rozumiem innych, w jaki sposób istotność konfiguracji i instalacji Hadoop jest łatwiejsza dzięki AWS EC2? Zapewniam cię, że możesz naprawdę się ubrudzić podczas pracy w AWS EC2, nie ułatwi ci to wcale (mniej części fizycznej). Nie nalegam na AWS, nie próbuję zrozumieć, co jest powodem, dla którego się nie wybieram. Jeśli jest to kwestia preferencji, mówię, że wszystko jest w porządku, ale wydaje się, że wyrażone przez ciebie obawy nie uzasadniają, dlaczego AWS byłby nieodpowiedni
POMOC: Hadoop - DUŻE dane
Wdrożenie klastrów Hadoop w SG nie jest możliwe w przypadku nieruchomości, które mamy tutaj. Rozmawiałem o Hadoop z konsultantem Cloudera, a on zacytował, że dobrej wielkości klaster prawdopodobnie potrzebuje około 500 węzłów Powiedziawszy to, Hadoop ma dużo potencjału. Prawie wszystkie problemy na świecie można zaimplementować w MapReduce
hawthorne napisał: Wdrożenie klastrów Hadoop w SG nie jest możliwe w przypadku nieruchomości, które mamy tutaj. Rozmawiałem o Hadoop z konsultantem Cloudera, a on zacytował, że dobrej wielkości klaster prawdopodobnie potrzebuje około 500 węzłów Ciekawe, czy do celów akademickich potrzebowałoby 500 węzłów? Rozumiem, w jaki sposób klaster na dużą skalę będzie miał nowe zestawy problemów, ale z naukowego punktu widzenia nie wydaje się całkowicie prawdą, że wdrożenie Hadoop musi być tak duże. Załóżmy, że cokolwiek pomiędzy 20-50 węzłów będzie w stanie dostrzec pewne nieodłączne problemy dotyczące infrastruktury i wydajności. Czy mogę zapytać, jakie są kryteria posiadania 500 węzłów? Jak wspomniałem z AWS w SG, można mieć tyle węzłów, ile chcesz. Pytanie, czy możesz sobie pozwolić
davidktw napisał: Ciekawe, czy do celów akademickich potrzebowałoby 500 węzłów? Rozumiem, w jaki sposób klaster na dużą skalę będzie miał nowe zestawy problemów, ale z naukowego punktu widzenia nie wydaje się całkowicie prawdą, że wdrożenie Hadoop musi być tak duże. Załóżmy, że cokolwiek pomiędzy 20-50 węzłów będzie w stanie dostrzec pewne nieodłączne problemy dotyczące infrastruktury i wydajności. Czy mogę zapytać, jakie są kryteria posiadania 500 węzłów? Jak wspomniałem z AWS w SG, można mieć tyle węzłów, ile chcesz. Pytanie, czy możesz sobie pozwolić Do celów uczenia się wystarczy 4-węzłowy klaster Hadoop, aby rozpocząć pisanie zadań MapReduce lub eksplorację gałęzi, świń lub HBase. Patrzę z perspektywy branży, w której jesteśmy zainteresowani zebraniem ogromnej ilości danych. Aby zobaczyć możliwości Hadoop w tym prawdziwym problemie, potrzebna będzie spora klaster. 500 węzłów jest obliczanych na podstawie ilości danych, które próbujesz rozbić, oraz czasu potrzebnego na zwrócenie wyników. Klastry Hadoop nie są tak kosztowne. komputery stacjonarne są wystarczające do działania jako węzły obliczeniowe (chociaż branża preferuje węzły klasy serwerowej). Głównym wyzwaniem są nadal nieruchomości. Gdzie zamierzasz umieścić swój klaster? Jak zapewnić skuteczne chłodzenie itp
hawthorne napisał: Do celów uczenia się wystarczy 4-węzłowy klaster Hadoop, aby rozpocząć pisanie zadań MapReduce lub eksplorację gałęzi, świń lub HBase. Patrzę z perspektywy branży, w której jesteśmy zainteresowani zebraniem ogromnej ilości danych. Aby zobaczyć możliwości Hadoop w tym prawdziwym problemie, potrzebna będzie spora klaster. 500 węzłów jest obliczanych na podstawie ilości danych, które próbujesz rozbić, oraz czasu potrzebnego na zwrócenie wyników. Klastry Hadoop nie są tak kosztowne. komputery stacjonarne są wystarczające do działania jako węzły obliczeniowe (chociaż branża preferuje węzły klasy serwerowej). Głównym wyzwaniem są nadal nieruchomości. Gdzie zamierzasz umieścić swój klaster? Jak zapewnić skuteczne chłodzenie itp Masz rację co do wielkości, pod warunkiem, że masz na myśli rozwiązanie problemu przemysłowego, to powiem dowolny rozmiar, o ile możesz uzasadnić moc obliczeniową klastra wielkością problemu, który próbujesz rozwiązać. Ale jeśli mnie zapytasz, nie przejmuję się zbytnio nieruchomościami, aby wdrożyć klaster hadoop od 500 do 1000 węzłów. Po pierwsze, bądźmy realistami. Jeśli płacisz dobre pieniądze, aby rozwiązać problem przemysłowy, który będzie wymagał 500 węzłów, nie będziesz używać pulpitu. Właśnie dlatego tworzone są systemy typu blade, dlatego tworzone są serwery rackowe. Singapur to kropka na mapie globalnej, a nie kropka na kawałku papieru formatu A4. Centra danych, na które natknąłem się w samym parku naukowym Cintech 1, są w stanie pomieścić ponad 500 węzłów. Wyzwanie jest w rzeczywistości związane z infrastrukturą sieciową, posiadanie 500 węzłów będzie bardzo wymagające dla infrastruktury sieciowej. Mówi się, że nauka o rakietach nie jest też gospodarzem dla 500 węzłów. Myślę, że musimy tu być realistami. To, że Hadoop może być hostowany na sprzęcie towarowym, nie oznacza, że tak musi być. Przy 500 węzłach wątpię, czy Twój sprzęt towarowy da ci najlepszy huk za dolara. Będziesz musiał zmierzyć się z wymianą sprzętu i wieloma problemami operacyjnymi, starając się utrzymać 500 węzłów w doskonałym stanie. Musisz mieć sprzęt monitorujący, taki jak HP Lightsout, Dell iDRAC itp., Aby ułatwić monitorowanie i zdalne zarządzanie. Jeśli mam poradzić sobie z 500 układami fizycznymi, nie ma mowy, żebym użył obudowy typu desktop / cokół, marnując miejsce. Wątpię, czy użyję twardego dysku wdrożonego na każdym serwerze, marnując czas na problemy operacyjne. Wolę kilka dużych sieci SAN z tymi wszystkimi bezdyskowymi serwerami połączonymi za pośrednictwem Infiniband, sieci 10 Gbs lub światłowodów. W ten sposób mogę zrobić miejsce dla serwerów tylko 1U. Wystarczy hostować nieco więcej niż 10 x szafy 42U, aby mieć 500 fizycznych węzłów. W rzeczywistości, jeśli zamierzam używać serwerów typu blade, mogę obsługiwać jeszcze większą gęstość. Korzystając z serwerów kasetowych IBM, które można znaleźć pod adresem http://www-03.ibm.com/systems/bladec...dware/chassis/, potrzebuję tylko szafy 10x 42U do hostowania 560 węzłów fizycznych w szafach 10x 42U z odstępami 5U pomiędzy nimi gniazdo w KVM, przełączniki i okablowanie w każdej szafie. Ale oczywiście wiem, że serwery typu blade są naprawdę szkodliwe dla centrum danych bez odpowiedniego systemu chłodzenia. Pamiętam, że wcześniej odwiedzałem pokojowe centrum danych w Internecie, jest bardzo zimno, więc tak naprawdę nie martwię się o systemy chłodzenia. Skuteczne chłodzenie dla 500 węzłów nie stanowi przełomu. Jeśli Amazon może obsługiwać AWS w Singapurze, 500 węzłów mieści się w limitach. W rzeczywistości, jeśli głównym celem jest rozwiązanie problemu, zamiast próbować dowiedzieć się, jak duży klaster można zbudować, wtedy sensowne jest używanie dobrych maszyn o dobrych specyfikacjach do uruchamiania klastra.
« Next Oldest | Next Newest »
Users browsing this thread: 2 Guest(s)