Klaster komputerowy "szpak"

Klaster komputerowy "szpak"

Katedry Teorii Struktury Jądra Atomowego

Instytutu Fizyki Teoretycznej

Stan aktualny:

Klaster został definitywnie wyłączony

27 września 2008, 13:09: Klaster i kolejki zrestartowane po przerwie w zasilaniu.

25 kwietnia 2008, 02:00: Zainstalowane dwa nowe dyski 400GB. Na każdym są dwie "mirrorowane" partycje po 200GB. Jeden z nich jest nowym dyskiem \home a drugi nowym dyskiem \scratch. Zbiory użytkowników zostały skopiowane na nowe dyski, więc operacja powinna być dla użytkowników niezauważalna. Stary dysk /home jest teraz zamontowany jako /backup/2 a stary dysk /scratch jako /backup/1. Użytkownicy mogą używać tych dysków jako dodatkowych obszrów na dane.

5 lutego 2008, 15:00: Serwer zreperowany, klaster włączony. Nie działa dysk scratch.

2 lutego 2008, 19:00: Serwer szpak poważnie uszkodzony, prawdopodobnie płyta główna do wymiany.

22 października 2007, 22:00: Klaster włączony ale działają tylko węzły 64-bitowe. W piątek 26 października ok. 13:00 nastąpi kolejne wyłaczenie w celu wymiany baterii w UPS.

19 października 2007, 14:30: Klaster wyłączony, przenosiny do nowego pomieszczenia.

13 października 2007, 20:30: Klaster zostanie wyłączony w nocy z 18 na 19 października i włączony najprawdopodobniej w sobote 20 października po poludniu.

12 stycznia 2007, 21:30: Klaster działa na 16 węzłach. Węzły a08, a10, a11, a13 b03 i b08 są uszkodzone w różnym stopniu i są aktualnie reperowane.

30 grudnia 2006, 14:30: Klaster włączony.

29 grudnia 2006, 15:50: Przyczyna awarii nieznana.

20 grudnia 2006, 16:30: Awaria klimatyzacji usunięta, klaster włączony.

18 grudnia 2006, 11:40: Awaria klimatyzacji, klaster wyłączony.

22 listopada 2006, 19:50: Awaria klimatyzacji usunięta, klaster włączony, choć nie działają jeszcze 4 węzły 32-bitowe.

11 listopada 2006, 16:12: Awaria klimatyzacji, klaster wyłączony, nie wiadomo kiedy nowy klimatyzator będzie zainstalowany.

10 listopada 2006, 23:19: Kolejki uruchomione, nie działa jeszcze kilka węzłów, ale wszystkie węzły 64-bitowe działają.

10 listopada 2006, 16:15: Zainstalowany nowy dysk /home, serwer szpak uruchomiony, ale kolejki jeszcze nie dzialaja.

9 listopada 2006, 11:00: Przerwa w zasilaniu spowodowała wyłaczenie klastra. Ponowne włączenie będzie możliwe prawdopodobnie dopiero po zainstalowaniu nowego dysku /home.

6 listopada 2006, 12:25: Awaria dysku /home, kolejki zatrzymane.

12 października 2006, 13:25: System kolejkowania zrestartowany i działa, węzeł a07 uszkodzony i wyłączony z klastra.

12 października 2006, 08:03: System kolejkowania zawieszony, nowe prace nie są przyjmowane do klastra, stare sie liczą.

26 września 2006, 14:03: Cztery nowe węzły zostały włączone do klastra pod nazwami b05-b08.

19 września 2006, 17:10: Klaster podłączony bez modułu UPS; mogą wystąpić przerwy w pracy w wypadku braku zasilania oraz konieczne będzie ponowne wyłączenie przy instalacji naprawionego modułu UPS.

19 września 2006, 14:14: Klaster wyłączony z powodu serwisu zasilania.

12 września 2006, 12:16: Węzły a03 i a04 zostały na stałe usunięte z klastra aby zrobić miejsce dla 4 nowych węzłów z dwoma dwurdzeniowymi 64-bitowymi procesorami każdy.

27 czerwca 2006, 17:16: Klimatyzacja naprawiona.

22 czerwca 2006, 11:16: Awaria klimatyzacji, będzie usunięta prawdopodobnie w przyszłym tygodniu.

13 kwietnia 2006, 07:00: Węzły a03 i a07 zostały wyłączone, gdyż produkowały niepowtarzalne błędne wyniki bez żadnej diagnostyki. Zostaną przekazane do serwisu.

28 marca 2006, 14:16: Występują problemy z niektórymi węzłami (szczególnie 64 bitowymi), co objawia się przerywaniem prac na nich się wykonujących, problem jest badany.

21 lutego 2006, 06:50: Błąd schedulera spowodował przerwanie wykonujących się prac, problem jest badany.

17 lutego 2006, 13:00: Awaria klimatyzacji usunięta, wszytkie węzły włączone.

16 lutego 2006, 12:00: Awaria klimatyzacji, 4 węzły 64-bitowe zostały wyłączone.

3 stycznia 2006, 16:00: Kolejne dwa węzły 64-bitowe b03 i b04 zostały zainstalowane, uruchomione i włączone do klastra oraz do kolejki "opteron".

21 grudnia 2005, 15:28: Systemy przetwarzania wsadowego (PBS) i kolejkowania (MAUI) zostały przeinstalowane, nowe węzły 64-bitowe są w pełni włączone do klastra, prace które muszą być wykonywane na węzłach 64-bitowych należy wysyłać do kolejki "opteron".

4 listopada 2005, 15:40: Prowadzone są dalsze prace nad przeinstalowaniem systemu. Zadania mogą ulegać przerwaniu.

27 października 2005, 14:00: Węzły b01 i b02 zawieszone, pozostała część klastra działa.

18 października 2005, 14:00: Węzeł a08 zawieszony, system kolejkowania nie działa. Problem jest badany.

30 września 2005, 15:50: Uruchomiono nową kolejkę "opteron" przeznaczona do wysyłania prac na dwa nowe węzły 64-bitowe. Udostępniono użytkownikom kemendę diagnose służącą do sprawdzania stanu pracy klastra.

21 września 2005, 14:30: Dwa nowe węzły 64-bitowe zostały uruchomione i włączone do klastra. Trwają prace przy definicji kolejki przeznaczonej dla obliczeń wymagających procesorów 64-bitowych.

9 września 2005, 22:00: System na klastrze jest dostosowywany do dwu nowych węzłów - mogą występować różne problemy aż do zakończenia tej operacji.

31 sierpnia 2005, 12:00: Wiatraczek procesora zreperowany. Zastały również zainstalowane dwa nowe węzły na procesorach 64-bitowych, które będą uruchomione później.

24 sierpnia 2005, 13:40: Awaria chłodzenia procesora, klaster wyłączony.

21 marca 2005, 18:30: Awaria zasilania spowodowała przerwanie wszystkich prac liczących się na klastrze. Po przywróceniu zasilania klaster został włączony.

16 marca 2005: Pamiec wezlow a01-a06 i a09-a10 zostala rozszerzona do 1GB.

20 pazdziernika: Wezel a09 wrocil z przegladu. Jedynym stwierdzonym uszkodzeniem bylo zepsucie sie wiatraczka na ktoryms z chipow. Wezel zostal wlaczony do klastra i znajduje sie pod obserwacja.

18 pazdziernika, 12.40: Zawiesil sie wezel a08. Sprawa w toku.

13 pazdziernika, ~13.00: Wezel a09 zostal zabrany przez dostawce do przegladu.

6 pazdziernika 2003, rano: Sytuacja taka sama, jak 5 pazdziernika z tym, ze po zrestartowaniu maui wezel a09, choc juz nie zawieszony, nadal nie przyjmuje jobow. Komenda diagnose -n daje o nim komunikaty: WARNING: node 'a09' has more processors utilized than dedicated (2 > 0) WARNING: node 'a09' is busy but not assigned to an active job Tym razem wiadomo, ze w chwili zawieszenia a09 liczyly sie na nim dwa joby hf205c-12s uzytkownika polbrat.

5 pazdziernika 2003, rano: Zawiesil sie wezel a09. Niestety nie udalo sie ustalic, jakie joby liczyly sie na nim w chwili zawieszenia. Zawiesil sie tez maui, co mozna poznac po tym, ze zajmuje 99% czasu procesora. Kilka wezlow jest wolnych, ale nie wchodza na nie czekajace joby, nie dziala komenda qstat. Po zresetowaniu wezla a09 qstat zaczelo dzialac, ale nowe joby nadal nie wchodzily. Po zrestartowaniu maui joby weszly i wyglada, ze wszystko wrocilo do normy.

1 pazdziernika 2003, godzina ~16.00: Dodany jeden dwuprocesorowy wezel a15 o pamieci 2GB.

10 lipca 2003, godzina 15:50: Problemy ustąpiły po zresetowaniu węzła a10.

9 lipca 2003, godzina 16:50: Problemy ze schedulerem, administrator powiadomiony. Węzeł a10 zawieszony.

17 maja 2003, godzina 13:15: Węzły IDLE nie przyjmują prac po dłuższym okresie bezczynności. Problem jest badany przez administratora systemu. Można je zmusic do pracy puszczając na nich bezpośrednio (po rlogin) dowolny program, który na kilka sekund zajmie kilkadziesiąt MB pamięci.

7 maja 2003, godzina 12:47: Klaster włączony w nowym pomieszczeniu.

7 maja 2003, godzina 9:45: Klaster wyłączony na pół dnia - przenosiny.

5 maja 2003, godzina 14:15: Klaster bedzie niedlugo wyłączony bez uprzedzenia w celu przeniesienia do nowego pomieszczenia poza Instytut.

5 maja 2003, godzina 14:00: Węzeł a00 włączony z powrotem do kolejkowania.

1 maja 2003, godzina 20:00: Węzeł a00 wyłączony z kolejkowania.

24 marca 2003, godzina 19:25: Klaster włączony.