회사에서 일하고 – 집에 와서 일하고 – 주말에도 일하고,, 하는 생활을 계속 반복했더니 결국 ㅠ.ㅠ 오늘은 회사에서 멍 때리고 있었던 시간이 두 시간은 넘었던 것 같다. 역시 workholic은 별로.. 적당히 밸런스를 맞추는 것이 중요함.. 그래서 오늘은 집에 오자 마자 호핀 보면서 놀고 있음 ㅎㅎ
주말에 있었던 장애 얘기를 잠깐 해 보면, 돌리는 job이 꽤 많다 보니 hadoop log가 생각보다 많이 쌓였고, aws에서 주어지는 local 하드(?)가 정말 적은데, 용량이 꽉 차 버렸음. job log를 파일로 떨궈야 하는데, 파일로 남길 수가 없으니, 메모리에 계속 들고 있다가 결국 일요일 오후 네 시 경에 job tracker가 뻗었고, 전체 작업 중단..
문제는 우리가 월요일이 되어서야 사태를 파악하고 수습에 들어갔다는 것. 얼른 모니터링 시스템부터 만들어야겠다. ;;
클러스터는 뻗었지만, DB와 API 서버 군들은 분리가 되어 있었기에, 다행이 장애가 외부에 노출되는 문제는 없었고, 어쨌든 현재까지 “외부에 노출되는” 기준으로 무사고는 이어지고 있음. 껄껄