본문 바로가기

☆ I T 분 야/  1) 프 로 그 래 밍

하둡프로그래밍 이보다 정확히 교육하는데는 없다!!


 

시대가 점점 데이터중심으로 변함에 따라

빅데이터가 급상하고 있습니다.

이에 HW와 SW의 표준은

평준화 되고 있으며

데이터는 복제나 공유가 되지 않고

자사에 데이터가 돈이되는 시대가

됨에 따라 빅데이터는 이슈화 되고있습니다

이에 빅데이터를 처리하는

 SW가 중요해지고 있어서

그역활 하고있는 SW하둡

빅데이터를 처리하는 분야의

소프트웨어가 각광 받고 있습니다.


 

 

하둡은 무슨프로그램인가요???????

 

하둡(Hadoop)은 대량의 자료를 처리할 수 있는

컴퓨터 클러스트에서

 동작하는 분산 응용프로그램을

지원해주는 자바 소프트웨어

 프레임워크 입니다.

본래 너치의 분산 처리를

지원하기 위해 개발됬는데

분산처리 시스템인 구글 파일 시스템을

 대처 할수 있는 프로그램 인것이죠.

또 관계형 데이터베이스 테이블에

데이터를 저장하는 데에

막대한 비용을 들이지 않고

 하둡 분산형 파일시스템을 이용하여

데이터를 다수의 기기와

드라이브에 저장하며 다수의

노드로 이뤄진 하둡 시스템에 데이터가

 자동적으로 저장되게 만들어집니다.


 

 

이해가 어려우신 분들을 위해

간단하게 말해서  하둡(Hadoop)

빅데이터를 분산 처리하여

빠른 시간 내 정리하여 결과를 만들어내는

 오픈소스 기반 데이터 관리 프로그램 입니다.

 


 

그러면 분산저장이 뭐죠???


하둡 파일시스템(HDFS)을

이용해 파일을 적당한 사이즈로

나누어 각각의 개별 컴퓨터에 저장하며

데이터 유실 방지를 막기위해

많은 사람들이 접근할때 부하처리를 위해

복사본을 만들어 둡니다.

이 분산 저장은 고성능 서버에 저장 하는것보다

비용절감이 되죠. 저가형 저장소를 여러개를

묶어서 마치 레이드 처럼 동작하게 하기위한

분산저장 하는 것입니다.


 

 

다음은 분산처리


맵리듀스(Mapreduce)라는 프레임워크를 이용하여

계산하며 분산처리를 위해서 프레임워크를

만들어 둔것입니다.

분산처리를 위해 프레임워크에 맞춰서

코딩을 하고 하둡 시스템에서

그것을 실행하면 자동으로 분산처리 됩니다.

 

 

 

(Q)아니 그러면 단점은없는건가요??

 

단점 물론있죠 하지만 단점을 먼저말하시전에

장점부터 말씀드리겠습니다.

오픈소스로 라이센스 비용부담이 적고

시스템을 중단하지 않아도

장비의 추가 삭제가 편하고

일부 장비에 장애가 발생하더라도

전체적인 시스템 사용하는데

영향을 적게줍니다.

비용면에서 보게되면 저렴한 비용으로

구축이 가능하며 비용대비 빠르게 데이터를

처리할수 있습니다.

분산저장의 기능으로 복제본이 따로

저장되기 때문에 서버 장애가 발생해도

데이터 복구가 가능합니다

 


 

단점


HDFS에 저장된 데이터는 변경이 불가능 하며

대용량 데이터의 배치 처리에는 적합하나

스트리밍과 같은 실시간성 데이터분석에는

아직 부적합 합니다..

 

 

 

이렇게 빅데이터분야가 떠오르면서

하둡프로그래밍을 준비하는 사람도 많이늘어났고

여기저기 하둡을 배우려고 하는사람 또한 많으며

IT뱅크에서도 하둡프로그래밍 교육이 진행중에있습니다

대신 하둡 교육을 듣기전에 리눅스와 네트워크

프로그래밍 언어에 대해서도 공부를하셔야

수월하게 진행이될수있습니다.

 


 

그 이유는 하둡 클러스터 구축을 하기위해선

리눅스 환경에 구성이 되기 떄문이며 클러스터

네트워크 환경에서 구축되므로

네트워크에 대해서도 알아야 한다는 것이죠.

 

오늘 포스팅은 빅데이터를

통해 하둡프로그래밍에 대해서

알아보았는데요.

빅데이터분야가 급상승하면서 공부해보고자 하시는 분이라면

좀더 제대로된 교육기관에서 하둡을 배워두시는게 좋을꺼같습니다.