DE/Hadoop 3

MapReduce

https://youtu.be/2RPVFhxps_s 1. 병렬 컴퓨팅 처리속도 향상을 위해서 cpu 칩 하나에 코어 여러개를 집어넣어 병렬적으로 연산처리 하도록 하는 컴퓨팅 시스템 2. 병렬 분산 처리 빅데이터를 처리하기 위해 비교적 저렴한 서버 여러개를 이용해서 간단한 계산을 한 이후 결과를 합쳐 최종 결과를 계산 3. MapReduce 대용량 데이터를 효율적으로 처리하기 위한 기술 여러 대의 서버가 하나의 시스템으로 작동하는 컴퓨터 클러스터 환경을 가짐 Map 단계 1. 데이터가 저장된 로컬에서 동작 2. 분산 저장된 데이터를 서버에서 처리 3. 공백으로 분류해 단어 1과 출력 Reduce 단계 1. 선정된 데이터 분석 및 통합 2. 글자 수 합을 구해 단어, 글자수 출력

DE/Hadoop 2023.08.30

HDFS (Hadoop Distributed File System)

1. Hadoop 하둡(Hadoop)의 HDFS에 대한 기본설명 하둡에서 HDFS에 대해 기본적인 기능을 알아보자. 아래내용은 도서 시작하세요! 하둡프로그래밍(위키북스/정재화지음)에서 HDFS만 발췌/요약정리한 내용이다. 하둡을 처음 공부하는 사람들에게 yookeun.github.io 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈 소스 프레임워크 GFS(Google File System)과 MapReduce를 구현한 결과물 HDFS(Hadoop Distribute File Systme)에 데이터를 저장하고 MapReduce를 이용해 데이터를 처리함 여러 대의 서버에 데이터를 저장하고 저장된 각 서버에서 동시에 데이터를 처리하는 방식 트랜젝션이나 무결성을 보장해야하는 데이터처리에는 적합하지 않다 ..

DE/Hadoop 2023.08.29

Procedure vs Transaction vs Batch

1. 프로시저 자주 사용되는 logic이나 여러 application이 공통으로 사용하는 모듈을 미리 compile된 형태로 데이터베이스 내에 저장해놓고 필요할 때 이용하는 것 2. 트랜잭션 데이터베이스에서 수행되는 논리적 작업 단위 데이터베이스의 일관성과 무결성을 유지하기 위해 필요함 ACID 속성을 준수해야함 → 데이터베이스 작업이 안전하게 수행되고 복구 가능한 상태를 유지하는것을 보장 ❓ ACID Atomicity (원자성) Consistnecy (일괄성) Isolation (격리성) Durability (지속성) 3. 배치 여러 작업이나 데이터를 한번에 처리하는 방식 여러 작업이나 데이터를 모아 한꺼번에 처리함으로써 처리 속도를 향상시키거나 일괄적인 작업을 수행할 수 있음 ❓ 배치 종류 정기 배치..

DE/Hadoop 2023.08.29