본문 바로가기

ETL/Pentaho

Pentaho 구조 및 특징

Architecture

Characteristics

  • Web-Based Components
    • User Console
    • Analyzer
    • Interactive Reports
    • Dashboard Designer
    • CTools
    • Data Source Wizard
    • Data Source Model Editor
  • Design Tools
    • PAD (Pentaho Aggregation Designer)
    • PME (Pentaho Metadata Editor)
    • PRD (Pentaho Report Designer)
    • PSW (Pentaho Schema Workbench)
    • PDI (Pentaho Data Intergration)

Comparison CheckList

PDI (Pentaho Data Intergration)

대분류 소분류  
Functionality Extract
  • Transformation Step Reference
    • 추출(Input), 변환(Transform), 적재(Output) 이라 분류한다.
    • 모든 기능을 Transformation 이라하며, 각각의 기능을 Step 이라고 한다.
    • Hop 은 Step 과 Step 을 이어주는 태스크 라인이다.
  • Input , Output
    • DBMS, TextFile, Excel, Access, LDAP, Xml, Json, BigData, Amazon, Kafka
  Transfrom
  Load
  Logging
  • PDI Logging
    • log4j 를 이용하여 파일에 로그를 기록한다.
    • PDI 는 서버가 별도로 없기 때문에 Client 에 로그파일이 생성된다.
  RealTime/Near-RealTime ETL
  • Streaming Analytics ( Near-RealTime )
    • Data Ingestion
      • message queue 를 이용하여 데이터를 받기
    • Data Processing
      • message queue 를 이용하여 데이터 넣기
Create a Regular or Streaming Pentaho Data Service
Create a Dashboard that Uses a Streaming Service as a Data Source
Pentaho Data Service SQL Support Reference and Other Development Considerations
  SMS  
  Interface
  • Streaming Analytics ( Near-RealTime )
    • Data Ingestion
      • message queue 를 이용하여 데이터를 받기
    • Data Processing
      • message queue 를 이용하여 데이터 넣기
Create a Regular or Streaming Pentaho Data Service
Create a Dashboard that Uses a Streaming Service as a Data Source
Pentaho Data Service SQL Support Reference and Other Development Considerations
Task Management workflow
  • Transformation 간의 dependency, condition, execution 등 을 제어하는 일종의 flow manager 뜻한다.
Scheduling interval exec
  remote exec
deployment  
  • deploy process ( repository )
    • transformation & job 을 작성하고 repository 에 저장한다.
    • pdi (클라이언트 역할) 의 스케줄러 및 pan, kitchen 을 통해 repository에 저장된 TASK 를 실행한다.
    • repository 를 통해 version control 을 할 수 있다. (only enterprise)
      • repository 타입을 dbms 가 아닌 pentaho server 로 설정해야만 이용가능
    • execute role 전용 사용자를 만들어서 운영 가능
  • export and import
    • 개발서버와 운영서버를 완전히 나누고자 할때 유용
    • GUI 혹은 스크립트(pan.sh) 를 이용하여 수행할 수 있다.
    • 단, transformation 혹은 job 단위로는 수행할 수 없다.
      • pan 에서 버전을 선택해서 실행할 수 없기 때문에 잘못 배포되는 경우 원인찾기가 어렵고 차이점을 찾을 수 없다.
    • 스케줄링은 대상에서 제외
    • 아래와 같은 deployment 를 구축하기 위해서 별도의 방법을 찾아야 한다.
User & Role  
Monitoring  

Components Reference

Reference

'ETL > Pentaho' 카테고리의 다른 글

Pentaho server  (0) 2021.10.01
Pentaho pan  (0) 2021.10.01
Pentaho kitchen  (0) 2021.10.01
Pentaho carte server  (0) 2021.10.01