본문 바로가기

전체 글

(60)
Pentaho server 소개 pentaho di 툴의 repository 와 서버 역할을 한다. pentaho 에는 pentaho di 라는 웹 기반의 서버가 있는데 pentaho 에서는 이 서버를 slave 라 한다. master, slave, cluster 라는 개념이 있기 때문에 구분해서 정의를 내려야 한다.( 아직 파악하지 못함 ) client 툴에서 etl 을 작성하여 로컬에서 테스트 후에 repository 에 저장 후 paster, slave 에 실행을 하면 각 서버에 실행 정보가 절달이 되고 실행은 각 서버에서 수행 한다. 홈페이지에서 제공되는 메뉴얼로는 설치를 할 수 없었고, 인터넷어서 자료를 찾았지만 생각보다 많지 않았다. 현재도 repository 에 접속만 되었지 어느 기능까지 될지는 아직 모르고 따라서 ..
Pentaho pan 정의 원격으로 tranformation 을 실행시키는 모듈이다. 설치 data-intergration( carte ) 설치시 bundle 로 들어가 있다. 설정 repository 를 다음처럼 두가지로 나뉠 수 있는데 이게 carte 하고는 또 다름.. kitchen 은 또 다름 file repository database repository 일반적으로 $HOME/.kettle/repository.xml 에 다수의 repository 를 등록할 수 있지만 pan.sh 은 CURRENT_PATH/repogitories.xml 을 인식함 repogitories.xml 의 내용은 carte 서버에서 설정한 $HOME/.kettle/repository.xml 과 동일하다. 실행 repository list [b..
Pentaho kitchen 정의 원격으로 job 을 실행시키는 모듈이다. 설치 data-intergration( carte ) 설치시 bundle 로 들어가 있다. 설정 pan 과 동일 general error random 적으로 발생(같은 명령어 반복시 발생) vfs 안쓰는데.. 어떻게 끄지? 객체를 vfs 단위로 취급하는듯 pentaho 9.1 cetified jdk version 은 jdk 8 (현재 환경과 같음) 미해결 https://jira.pentaho.com/browse/PDI-17149?page=com.atlassian.jira.plugin.system.issuetabpanels%3Aworklog-tabpanel 이미 등록된 버그 이지만 원인을 찾지 못하고 더 많은 cpu 와 ram 이 설치된 머신에서 문제가 없다고..
Pentaho carte server 정의 pentaho 는 모든 작업은 기본적으로 spoon.sh 이라는 client tool 에서 시작된다. 사용자가 execution 서버를 추가하는 경우 해당 작업을 넘길 수 있다. 이러한 서버를 carte 서버라고 한다. 서버의 구분은 다음과 같이 된다. master server slave server carte cluster 작업이 많지 않다면 master 만 사용하여 구축을 진행 한다. spoon 에서 구분할때는 모든 서버를 '슬레이브 서버' 로 통칭한다. 설치 jdk 8 pdi 9.1 기준 jdk 11 에서 정상동작하지 않음 설정 모든 메뉴얼에는 pentsho server repository 에 대한 기준으로 설명되어 있어 현재 설정인 database repository 와 조금 다르게 느껴지고..
Fluentd config copy (file to csv,json) log_level debug @type tail path /home/centos/workspace/apacheDummy/*.log pos_file /var/log/td-agent/apache2.access_log.pos @type apache2 refresh_interval 5 tag bos.trade.mob # # @type stdout # @type copy @type file path /data/text timekey 3600 time_slice_format %Y%m%d time_slice_wait 24h format csv fields host,method force_quotes false append true flush_interval 1 @type file path /data/json time..
Fluentd config Multi process workers 목적 fluentd 는 멀티 프로세스 를 지원한다. 감시 대상이 많고 멀티코어 환경이라면 worker process를 늘려 throughput 을 늘릴 수도 있다. 설정 공통 설정 # 2개의 worker process 생성 workers 2 # 아래는 ps 명령어 로 확인된 process 갯수 [root@tlog-transmit td-agent]# ps -ef | grep fluent root 6952 6245 5 04:26 pts/1 00:00:00 /opt/td-agent/bin/ruby /opt/td-agent/bin/fluentd -c td-agent.conf root 6957 6952 8 04:26 pts/1 00:00:01 /opt/td-agent/bin/ruby -Eascii-8bit:asc..
Fluentd config High Availability 목적 fluentd 의 가용성에 대한 부분인데 일반적인 가용성이 라면 fluentd 자체의 가용성을 의미 하지만 메뉴얼 상에서의 가용성이란 다음과 같다. 데이터를 수집하는 forwarder fluentd, forwarding 된 데이터를 로컬에 기록하는 aggregator fluentd 둘로 구분한다. 실제로 데이터를 수집하는 forwarder fluentd 에 대해서는 언급이 없으며 aggregator fluentd 를 active-stanby 로 구성하는 방안을 제시 한다. 처음 forwarder fluentd 의 가용성을 목적으로 자료를 찾아 보았지만 별다른 방법이 없다. 내용 forwarder fluentd 가 로그데이터를 수집하면 aggregator fluentd에게 전달 한다. aggregat..
Fluentd config source file @type tail path /data/access*.log tag debug.tail @type apache2 pos_file /data/fluentd.pos read_from_head true #asis_key message refresh_interval 5