data architect

Part	주제	주요 독자
1	데이터 아키텍처 · 거버넌스 기초	데이터 아키텍트, 전사 기획
2	데이터 플랫폼 아키텍처	데이터 아키텍트, 데이터 엔지니어
3	데이터 엔지니어링 (수집·가공·저장)	데이터 엔지니어, 운영 엔지니어
4	클라우드 및 마이그레이션	데이터 엔지니어, 인프라 엔지니어
5	통계 분석 기법	분석가, 데이터 사이언티스트
6	머신러닝	데이터 사이언티스트, 분석가
7	데이터 시각화	분석가, 기획, BI 담당
8	수요 예측 (Demand Forecasting)	분석가, 운영 기획, 생산관리
9	데이터 보안 및 비식별화	보안 관리자, 데이터 아키텍트
10	데이터 경제 및 산업 동향	전사 기획, 임원
11	정보수명주기관리 (ILM)	데이터 아키텍트, DBA, 보안 관리자
12	ML 워크플로우·AutoML·쿠버네티스 분석 환경	데이터 엔지니어, MLOps
13	솔루션 및 제품 카탈로그	구매·기획, 데이터 아키텍트
14	프로젝트 레퍼런스 (산업별)	영업, PM, 데이터 아키텍트
15	데이터 커리어 가이드	신입·주니어, 교육 기획
16	공공/주거 데이터 사례 (부동산·도시금융)	공공분야 담당, 정책 기획
부록	용어집·비식별화 매핑·참조자료	전체

계층	구분	설명
1	Transaction Audit Data	거래의 감사 로그·이력
2	Transaction Activity Data	일상의 실제 거래 트랜잭션
3	Transaction Structure Data	거래가 발생하는 관계 구조
4	Enterprise Structure Data	조직·부서·계정 등 전사 구조
5	Reference Data	산업·비즈니스 코드, 시스템 코드, 도메인 등
6	Metadata	데이터에 관한 데이터 (기술·비즈니스 메타)

Focus Area	주요 Enterprise Initiative
Policy, Standards, Strategy	Enterprise Data Management
Data Quality	Business Process Reengineering
Privacy, Compliance, Security	Master / Meta Data Management, Risk Management
Architecture, Integration	SOA, Master/Meta Data Management
Data Warehouse and BI	Data Governance Prototype
Management Support	전 영역

약자	정식명	분야
SOX	Sarbanes-Oxley Act	기업 회계 투명성
PCAOB	Public Company Accounting Oversight Board	상장사 회계 감독
Basel II	Basel II Accord	은행 자기자본 규제
HIPAA	Health Insurance Portability and Accountability Act	의료 개인정보 보호
GLBA	Gramm-Leach-Bliley Act	금융기관 고객정보 보호
EU DPD	EU Data Protection Directive	EU 개인정보 보호
IFRS	International Financial Reporting Standards (IASC)	국제 회계기준
AML	Anti Money Laundering	자금세탁 방지
FDS	Fraud Detection System	부정거래 탐지
Euro-SOX / J-SOX	유럽·일본 SOX 유사 법안	각국 회계 투명성
FRCP	Federal Rules of Civil Procedure	미국 민사소송규칙 (e-Discovery)

Driver	요구사항
Growing revenue (매출 성장)	데이터가 비즈니스 요구에 맞도록 보장 (Ensure data meets the needs of the business)
Lowering costs (비용 절감)	데이터를 가치 있는 전사 자산으로 보호·관리·개발
Ensuring compliance (규제 준수)	데이터 관리 비용 최소화

Phase Range	Metadata Mgmt & Gov	Data Quality Mgmt & Gov	Reference Data Mgmt & Gov
업무 범위	데이터 표준, 메타데이터 수집, 표준·수집 Gap 분석, 메타데이터 변경 관리	DQ Index & CTQ, 비즈니스/데이터 규칙 수집, 품질 평가, 원인 분석, 애플리케이션·프로세스 추적, 데이터 흐름 정비, 품질 개선, 정기 모니터링	Reference Data Usage Map, Life Cycle Definition, Flow Arrangement, Change Management
IT 범위	Metadata Management Solution	Data Quality Assessment & Management Solution, Application Impact Analysis Solution, Data Integration (ETL, EAI)	Reference Data Management Solution

계층	명칭	역할
L4	SMP (Service Management Platform)	데이터 활용, 서비스 운영, Activation
L3	AMP (Analytics Management Platform)	분석, Audience Prediction, Rule-based Profiling
L2	DMP (Data Management Platform)	데이터 가공, 통합, Key/Tag 관리, ETL/ELT
L1	DC (Data Collection)	원천 데이터 수집, Adaptor, 스트리밍/배치 수집

#	Core Entity	설명
1	PARTY	개인/조직/법인 당사자
2	PRODUCT	제조·공급 상품
3	SERVICE	용역 서비스
4	ACCOUNT	계정 (고객 계정, 재무 계정)
5	AGREEMENT	계약·약정
6	BUSINESS ACTION	비즈니스 행위
7	PRICE POLICY	가격 정책
8	INVENTORY	재고
9	RESOURCE	자원 (인적/물적)
10	ORDER	주문
11	PAYMENT	지불
12	INVOICE	송장
13	MOVEMENT	이동·이관
14	PARTY PROFILE · COLLECTION	당사자 프로파일·수집체

단계	비전	전략	고객경험	협력	프로세스	정보공유	기술	집중영역
1	없음	없음	개념 없음	내부 사일로	내부 사일로	산재	미미	내부 집중
2	생산 성과 비전 시도	고립적, 아래로부터	개념 없음	초기 편협적	초기 자동화, 사일로적	팀 기준, 최소 인사이트	산재 존재	한정된 운영
3	각 영역별 채널의 효율성	좀더 협력적, 사일로 존재	사일로 수준 집중	문화·동기 변화, 여전히 사일로	사일로 내 비용·가치 최적화	사일로 내 공유, 인사이트 발전	사일로 내 고수준 역할	사일로 내 효율, 고객 부족
4	전사 내부 통합	전사 통합 CRM	연결된 비즈니스로 이해·집중	고객 중심 재구조조정	전사 비용·가치 최적화	전사 공유·인사이트	전사 통합 고수준	전사 고객 집중, 균형
5	연결된 가치 부여·인식	상호 이익 협력 가치	더 넓은 영역 협력	고객 중심 공유, 연합 협력	End-to-End 최적화	기업 넘는 인사이트, 외부 데이터 활용	기업 넘는 고수준 역할	목표 공유, 잘 연결

Zone	구성	특성
Zone 1	원천 데이터 수집	계열사 원천(HANA, Oracle, MSSQL), ETL/CDC, 실시간 JDBC 수집
Zone 2	Physical Data Lake (On-Prem/Cloud)	Landing Zone → Curated DW → DM(1..N), 자주 변경되지 않는 데이터, 가명처리 불필요
Zone 3	Logical Data Lake (On-Prem/Cloud)	Virtual DB 1..N, Data Virtualization, 자주 변경·실시간 최신·가명처리 필요 데이터
Zone 4	데이터 활용 기반	데이터 포털·마켓 스토어, 카탈로그/검색/시각화, 분석환경(전문가/Citizen Data Scientist), K8s 분석 자원, 데이터셋·상품 API
Zone 5	데이터 거버넌스	표준·모델·구조·품질·흐름 통합 관리

구성요소	오픈소스	역할
웹 기반 DB 클라이언트	CloudBeaver	PC 설치 없이 브라우저에서 DB 접속
분산 쿼리 엔진	Trino	여러 DB를 하나의 SQL로 조회
데이터 가상화 엔진	Teiid	서로 다른 DB를 하나의 가상 DB로 통합
JDBC 감사 프록시	P6Spy	모든 SQL 실행을 기록
세션 스토어	Redis/Valkey	사용자 세션 관리
리버스 프록시	Nginx + TLS 1.3	보안 접속 게이트웨이

기간	중심 기술	가치 지향	기능 수준
1990~2000	RDBMS, GUI, ISP, ERP, MES, CIM, MIS, OA/FA/OIS	생존의 수단	기본업무 지원
2000~2005	EDW, Data Mining, CRM, MDM, KMS, ITA/EA, e-Business, Standardization, Governance	생산성 향상	관리효율 향상
2005~2011	SOA, EAI, EII, SCM, BPM, BAM, PLM, Grid, Cloud Computing, IT Compliance, ESM	생산성 향상	프로세스 확장/연계
2012~	IT Convergence, BI, Big Data, Appliance, RTE, Mobile & Social, IoT	경쟁력 향상	고도의 의사결정 지원

유형	특징	대표 기술
배치 수집	일/시간 단위 ETL	Sqoop, Apache NiFi, Airflow
실시간 스트리밍	초·밀리초 단위	Apache Kafka, Kinesis, Flume, Flink
CDC (Change Data Capture)	원천 DB 변경분 추적	Debezium, Oracle GoldenGate
JDBC/ODBC 풀링	주기적 조회	ETL 툴
파일 업로드	배치 파일 수집	NFS, SFTP
API 수집	RESTful, SOAP	커스텀 커넥터
웹 크롤링	외부 웹 데이터	Scrapy, Selenium

구성	기술군	비고
In-Memory Appliance	HANA, Oracle TimesTen	초저지연 서비스
Database Appliance	Exadata, Teradata	대용량 DW
Enterprise Data Warehouse	DW + DM	정형 중심
Cloud, Virtualization	AWS/GCP/Azure	유연 확장
Hadoop Ecosystem	HDFS, MapReduce, YARN	대용량 비정형
NoSQL	HBase, MongoDB, Couch, Cassandra	단건 조회
Stream	Kafka, Flink, Spark Streaming	실시간

요구	권장
10TB 이하 정형	RDBMS (MySQL/PostgreSQL)
다량 조회 중심	HDFS + Parquet/ORC
단건 조회 중심	HBase, NoSQL
다량+단건 혼재	Kudu (컬럼형 OLAP DB), Iceberg, DeltaLake

단계	활동
1. 사전 진단	AS-IS 시스템 현황 파악, 대상 시스템 선정
2. 서비스 현황 조사·분석	대상 시스템 분석, To-Be 시스템 결정
3. Migration Test	성능 파악, Pilot 실행, 단위/통합 Test
4. Migration 수행	절차 따라 이행
5. 검증·안정화	성능·정합성 검증

영역	분석 대상
Infra	Data Flow, Network, Architecture, Resource, Operation System
Application	Version, Library, Configuration
Data	Storage Usage, File Count, File Type
Service	Service Type, Dependence, Func Specification

Oracle	PostgreSQL	주의사항
`VARCHAR2(n)`	`VARCHAR(n)`	Oracle n=바이트 수, PG n=문자 수
`CHAR(n)`	`CHAR(n)`	동일
`NUMBER(n,m)`	`NUMERIC(n,m)`	성능 위해 SMALLINT/INT/BIGINT 권장
`NUMBER(4)`	`SMALLINT`
`NUMBER(9)`	`INT`
`NUMBER(18)`	`BIGINT`
`NUMBER(n)` (n≥19)	`NUMERIC(n)`
`DATE`	`TIMESTAMP(0)`	Oracle DATE는 날짜+시간, PG DATE는 날짜만
`TIMESTAMP WITH LOCAL TIME ZONE`	`TIMESTAMPTZ`	PG TIMESTAMPTZ ≠ Oracle TIMESTAMP WITH TIME ZONE, Oracle LOCAL TIME ZONE과 동치
`CLOB`	`TEXT`	PG TEXT는 최대 1GB
`BLOB`	`BYTEA (1GB 한도)`	1GB 초과 시 Large Object 사용
`RAW(n)`	`Large Object`

Oracle 의미	PostgreSQL 함수	샘플
SQL start time	`statement_timestamp()`	`2018-09-20 17:42:20.069803+09`
Transaction start time	`now()`
Time when the function is implemented	`clock_timestamp()`

케이스	Oracle	PostgreSQL
`'ABC' \|\| (null)`	`'ABC'`	`(null)`
`'' (empty string)`	`(null)`	`''`

성공 요소	내용
선도 개발의 완벽한 연계	선도 개발 결과의 완벽한 이해 및 전 영역 확대 적용
As-Is 기반 To-Be 매핑	As-Is 기반의 To-Be 매핑 모델링 방법론 적용
자동화된 솔루션 활용	매핑 정의 기반의 자동 이행 프로그램 생성
효율적 협업	업무 분장·콘텐츠 공유, 모델러의 매핑 정의 변경 관리
대용량 이행 전략	솔루션에 의한 변경관리 자동화, 통합 테스트 리드타임 최소화

개념	설명
모집단	관찰의 대상이 되는 전체 집단 (예: 한국인)
모수 (Parameter)	모집단의 특성을 나타내는 수치 (평균·중앙값·표준편차·분산)
표본 (Sample)	모집단의 부분집합 (예: 1,500명)
통계량 (Statistic)	표본의 특성을 나타내는 수치
전수조사	모집단 전체 조사 (비용 高)
표본조사	표본으로부터 모수 추정 (비용 低)
표본오차	표본 조사로 인한 모수 추정의 오차

월(i)	총운행거리 X (만km)	타이어 사용량 Y
1	24	10
2	32	15
3	27	12
4	18	8
5	20	9
6	43	18
합계	164	72

연도	사건	주요 인물/논문
1943	인공 신경망(ANN) 개념의 시작	McCulloch, Warren S. & Walter Pitts, "A logical calculus of the ideas immanent in nervous activity"
1958	퍼셉트론(Perceptron) 개념	Frank Rosenblatt, "The perceptron: A probabilistic model for information storage and organization in the brain"
1969	단층 퍼셉트론의 한계 증명	Marvin Minsky & Seymour Papert, "Perceptrons"
1974	오류역전파법(Backpropagation) 최초 제안	Paul Werbos (당대엔 무시됨)
1986	다층 퍼셉트론 공식화	McClelland, Rumelhart, Hinton, "Parallel Distributed Processing"
~1998	CNN의 등장	Yann LeCun, LeNet
2006	딥러닝의 부활	Hinton, Bengio — 적절한 초기값과 충분히 깊은 네트워크가 복잡한 문제 해결 가능

노드	순전파	역전파
덧셈 (+)	`z = x + y`	상류 미분에 1을 곱해 그대로 전달
곱셈 (×)	`z = x·y`	상류 미분에 순전파 신호를 서로 바꾸어 곱해 전달
나눗셈 (/)	`z = 1/x`	`-1/x²` 곱
EXP	`z = exp(x)`	순전파 출력을 곱해 전달

구분	C-SVM	nu-SVM
파라미터	C (페널티/코스트)	ν (0~1 사이)
해석	크게 하면 줄을 복잡하게 그려도 에러 최소화 (오버피팅 가능) / 작게 하면 부드러운 선, 에러 용인	ν만큼 에러 허용 상한 지정 (ν=0.5면 50% 에러 허용)
비유	패널티 = 교통법규 벌금. 벌금 낮으면 법규 안 지킴

방식	설명	예
연산의 공유	해를 구하는데 두 개 이상 알고리즘이 개입 (공통 문제에 여러 알고리즘 참여)	SVM+DT: 분류 명확한 집단은 DT로, 어려운 집단은 SVM으로 (Kumar et al., 2010)
결과의 결합	독립적으로 학습된 모델들의 결과를 다수결/가중합으로 결합	Bagging, Random Forest, Boosting, Stacking

환경	대상	주요 도구
전문 분석 개발 환경	분석가	Jupyter Notebook, R-Studio
비전문가 분석 환경	Citizen Data Scientist	GUI Workflow, Auto ML
분석 자원 관리	전체	신청·승인·회수, 자원 모니터링

측면	분석적 측면	서비스 측면
누가	분석가	프로그래머, 웹디자이너, BI
목적	데이터 탐색·해석	결과 전달, 인사이트 도출
결과물	탐색 차트	대시보드, 리포트

대상	목적	대표 그래프
시간	추세·주기	선그래프, Area Chart, Candlestick
분포	값의 퍼짐	히스토그램, 박스플롯, 밀도
관계	변수 간 상관	산점도, 버블, Heatmap, 상관행렬
비교	범주 간 크기	막대, 누적막대, 대칭 막대
공간	지리 정보	Choropleth, 지도 Heatmap, Point Map, Flow Map

예측용도	기간	요구 정확도	적합 기법
공정설계	장기	중간	정성적 + 인과형
설비계획	장기	중간	정성적 + 인과형
총괄계획	중기	높음	인과형 + 시계열
일정계획	단기	매우 높음	시계열
재고관리	단기	매우 높음	시계열

분기	t	평균 예측	계절지수	최종 예측
1/4	13	82.0	0.596	48.8
2/4	14	84.6	0.746	63.1
3/4	15	87.2	0.926	80.7
4/4	16	89.9	1.732	155.7

지표	공식	특징
ME (Mean Error)	`Σ(A_t - F_t) / n`	양의·음의 오차 상쇄. 편의 없으면 0에 근접. 절대편차는 클 수 있음
MSE (Mean Squared Error)	`Σ(A_t - F_t)² / n`	양·음 상쇄 없음. 큰 오차에 가중치 큼
MAD (Mean Absolute Deviation)	`Σ\|A_t - F_t\| / n`	오차의 절대치 평균. 1σ ≈ 1.25·MAD / 1MAD ≈ 0.8σ
MAPE (Mean Absolute Percent Error)	`Σ\|A_t - F_t\|/A_t × 100% / n`	상대오차 비율. 수요 크기 크게 달라질 때 유용

t	실제 A	예측 F	편차 A-F	절대편차	자승오차	절대비율오차 (%)
1	53	54	-1	1	1	1.89
2	59	55	4	4	16	6.78
3	64	56	8	8	64	12.50
4	48	58	-10	10	100	20.83
5	55	50	5	5	25	9.09
6	52	55	-3	3	9	5.77
7	55	52	3	3	9	5.45
8	44	48	-4	4	16	9.09
합			2	38	240	71.40

구분	기법	적합한 환경	특징
정성적	전문가 의견 활용	과거 데이터 수집 불가능 / 유사 제품 시장 전문가 확보 가능	적합한 전문가 확보가 관건
정성적	컨조인트 분석	제품 기능·속성별 니즈 파악 / 신제품 시장 반응 예측	정확도 높아 기업에서 널리 사용 / 고비용 서베이 필요
정성적	인덱스 분석	부동산·프로젝트 등 희소제의 선택 가능성 예측	변수 민감도 파악 용이 / 사전 연구 필요
정량적	회귀분석	분석 대상 데이터 확보 여부가 중요 / 인과관계 파악 필요 분야	엑셀 등에서도 쉽게 추정
정량적	시계열 분석	과거 데이터 수집 용이 / 다양한 변수·시차의 복잡한 인과관계 모형화 가능	예측 목적 전형적 모형 / 충격에 의한 장기 영향 파악
정량적	확산모형	신제품·신기술 수요 예측 / 과거 데이터 불가능하거나 초기 데이터만 활용	신제품 확산 과정 모델링 / 대중매체·구전효과 반영 / 저비용
정량적	정보 예측 시장	제품·상황의 장기 실시간 변화 파악	시장 참여자가 많아야 의미 있는 정보 추출
시스템	시스템 다이내믹스	수요가 산업 내적 요인에 의해 주로 영향	산업의 동태적 변화를 구조에 기반하여 이해
시스템	인공신경망	인과관계 복잡하고 많은 데이터 분석 필요 / 미래 고객 발굴 마케팅	알고리즘 활용 최적화 결과 도출 / 인과관계 설명 부족

기법	설명	예시 (원본 → 처리)
Masking (마스킹)	식별자를 `*`·임의문자로 부분 대체	`홍길동 → 홍동`, `abc@domain.com → a@*main.com`
Pseudonymization (가명처리)	식별자를 가명·대체값으로 치환	`홍길동 → [발표자A]`, `주민번호 → 식별 불가 ID`
Encryption (암호화)	식별자를 암호화하여 복호화 키 없이 식별 불가	`123-45-6789 → AES-256 암호문`
Suppression (삭제)	식별자를 완전히 제거	`홍길동 → <삭제>`
Aggregation (총계처리)	개별 값을 평균·합계 등으로 집계	`각자 소득 → 연령대별 평균 소득`
Categorization (범주화)	구간·범주로 일반화	`나이 27 → 20대`, `서울시 종로구 → 서울시`

현재 문제	비유	위험성	도입 후
사용자 계정 관리 없음	출입증 없이 누구나 들어옴	접속자 파악 불가	Keycloak으로 통합 계정 관리
통합 인증(SSO) 없음	방마다 다른 열쇠 사용	권한 관리 불가	OIDC/SAML 기반 SSO
데이터 접근 통제 없음	모든 방 문이 열려 있음	비인가 접근 차단 불가	OPA 정책 엔진
데이터 카탈로그 없음	건물 안내 지도 없음	데이터 위치 파악 어려움	OpenMetadata 카탈로그
데이터 품질 관리 없음	시설물 점검 없음	잘못된 데이터 업무 사용	Great Expectations

역할	오픈소스	기능
통합 인증 (IAM)	Keycloak	SSO, OIDC/SAML, MFA(TOTP/WebAuthn), LDAP/AD 연동
인가 정책 엔진	OPA (Open Policy Agent)	Policy-as-Code, Rego 언어, RBAC/ABAC
시크릿 관리	HashiCorp Vault	비밀번호·API 키·토큰 중앙 관리, 동적 시크릿, 자동 로테이션
세션 저장소	Redis / Valkey	세션 유지·타임아웃·동시 세션 제어
리버스 프록시	Nginx + TLS 1.3	보안 접속 게이트웨이
감사 로깅	P6Spy + Fluent Bit + Kafka + OpenSearch	모든 SQL 캡처 → 중앙 집계 → 장기 보관·검색
관측성	Prometheus + Loki + Grafana	메트릭·로그·대시보드·알림

범주	이슈
비용 절감	인프라 비용 (티어드 스토리지), 컴플라이언스 비용 최소화(위약금·벌금), 저가 장비 애플리케이션 에러 최소화 인력비 절감
성능 최적화	과거 트랜잭션 데이터 안전 분리로 앱 성능 향상, SLA 달성, 앱 릴리즈 가속화
위험 요소 제거	과거 데이터 관리·접근, 감사·e-Discovery 대응, 개인정보 보호

단계	역할	주체
데이터 활용 전략	내·외부 고객 데이터 분석 (정형 + 비정형)	전략 컨설팅, 데이터 판매 회사
DW 저장·가공	ETL·정제·통합	클라우드·가상화·데이터 통합·Backend 프로세스
BA 분석	알고리즘·분석 툴	분석 전문회사
BI 수행 전략	타겟·리포트·캠페인 개발	캠페인 툴·CRM·OLAP·전략 컨설팅
수행 활용	고객 지원·채널 수행	다채널 관리·디자인·이메일/우편/모바일/웹/케이블
수행 모니터링	평가·개선	분석·모니터링 대시보드·혁신적 제품 개발

세대	시기	기술 특성
1세대 (BI 1.0)	1985~2000	ETL & Relational, Manual Discovery, A→B Pipe
2세대 (BI 2.0)	2000~2010	ETL with GUI, Wire Diagrams, Relational, Simple Connectors, MDM Hub
3세대 (BI 3.0)	2010~2012	Persistent Metadata Server, Hub & Spoke, Data Virtualization, Automated Discovery, Automated Operations, Relational/Object/XML/NoSQL, No Programming, Cloud & On-premise
차세대 NGEN Platform	2012~2013	Enterprise View of Data Integration, Networked Topology, ETL & Data Virtualization, State & Lineage, Compliance, Data Quality, Data Governance, Roll-back, Roll-forward, Virtual MDM™, No programming, Cloud & On-Premise

시기	미국	한국
~2005	통합 (Integration)	통합 (Integration)
2005~2010	연합 (Federation)	통합 (여전)
2010~	가상화 (Virtualization)	통합 (여전)

단계	필요 인력
Development	DS (Data Scientist), DA (Data Analyst), DE (Data Engineer), DA (Data Architect), BDE (Big Data Engineer), DBA
Operation	DE, DA, DBA

영역	구성 요소
Online Customer Communities	고객 커뮤니티
Social Networks	SNS
Traditional CRM	내부 고객 DB
Social CRM	위 세 요소의 교집합

핵심	요구사항	답
급증하는 데이터와 정보의 사일로화	지능적 의사결정을 위해 다수 소스로부터 유입되어 실시간 활용 가능한 정보의 부(富)를 어떻게 누릴 것인가?	New Intelligence
새로운 비즈니스와 프로세스에 대한 요구	새 방식의 구매·소비·직업·일상생활을 지원하는 유연·역동적 프로세스에 임하여 어떻게 지능적 일할 것인가?	Smart Work
유연성 결여된 고비용 구조의 인프라	오늘과 같은 역동적 비즈니스 환경에 필요·맞출 수 있는 지능적이고 인지되며 비용 효율적 인프라를 어떻게 구축할 것인가?	Dynamic Infrastructure
제한된 리소스	다양한 이슈에 효율적·경쟁력 있게 민첩·빠른 의사결정을 내릴 것인가?	Green & Beyond

단계	정보 활용
Focus on Data And Reporting	조직·기업 운영을 위한 데이터 관리
Basic Information Interaction	조직·기업 경쟁 위한 정보 관리
Information in Context	정보를 전략적 자산으로 활용
Real-time Single View of the Truth	정보를 통해 혁신을 가능하게 함
Adaptive Business Performance	정보를 경쟁적 차별화 요소로 활용

영역	주요 과제
전략	원칙 수립 / 모든 구성 요소에 대한 포괄적 비전 제시 / 조직의 비즈니스 전략과 운영 프레임워크 적용 / 전체 이해관계자 수립
데이터 거버넌스	정책 수립·실행 필수 / 핵심 정보 자산 관리 정책·실행 정의 / 아키텍처 실행과 표준 개발 / 데이터 질 모니터 / 교육·개발
정보 인프라	비즈니스 프로세스 일부로서 정보 관리 / 정확·신뢰할 수 있는 정보 구축·유지 / 비즈니스 수행 계획·이해·최적화
로드맵	비즈니스 전략 우선순위에 따른 IT 프로젝트 우선순위 / 정보 활용 역량 파악 / 장기 정보 전략 유지 관리 프로세스·거버넌스 실행

Offering	내용
Tiered Information Infrastructure	비즈니스 가치에 따라 정보 분류·등급화, 등급에 따른 인프라 정책 수립
Content and Data Management	업무 수행 시 비정형 데이터의 접근성·활용성 높이기 위한 관리 정책 수립
Archiving and Retention	활성·비활성 데이터 구분, 적합한 데이터 보관 정책 수립
Process Enhancement and Automation	스토리지 운영·관리·컴플라이언스 대응 효율적 수행을 위한 자동화·프로세스 강화 전략
Storage Optimization and Virtualization	스토리지 낭비 요인 제거, 스토리지 통합 및 가상화·기술 적용으로 효율적 활용

Phase	내용
Phase #1 — Data Collection	데이터 수집
Phase #2 — Analysis	분석, Information Classification
Phase #3 — Methodology	방법론 정의, Architecture Definition
Phase #4 — Solution Strategy	솔루션 전략, Recommendations

Phase	태스크	내용
I. Consulting Phase	Ⅰ. 정보 현황분석	IBM Tool·인터뷰로 정보 수집·분석 → ILM 정책 수립 기반 마련
I. Consulting Phase	Ⅱ. ILM 정책 수립	데이터 분석 기반 정보군을 비즈니스 관점 중요도에 따라 분류, 우선순위·테이블별 수명주기 정책 수립
II. Implementation Phase	Ⅲ. 계층별 인프라 구축	수립된 정책에 따라 가상화·아카이빙 스토리지 구성, 계층별 스토리지 구축, TCO 분석
II. Implementation Phase	Ⅳ. ILM 솔루션 적용	불필요 데이터 삭제·이주, 수집 정책 따른 DB·E-mail 아카이빙, 솔루션으로 ILM 구축 완성
III. Management System Develop	Ⅴ. ILMS 시스템 구축	수립 ILM 정책 지속 유지·모니터링·보완 가능하도록 전사적 ILM 관리 시스템 포털 구축

접근 유형	설명	적합 계층
Frequent Access	자주 접근	Production DB (Current)
Sporadic Access	산발적 접근	On-Line Archive
Minimal Access	최소 접근	Near-Line Archive
Disposal	폐기	Off-Line Archive (WORM Storage: KD Tape, Optical, VCR)

영역	효과
비용 절감	스토리지 비용 절감 / 60~90% 압축률 / 데이터베이스 독립성
성능 최적화	시스템/DB 성능 향상 / 소프트웨어 업그레이드·폐기 / 테스팅 생산성 향상
위험 요소 제거	데이터 개인정보 보호 / 데이터 보존 주기 보장 / 과거 데이터 조회 보장

참여자	주요 활동
데이터 관리자	표준·모델·구조·품질·흐름 관리, 가상 DB 설계 승인
데이터 엔지니어	수집·정제·변환 파이프라인 구축 및 운영
데이터 분석가 (전문)	R-Studio, Jupyter 기반 분석, ML 모델링
Citizen Data Scientist	GUI Auto ML, 비전문가 분석환경 활용
보안 관리자	접근정책 설정, 비식별화 정책 관리
시스템 운영자	자원 모니터링, 컨테이너 운영

클래스	역할
dcat:Catalog	데이터셋의 모음을 기술하는 메타데이터
dcat:Dataset	데이터의 개념적 단위
dcat:Distribution	데이터셋의 특정 표현(포맷·위치)
dcat:DataService	데이터 접근을 위한 서비스
dcat:CatalogRecord	카탈로그 내 레코드 (메타 관리)

제품	약어	역할
DA#	Data Architecture	데이터 모델링 툴 (물품식별번호 23286297)
META#	Metadata	메타데이터 관리 시스템
DQ#	Data Quality	데이터 품질 관리 시스템
AP#	Application Process	애플리케이션 영향도 분석
DF#	Data Flow	데이터 흐름 관리
SQL#	SQL Manager	SQL 표준 점검·관리
ETT#	Extract·Transform·Translate	ETL 자동화
DV#	Data Virtualization	데이터 가상화
Data Harvest	—	데이터 수집

에디션	특성
Workgroup Edition	사용자 PC별 제품 인증 방식
Workgroup-Floating Edition	동시 접속 허용 방식
Workgroup-DQ Edition	국내·외 유일한 팀 모델링과 데이터 품질 진단 동시 지원. 공공데이터 품질관리 수준 평가 대응을 위한 간편 진단·산출물 생성 자동화

업무	적합 스토리지
정형 DW (10TB 이하)	MySQL/PostgreSQL
대량 배치 분석	HDFS + Parquet
단건 실시간 조회	HBase
단건 + 대량 혼재 OLAP	Kudu
시계열 (IoT, 로그)	Kudu (컬럼형)

플랫폼	점유율
CKAN	41 %
Socrata	8.9 %
DKAN	2.7 %
Junar	2 %
OpenDataSoft	1.9 %
기타 (자체 플랫폼, 웹사이트)	43.6 %

구분	소스 공개	특징	사용
CKAN	오픈소스	전세계 개발자들이 자발 지원 / 가장 활성화된 데이터 연계 플랫폼 / 콘텐츠 관리·시각화·API 추출 등 Drupal 등 타 오픈소스와 결합	영국·미국·캐나다 등 40개 이상 국가
OGPL	오픈소스	미국·인도 정부 공동 개발 / 공공기관 투명성 목적	인도 정부 부처
Socrata	상용	시각화·분석에서 오픈소스 대비 장점	미국 연방정부 및 10여개 주정부
Junar	상용	클라우드 기반 데이터 연계 플랫폼 서비스	세크라멘토·팔로알토 등 도시 중심

솔루션	제공 업체	주요 기능
DATAWARE	[회사A]	메타·DQ·영향도 분석 통합 패키지
TeraONE	데이터스트림즈	데이터 패브릭 기반 통합 데이터 관리
MetaCatalog + DQMiner	[회사G]	카탈로그·DQ 개별 제공

솔루션	제공 업체	주요 기능
IDMC	Informatica	클라우드 기반 통합 플랫폼 (카탈로그·품질·MDM)
Collibra Platform	Collibra	데이터 거버넌스 전문 플랫폼 (Gartner 선두)
Atlan	Atlan	AI 기반 데이터 거버넌스 플랫폼

범주	오픈소스	용도	비용
데이터 접속	CloudBeaver	웹 기반 DB 도구	무료
분산 쿼리	Trino	여러 DB를 SQL 하나로 조회	무료
데이터 가상화	Teiid	이기종 DB 가상 통합	무료
SQL 감사	P6Spy	JDBC 프록시로 모든 SQL 기록	무료
BI 시각화	Apache Superset	차트·대시보드	무료
데이터 카탈로그	OpenMetadata	카탈로그·리니지·품질 통합	무료
데이터 품질	Great Expectations	품질 자동 검증	무료
통합 인증	Keycloak	SSO·OIDC·MFA	무료
접근 정책	OPA	Policy-as-Code	무료
시크릿 관리	HashiCorp Vault	비밀번호·키 중앙 관리	무료 (Community)
메트릭	Prometheus	시스템 지표	무료
로그	Loki	중앙 로그	무료
대시보드	Grafana	통합 관측성	무료
파이프라인	Apache Airflow	배치 오케스트레이션	무료
스트리밍	Apache Kafka	메시지 큐·이벤트 스트리밍	무료
검색	Elasticsearch/OpenSearch	Full-text 검색	무료

영역	역할	구성 기술
A. 데이터 프록시 서비스	자체 개발 제품화 목표	CloudBeaver + Trino + Teiid + P6Spy
B. 데이터 포털	맞춤 개발	React/Vue + Apache Superset 임베드
C. 메타데이터/품질	솔루션 도입	OpenMetadata + Great Expectations
D. 공통 기반	설계 + 구축	Keycloak + OPA + Vault + Prometheus/Loki/Grafana

솔루션	제공 업체	특성
DBSAFER	피앤피시큐어	DB 접근 통제
Petra	신시웨이	DB 접근 통제·감사

산업/고객	주요 도전	플랫폼 구성 특성
통신 ([회사E] SKT)	대용량 로그·통신 데이터 활용	D-MAP 전략·Key·Profile 중심
유통·엔터테인먼트 ([고객사θ] CJ)	계열사 데이터 통합·가명처리	Physical+Logical Lake 이중
공공 인프라 ([고객사ι] K-Water)	분석 환경 셀프서비스	개인화 분석·DCAT 마켓 포탈
금융 ([고객사α/δ] 카드사)	규제 준수·MDM	Reference Data 중심
의료 (병원)	임상 연구 데이터 비식별	Data Free Zone 모델
주거·부동산 ([고객사η])	내외부 데이터 결합	DSC 모델

역할	핵심 책임	주 사용 도구	요구 스킬
데이터 엔지니어	파이프라인 구축·운영	Spark, Kafka, Airflow	분산 처리, 스토리지
데이터 분석가	데이터 기반 의사결정 지원	SQL, Excel, BI 툴	SQL, 통계 기초, 시각화
데이터 사이언티스트	예측 모델·고급 분석	Python, R, ML 라이브러리	통계, ML, 수학
데이터 아키텍트	전사 데이터 전략·구조 설계	모델링 툴, 거버넌스	전사 관점, 설계 경험
MLOps 엔지니어	ML 모델 배포·운영	K8s, MLflow, CI/CD	DevOps + ML
보안 관리자	접근 통제·개인정보 보호	IAM, DLP	보안 표준, 규제

국가	사회/공적 주택 비중	주요 운영 주체	특징
네덜란드	~30%	주택조합	가장 높은 비중
오스트리아 (비엔나)	~25%	시 직영 + 조합	시 차원 대규모 운영
영국	~17%	지방정부 + 조합	Right to Buy로 감소
독일	~5%	주·시 소유	임대료 규제 중심
한국	~8%	LH + SH + 지자체	지속 확대 중

용어	영문 · 약어	정의
데이터 아키텍처	Data Architecture (DA)	전사 데이터 구조·의미·관계를 정의한 체계
데이터 거버넌스	Data Governance	데이터 관리를 위한 조직·규칙·의사결정권·책임 체계
마스터 데이터	Master Data	전사적으로 공유·참조되는 핵심 데이터
레퍼런스 데이터	Reference Data	코드·도메인 등 참조용 데이터
메타데이터	Metadata	데이터에 관한 데이터 (기술·비즈니스)
데이터 스튜어드	Data Steward	데이터 자산에 대한 실질적 관리자
MDM	Master Data Management	마스터 데이터 통합 관리
DGI	Data Governance Institute	거버넌스 프레임워크 제공 기관
CTQ	Critical To Quality	품질에 결정적인 항목
DQI	Data Quality Index	데이터 품질 지수
BR	Business Rule	비즈니스 규칙
ETL	Extract-Transform-Load	추출·변환·적재
ELT	Extract-Load-Transform	추출·적재·변환
CDC	Change Data Capture	변경 데이터 추적
EAI	Enterprise Application Integration	기업 애플리케이션 통합
ESB	Enterprise Service Bus	기업 서비스 버스
HDFS	Hadoop Distributed File System	하둡 분산 파일 시스템
NoSQL	Not Only SQL	비관계형 DB 총칭
Kudu	Apache Kudu	하둡용 컬럼형 OLAP DB
Impala	Apache Impala	하둡용 SQL 엔진
Trino	Trino	분산 SQL 쿼리 엔진
Teiid	Teiid	오픈소스 데이터 가상화 엔진
Lambda Architecture	λ Architecture	Speed + Batch 이중 아키텍처
Kappa Architecture	κ Architecture	스트림 일원화 아키텍처
Data Lake	—	원시 데이터 저장소
Data Warehouse	DW	정형화된 분석용 저장소
Data Mart	DM	부서·용도별 소형 DW
EDW	Enterprise Data Warehouse	전사 데이터 웨어하우스
BI	Business Intelligence	비즈니스 인텔리전스
OLAP	Online Analytical Processing	온라인 분석 처리
OLTP	Online Transaction Processing	온라인 트랜잭션 처리
ILM	Information Lifecycle Management	정보수명주기관리
WORM	Write Once Read Many	1회 기록·다중 읽기 스토리지
SMCD-ILM	System Managed, Consulting & Design for ILM	IBM ILM 방법론
Data Stewardship	—	데이터 관리자 체계
DCAT	Data Catalog Vocabulary	W3C 데이터 카탈로그 표준
LOD	Linked Open Data	연결된 공개 데이터
RDF	Resource Description Framework	시맨틱 웹 메타데이터
URI	Uniform Resource Identifier	자원 식별자
SLA	Service Level Agreement	서비스 수준 계약
SOX	Sarbanes-Oxley Act	미국 회계 투명성 법
HIPAA	Health Insurance Portability and Accountability Act	미국 의료 프라이버시 법
GLBA	Gramm-Leach-Bliley Act	미국 금융 프라이버시 법
GDPR	General Data Protection Regulation	EU 개인정보 보호 규정
AML	Anti Money Laundering	자금세탁 방지
FDS	Fraud Detection System	부정거래 탐지 시스템
CRM	Customer Relationship Management	고객관계관리
ERP	Enterprise Resource Planning	전사 자원 관리
SCM	Supply Chain Management	공급망 관리
MES	Manufacturing Execution System	제조실행시스템
MDM (개인정보)	Mobile Device Management	모바일 기기 관리
ANN	Artificial Neural Network	인공신경망
MLP	Multi-Layer Perceptron	다층 퍼셉트론
CNN	Convolutional Neural Network	합성곱 신경망
RNN	Recurrent Neural Network	순환 신경망
SVM	Support Vector Machine	서포트 벡터 머신
PCA	Principal Component Analysis	주성분 분석
RBF	Radial Basis Function	방사 기저 함수 (커널)
AutoML	Automated Machine Learning	자동화된 머신러닝
EDA	Exploratory Data Analysis	탐색적 데이터 분석
MAD	Mean Absolute Deviation	평균 절대 편차
MAPE	Mean Absolute Percent Error	평균 절대 비율 오차
MSE	Mean Squared Error	평균 자승 오차
TS	Tracking Signal	추적지표
KPI	Key Performance Indicator	핵심 성과 지표
SSO	Single Sign-On	통합 인증
OIDC	OpenID Connect	인증 프로토콜
SAML	Security Assertion Markup Language	인증 교환 표준
MFA	Multi-Factor Authentication	다중 인증
RBAC	Role-Based Access Control	역할 기반 접근 제어
ABAC	Attribute-Based Access Control	속성 기반 접근 제어
IAM	Identity and Access Management	아이덴티티·접근 관리
PII	Personally Identifiable Information	개인식별정보
PoLP	Principle of Least Privilege	최소 권한 원칙
OPA	Open Policy Agent	오픈 정책 엔진
PVC	Persistent Volume Claim	K8s 영속 볼륨
HPA	Horizontal Pod Autoscaler	K8s 수평 확장
K8s	Kubernetes	쿠버네티스
API	Application Programming Interface	애플리케이션 프로그래밍 인터페이스
REST	Representational State Transfer	REST API 아키텍처 스타일
gRPC	gRPC Remote Procedure Call	구글 발 RPC
CI/CD	Continuous Integration / Delivery	지속 통합·배포
RTE	Real-Time Enterprise	실시간 기업
IoT	Internet of Things	사물인터넷
BPM	Business Process Management	비즈니스 프로세스 관리
BAM	Business Activity Monitoring	비즈니스 활동 모니터링
CIM	Computer Integrated Manufacturing	컴퓨터 통합 생산
OIS	Office Information System	사무정보시스템
ITA/EA	IT Architecture / Enterprise Architecture	IT 아키텍처·전사 아키텍처
PLM	Product Lifecycle Management	제품수명주기관리
KMS	Knowledge Management System	지식관리시스템
CDP	Customer Data Platform	고객 데이터 플랫폼
Data Free Zone	—	비식별 데이터 활용 독립 공간

가명 구분	범위	총 개수
[발표자A]~[발표자AD]	개인 발표자·저자	30개
[회사A]~[회사H]	기업	8개
[기관X]	공공 기관	1개
[대학A]~[대학B]	대학	2개
[고객사α]~[고객사ι]	프로젝트 고객사	9개
$INTERNAL_IP	내부 네트워크 IP	—
$EMAIL_SALES	영업 이메일	—

표기	의미
`[발표자X]`	비식별화된 개인 발표자·저자
`[회사X]`	비식별화된 기업
`[고객사X]`	비식별화된 프로젝트 고객사
`[기관X]`	비식별화된 공공 기관
`[대학X]`	비식별화된 대학
`$INTERNAL_IP`	내부 네트워크 IP 마스킹
`$EMAIL_SALES`	영업 이메일 마스킹

¶ 데이터 아키텍처 · 거버넌스 · 분석 · 보안 종합 지식베이스

¶ 문서 구성

¶ Part 1. 데이터 아키텍처 · 거버넌스 기초

¶ 1.1. 데이터 아키텍처(DA) 정의

¶ 1.1.1. 4대 구성 요소

¶ 1.1.2. 비즈니스 맥락에서의 DA

¶ 1.1.3. DA의 전사적 일관성 원칙

¶ 1.1.4. DA 도구의 역할

¶ 1.2. 엔터프라이즈 데이터 6계층 모델

¶ 1.2.1. Business Data vs Master Data vs Reference Data

¶ 1.2.2. Master Data Management(MDM)의 기반 3요소

¶ 1.3. 데이터 거버넌스 정의

¶ 1.3.1. 거버넌스의 구성 블록 (Input)

¶ 1.3.2. 거버넌스가 보장해야 하는 데이터 품질 특성 (Output)

¶ 1.3.3. 거버넌스 중요성의 강조 지표 (벤더 자료)

¶ 1.4. DGI Data Governance Framework — 10대 컴포넌트

¶ 1.4.1. Rules & Rules of Engagement (규칙과 교전수칙)

¶ 1.4.2. People & Organizational Bodies (인적·조직 주체)

¶ 1.4.3. Processes (프로세스)

¶ 1.4.4. 거버넌스 Focus Areas와 Enterprise Initiatives 매핑

¶ 1.5. 데이터 스튜어드의 8대 책임 (William Inmon)

¶ 1.5.1. 비즈니스 규칙의 메타데이터화 (Alan Perkins, PWC)

¶ 1.5.2. Enterprise Business Reference Data

¶ 1.6. Compliance — 거버넌스의 Driver

¶ 1.6.1. Compliance의 정의 (Anthony Tarantino)

¶ 1.6.2. 주요 Compliance 규제

¶ 1.6.3. Compliance Goals (준수 목표)

¶ 1.7. Business Drivers for Data Governance

¶ 1.8. Business Reference Data Governance Framework

¶ 1.8.1. 설계 방향

¶ 1.8.2. Framework Layers

¶ 1.8.3. 도입 접근법 — Phased Approach (단계별 접근)

¶ 1.8.4. Implementation Range

¶ Part 2. 데이터 플랫폼 아키텍처

¶ 2.1. 엔코아 4계층 플랫폼 모델

¶ 2.1.1. 데이터 단계별 세부 구성 (Data Business Platform 참조)

¶ 2.1.2. 1st / 2nd / 3rd Party Data 수집

¶ 2.2. NIST Big Data Reference Architecture (2014)

¶ 2.3. Lambda (λ) / Kappa (κ) 아키텍처

¶ 2.3.1. Lambda 아키텍처

¶ 2.3.2. Kappa 아키텍처

¶ 2.3.3. 하둡의 블록 스토리지 한계

¶ 2.4. Universal Data Model (UDM) — 14대 Core Entity

¶ 2.4.1. "포도송이형" 데이터 모델의 함정

¶ 2.4.2. DB 이행의 성공전략 (AS-IS → TO-BE)

¶ 2.5. Data Business Platform (DBP) 설계 — DBP 핵심 요소 4

¶ 2.5.1. 플랫폼 진화 5단계 (VISION)

¶ 2.5.2. DBP 핵심 요소 4 — 아키텍처 구체화

¶ 2.5.3. DBP Global Architecture (개념도)

¶ 2.5.4. Application Layer 가이드 구성

¶ 2.6. 데이터 레이크 — Physical + Logical 이중 구성 (CJ AI 센터 모델)

¶ 2.6.1. Physical vs Logical 의사결정 기준

¶ 2.6.2. Data Virtualization 아키텍처 (CSR-001 참조)

¶ 2.7. 데이터 가상화의 업계 표준 구성 (SCM 거버넌스 참조)

¶ 2.8. 한국 IT 서비스 역사와 DA의 위상

¶ Part 3. 데이터 엔지니어링 — 수집 · 가공 · 저장

¶ 3.1. 데이터 수집 (Data Collection)

¶ 3.1.1. 수집의 정의와 목표

¶ 3.1.2. 수집 유형

¶ 3.1.3. 1st / 2nd / 3rd Party Data

¶ 3.1.4. 수집 파이프라인 표준 구성

¶ 3.2. 데이터 가공 (Data Transformation)

¶ 3.2.1. 가공의 하위 단계

¶ 3.2.2. 정제 데이터 대체 (Data Imputation) 분류

¶ 3.2.3. 데이터 가공의 도구·기법

¶ 3.2.4. 데이터 거버넌스 활용 요소

¶ 3.3. 데이터 인프라

¶ 3.3.1. 기본 구성 요소

¶ 3.3.2. 분산 파일·스토리지 선택 가이드

¶ 3.4. Apache Kudu — HDFS + HBase 단점 극복

¶ 3.4.1. 설계 목표

¶ 3.4.2. 주요 특성

¶ 3.4.3. 아키텍처 구성 요소

¶ 3.4.4. Kudu 강점 정리

¶ 3.4.5. 적합 워크로드

¶ 3.5. Apache Impala — SQL on Hadoop 총아

¶ 3.5.1. 포지셔닝

¶ 3.5.2. 메타정보 캐싱

¶ 3.5.3. Impala + Kudu 통합 기능

¶ 3.5.4. SQL on Hadoop 벤치마크 (TPC-DS 기준)