대상 독자: 데이터 아키텍트 / 데이터 엔지니어 / 데이터 분석가 / 데이터 사이언티스트 / 보안 관리자 / 운영·인프라 엔지니어
본 지식베이스는 16개 Part와 부록으로 구성됩니다.
| Part | 주제 | 주요 독자 |
|---|---|---|
| 1 | 데이터 아키텍처 · 거버넌스 기초 | 데이터 아키텍트, 전사 기획 |
| 2 | 데이터 플랫폼 아키텍처 | 데이터 아키텍트, 데이터 엔지니어 |
| 3 | 데이터 엔지니어링 (수집·가공·저장) | 데이터 엔지니어, 운영 엔지니어 |
| 4 | 클라우드 및 마이그레이션 | 데이터 엔지니어, 인프라 엔지니어 |
| 5 | 통계 분석 기법 | 분석가, 데이터 사이언티스트 |
| 6 | 머신러닝 | 데이터 사이언티스트, 분석가 |
| 7 | 데이터 시각화 | 분석가, 기획, BI 담당 |
| 8 | 수요 예측 (Demand Forecasting) | 분석가, 운영 기획, 생산관리 |
| 9 | 데이터 보안 및 비식별화 | 보안 관리자, 데이터 아키텍트 |
| 10 | 데이터 경제 및 산업 동향 | 전사 기획, 임원 |
| 11 | 정보수명주기관리 (ILM) | 데이터 아키텍트, DBA, 보안 관리자 |
| 12 | ML 워크플로우·AutoML·쿠버네티스 분석 환경 | 데이터 엔지니어, MLOps |
| 13 | 솔루션 및 제품 카탈로그 | 구매·기획, 데이터 아키텍트 |
| 14 | 프로젝트 레퍼런스 (산업별) | 영업, PM, 데이터 아키텍트 |
| 15 | 데이터 커리어 가이드 | 신입·주니어, 교육 기획 |
| 16 | 공공/주거 데이터 사례 (부동산·도시금융) | 공공분야 담당, 정책 기획 |
| 부록 | 용어집·비식별화 매핑·참조자료 | 전체 |
데이터 아키텍처란 관리하고자 하는 영역 내에 존재하는 데이터 구조와 의미를 정의하여 기업 목적 달성에 필요한 요소들과 데이터 요소 간의 관계를 정의하는 체계이다. 데이터 요소는 전사적 관점에서 수직(Perspective) 관점과 수평(View) 관점에서 통합된 것을 포함하며, 현재 관리되고 있는 것과 앞으로 관리해야 하는 것 모두를 포함한다.
기업의 DA는 다음 4개 축에서 정의된다.
DA는 다음 네 가지 활용 국면을 지원한다.
DA 도구는 다음 기능을 통합 제공해야 한다.
도구 설계 시 고려사항(언젠가 구현해야 할 기능):
Malcolm Chisholm이 제시한 6 Layers of Data 모델은 전사 데이터의 성격과 생명주기를 구분하는 기준으로 활용된다.
| 계층 | 구분 | 설명 |
|---|---|---|
| 1 | Transaction Audit Data | 거래의 감사 로그·이력 |
| 2 | Transaction Activity Data | 일상의 실제 거래 트랜잭션 |
| 3 | Transaction Structure Data | 거래가 발생하는 관계 구조 |
| 4 | Enterprise Structure Data | 조직·부서·계정 등 전사 구조 |
| 5 | Reference Data | 산업·비즈니스 코드, 시스템 코드, 도메인 등 |
| 6 | Metadata | 데이터에 관한 데이터 (기술·비즈니스 메타) |
MDM은 다음 세 가지 기둥 위에서만 성공한다.
"The organizational bodies, rules, decision rights, and accountabilities of people and information systems as they perform information related processes."
즉, 데이터 거버넌스는 정보 관련 프로세스를 수행하는 인적·시스템 주체에 대한 조직 체계·규칙·의사결정권·책임을 정의하는 것이다.
Data Governance Institute(DGI)의 프레임워크는 거버넌스 프로그램의 구성요소를 3개 축·10대 컴포넌트로 정의한다.
| Focus Area | 주요 Enterprise Initiative |
|---|---|
| Policy, Standards, Strategy | Enterprise Data Management |
| Data Quality | Business Process Reengineering |
| Privacy, Compliance, Security | Master / Meta Data Management, Risk Management |
| Architecture, Integration | SOA, Master/Meta Data Management |
| Data Warehouse and BI | Data Governance Prototype |
| Management Support | 전 영역 |
데이터 스튜어드는 데이터 자산에 대한 실질적 관리자이며, 8가지 책임을 진다.
비즈니스 규칙은 기업의 운영/전략 정보관리 시스템에서 메타데이터로 구현될 수 있다. 규칙이 변경되어도 소스코드는 바꿀 필요가 없으며, 규칙의 내용만 변경한다.
비즈니스 규칙의 유형:
Linking reference data and business rules as metadata
Reference Data (비즈니스 코드·시스템 코드·도메인 등)와 Business Rules (비즈니스 지식)를 메타데이터로 연결하면 다음이 가능해진다.
2008년 미국 금융위기(Subprime Mortgage, Lehman Brothers 붕괴, Merrill Lynch의 BofA 인수) 이후 신자유주의 의제(Liberating Free Enterprise, Cutting Public Expenditure, Deregulation, Privatization, Individual Responsibility)가 More Regulations! Compliance! 로 반전되었고, 이는 데이터 거버넌스의 강력한 동인이 되었다.
"Acting in accordance with established laws, regulations, protocols, standards, and specifications"
| 약자 | 정식명 | 분야 |
|---|---|---|
| SOX | Sarbanes-Oxley Act | 기업 회계 투명성 |
| PCAOB | Public Company Accounting Oversight Board | 상장사 회계 감독 |
| Basel II | Basel II Accord | 은행 자기자본 규제 |
| HIPAA | Health Insurance Portability and Accountability Act | 의료 개인정보 보호 |
| GLBA | Gramm-Leach-Bliley Act | 금융기관 고객정보 보호 |
| EU DPD | EU Data Protection Directive | EU 개인정보 보호 |
| IFRS | International Financial Reporting Standards (IASC) | 국제 회계기준 |
| AML | Anti Money Laundering | 자금세탁 방지 |
| FDS | Fraud Detection System | 부정거래 탐지 |
| Euro-SOX / J-SOX | 유럽·일본 SOX 유사 법안 | 각국 회계 투명성 |
| FRCP | Federal Rules of Civil Procedure | 미국 민사소송규칙 (e-Discovery) |
| 공정성 / 투명성 / 경쟁 | 소비자 보호 / 효율성 / 효과성 |
| 개인정보 / 부정방지 / 범죄대응 | 시스템 안정성 |
Compliance는 Process(절차문서화, 프로세스 정제, 감사추적, 성과측정) → Governance → Data 방향의 Driver로 작용한다.
| Driver | 요구사항 |
|---|---|
| Growing revenue (매출 성장) | 데이터가 비즈니스 요구에 맞도록 보장 (Ensure data meets the needs of the business) |
| Lowering costs (비용 절감) | 데이터를 가치 있는 전사 자산으로 보호·관리·개발 |
| Ensuring compliance (규제 준수) | 데이터 관리 비용 최소화 |
Enterprise Business Reference Data를 중심에 두고 다음 2개 측면을 일체화한다.
그 기반 위에 3개 관리 프레임워크를 구성한다.
┌─ Business Applications (ERP, MES, CRM...) ─── Governance & Compliance Facilities (IFRS, AML, FDS...) ─┐
│
│ Master Data Management │ Enterprise Business Reference Data Management │ Data Quality Management
│ Meta Data Management
│
└─ Infrastructure: Data Interface (ETT) · Messaging & Communication · Data Model · Workflow · Impact Analysis · Report
거버넌스를 한번에 구축하는 것은 실제적이지 않다. Big Bang Approach는 변경관리 리스크와 컷오버 리스크가 크다. 대신 전략적 우선순위에 근거한 Phased Approach를 권장한다.
도입 로드맵은 3개 평가 결과를 통합하여 수립한다.
이후 Metadata Mgmt & Gov → Data Quality Mgmt & Gov → Business Reference Data Mgmt & Gov의 단계로 진화시킨다.
| Phase Range | Metadata Mgmt & Gov | Data Quality Mgmt & Gov | Reference Data Mgmt & Gov |
|---|---|---|---|
| 업무 범위 | 데이터 표준, 메타데이터 수집, 표준·수집 Gap 분석, 메타데이터 변경 관리 | DQ Index & CTQ, 비즈니스/데이터 규칙 수집, 품질 평가, 원인 분석, 애플리케이션·프로세스 추적, 데이터 흐름 정비, 품질 개선, 정기 모니터링 | Reference Data Usage Map, Life Cycle Definition, Flow Arrangement, Change Management |
| IT 범위 | Metadata Management Solution | Data Quality Assessment & Management Solution, Application Impact Analysis Solution, Data Integration (ETL, EAI) | Reference Data Management Solution |
데이터 플랫폼은 수직적으로 4개 계층(Layer)으로 구성되며, 하단에서 상단으로 데이터 흐름이 전파된다.
| 계층 | 명칭 | 역할 |
|---|---|---|
| L4 | SMP (Service Management Platform) | 데이터 활용, 서비스 운영, Activation |
| L3 | AMP (Analytics Management Platform) | 분석, Audience Prediction, Rule-based Profiling |
| L2 | DMP (Data Management Platform) | 데이터 가공, 통합, Key/Tag 관리, ETL/ELT |
| L1 | DC (Data Collection) | 원천 데이터 수집, Adaptor, 스트리밍/배치 수집 |
Ingestion & Integration (DC + 일부 DMP)
분석 가공 (AMP)
Common Application Framework (전 계층 공통)
Data Store (L2~L3)
Service Layer / Activation (SMP)
Media Service (활용 채널)
미국 NIST가 정의한 빅데이터 참조 아키텍처는 5개 Role로 구성된다.
이 모든 Role은 Management Fabric과 Security & Privacy Fabric 두 횡단 관심사로 묶인다.
[Incoming Data]
│
├─── [HBase] ──(Small file 누적, 256MB 대기)── [Parquet Files in HDFS]
│ │
│ Speed Layer (단건 실시간) Batch Layer (대량 배치)
│ │
└────────────────── [Serving Layer] ────────────────────┘
│
▼
[Data Serving / 분석 요청]
한계
A,a,A,a vs 다량 A,a,A)스트림 처리만으로 일원화. 재처리가 필요하면 스트림을 리플레이.
엔터프라이즈 데이터 모델을 구성하는 핵심 엔티티 14개는 다음과 같다.
| # | Core Entity | 설명 |
|---|---|---|
| 1 | PARTY | 개인/조직/법인 당사자 |
| 2 | PRODUCT | 제조·공급 상품 |
| 3 | SERVICE | 용역 서비스 |
| 4 | ACCOUNT | 계정 (고객 계정, 재무 계정) |
| 5 | AGREEMENT | 계약·약정 |
| 6 | BUSINESS ACTION | 비즈니스 행위 |
| 7 | PRICE POLICY | 가격 정책 |
| 8 | INVENTORY | 재고 |
| 9 | RESOURCE | 자원 (인적/물적) |
| 10 | ORDER | 주문 |
| 11 | PAYMENT | 지불 |
| 12 | INVOICE | 송장 |
| 13 | MOVEMENT | 이동·이관 |
| 14 | PARTY PROFILE · COLLECTION | 당사자 프로파일·수집체 |
한 업무 영역의 메인 엔티티에 다수의 행위 엔티티가 붙고, 하위 엔티티들이 동일한 식별자를 가지는 1:1 구조가 반복되면 업무별로 식별자와 속성이 중복되어 관리 효율이 급격히 저하된다. 거버넌스 관점에서 이런 구조는 개선 대상이다.
성공전략
DBP는 내부와 외부 데이터를 연결하여 신규 비즈니스를 창출하고 데이터 경제에서 기업의 역할을 재정의하는 플랫폼이다.
| 단계 | 비전 | 전략 | 고객경험 | 협력 | 프로세스 | 정보공유 | 기술 | 집중영역 |
|---|---|---|---|---|---|---|---|---|
| 1 | 없음 | 없음 | 개념 없음 | 내부 사일로 | 내부 사일로 | 산재 | 미미 | 내부 집중 |
| 2 | 생산 성과 비전 시도 | 고립적, 아래로부터 | 개념 없음 | 초기 편협적 | 초기 자동화, 사일로적 | 팀 기준, 최소 인사이트 | 산재 존재 | 한정된 운영 |
| 3 | 각 영역별 채널의 효율성 | 좀더 협력적, 사일로 존재 | 사일로 수준 집중 | 문화·동기 변화, 여전히 사일로 | 사일로 내 비용·가치 최적화 | 사일로 내 공유, 인사이트 발전 | 사일로 내 고수준 역할 | 사일로 내 효율, 고객 부족 |
| 4 | 전사 내부 통합 | 전사 통합 CRM | 연결된 비즈니스로 이해·집중 | 고객 중심 재구조조정 | 전사 비용·가치 최적화 | 전사 공유·인사이트 | 전사 통합 고수준 | 전사 고객 집중, 균형 |
| 5 | 연결된 가치 부여·인식 | 상호 이익 협력 가치 | 더 넓은 영역 협력 | 고객 중심 공유, 연합 협력 | End-to-End 최적화 | 기업 넘는 인사이트, 외부 데이터 활용 | 기업 넘는 고수준 역할 | 목표 공유, 잘 연결 |
플랫폼 설계의 데이터 흐름은 다음 4단계를 거친다.
상단 Data Sources (1st/2nd/3rd Party) → Ingestion & Integration → 분석 가공 → Common Application Framework → Data Store → Service Layer → Media Service의 계층 구성. 양방향 Data Feedback Process (Profile Data Feedback)가 활성 관리된다.
[고객사θ]의 빅데이터 플랫폼 구성 제안에서 제시된 5 Zone 모델은 Physical Data Lake + Logical Data Lake 를 공존시키는 접근이다.
| Zone | 구성 | 특성 |
|---|---|---|
| Zone 1 | 원천 데이터 수집 | 계열사 원천(HANA, Oracle, MSSQL), ETL/CDC, 실시간 JDBC 수집 |
| Zone 2 | Physical Data Lake (On-Prem/Cloud) | Landing Zone → Curated DW → DM(1..N), 자주 변경되지 않는 데이터, 가명처리 불필요 |
| Zone 3 | Logical Data Lake (On-Prem/Cloud) | Virtual DB 1..N, Data Virtualization, 자주 변경·실시간 최신·가명처리 필요 데이터 |
| Zone 4 | 데이터 활용 기반 | 데이터 포털·마켓 스토어, 카탈로그/검색/시각화, 분석환경(전문가/Citizen Data Scientist), K8s 분석 자원, 데이터셋·상품 API |
| Zone 5 | 데이터 거버넌스 | 표준·모델·구조·품질·흐름 통합 관리 |
DATAWARE-DV# ([회사A])데이터 가상화 계층은 오픈소스 기반으로 다음 구성이 대표적이다.
| 구성요소 | 오픈소스 | 역할 |
|---|---|---|
| 웹 기반 DB 클라이언트 | CloudBeaver | PC 설치 없이 브라우저에서 DB 접속 |
| 분산 쿼리 엔진 | Trino | 여러 DB를 하나의 SQL로 조회 |
| 데이터 가상화 엔진 | Teiid | 서로 다른 DB를 하나의 가상 DB로 통합 |
| JDBC 감사 프록시 | P6Spy | 모든 SQL 실행을 기록 |
| 세션 스토어 | Redis/Valkey | 사용자 세션 관리 |
| 리버스 프록시 | Nginx + TLS 1.3 | 보안 접속 게이트웨이 |
데이터 소스 Catalog 연결 (Trino Connectors): Oracle, Hive, Kudu, HBase, PostgreSQL, Iceberg 등.
Virtual Database(VDB) 설계 시 고려사항:
| 기간 | 중심 기술 | 가치 지향 | 기능 수준 |
|---|---|---|---|
| 1990~2000 | RDBMS, GUI, ISP, ERP, MES, CIM, MIS, OA/FA/OIS | 생존의 수단 | 기본업무 지원 |
| 2000~2005 | EDW, Data Mining, CRM, MDM, KMS, ITA/EA, e-Business, Standardization, Governance | 생산성 향상 | 관리효율 향상 |
| 2005~2011 | SOA, EAI, EII, SCM, BPM, BAM, PLM, Grid, Cloud Computing, IT Compliance, ESM | 생산성 향상 | 프로세스 확장/연계 |
| 2012~ | IT Convergence, BI, Big Data, Appliance, RTE, Mobile & Social, IoT | 경쟁력 향상 | 고도의 의사결정 지원 |
한국은 차세대 시스템 재구축 위주로 진행되어 기반이 구축된 상태이며, 이후 분석 위주 시스템 구축이 본격화되었다.
데이터 수집은 데이터 가치사슬의 첫 단계로, 내·외부 데이터를 플랫폼의 Landing Zone 또는 저장소로 이동시키는 활동이다. 수집은 다음 측면을 동시에 만족해야 한다.
| 유형 | 특징 | 대표 기술 |
|---|---|---|
| 배치 수집 | 일/시간 단위 ETL | Sqoop, Apache NiFi, Airflow |
| 실시간 스트리밍 | 초·밀리초 단위 | Apache Kafka, Kinesis, Flume, Flink |
| CDC (Change Data Capture) | 원천 DB 변경분 추적 | Debezium, Oracle GoldenGate |
| JDBC/ODBC 풀링 | 주기적 조회 | ETL 툴 |
| 파일 업로드 | 배치 파일 수집 | NFS, SFTP |
| API 수집 | RESTful, SOAP | 커스텀 커넥터 |
| 웹 크롤링 | 외부 웹 데이터 | Scrapy, Selenium |
데이터 경제에서 수집 대상의 소유권에 따라 데이터를 3가지로 구분한다.
[원천]─[Adaptor]─[수집 가공(Key/Tag)]─[스트리밍 처리]─[ETL/ELT Management]─[저장]
Cleaning의 대표 문제 유형:
Occupation = ' ' (missing data)Salary = "-10" (an error)Age = "42" but Birthday = '2010/03/07' / 평점 체계가 1,2,3 → A,B,C로 바뀜 / 중복 레코드 간 불일치Missing Data의 원인:
결측치를 채우는 방법은 단순대체와 다중대체로 나뉜다.
1. 단순대체 (Single Imputation)
1.1. 완전분석 (Complete Case Analysis)
1.2. 평균대체 (Mean Imputation)
1.2.1. 비조건부 평균대치법 (전체 평균)
1.2.2. 조건부 평균대치법 (회귀대체)
1.3. 단순확률대체
1.3.1. Cold-Deck 대체 (외부 참조값)
1.3.2. Hot-Deck 대체 (내부 유사 레코드)
1.3.3. Weighted Hot-Deck 대체
1.3.4. Nearest-Neighbour 대체
2. 다중대체 (Multiple Imputation)
| 구성 | 기술군 | 비고 |
|---|---|---|
| In-Memory Appliance | HANA, Oracle TimesTen | 초저지연 서비스 |
| Database Appliance | Exadata, Teradata | 대용량 DW |
| Enterprise Data Warehouse | DW + DM | 정형 중심 |
| Cloud, Virtualization | AWS/GCP/Azure | 유연 확장 |
| Hadoop Ecosystem | HDFS, MapReduce, YARN | 대용량 비정형 |
| NoSQL | HBase, MongoDB, Couch, Cassandra | 단건 조회 |
| Stream | Kafka, Flink, Spark Streaming | 실시간 |
| 요구 | 권장 |
|---|---|
| 10TB 이하 정형 | RDBMS (MySQL/PostgreSQL) |
| 다량 조회 중심 | HDFS + Parquet/ORC |
| 단건 조회 중심 | HBase, NoSQL |
| 다량+단건 혼재 | Kudu (컬럼형 OLAP DB), Iceberg, DeltaLake |
Kudu는 하둡 내 다양한 스토리지 기술을 제공하고 다양한 워크로드를 효율적으로 수용하는 것을 목표로 한다. 범용 하드웨어 사용, 확장성, 데이터 가용성 보장은 하둡 기본 특성을 그대로 지원한다.
Hive Metastore 서버와 직접 통신하여 다음을 캐시화:
외부 서비스 요청을 할 필요가 없어 시간 단축.
외부 벤치마크 결과 Impala가 SQL on Hadoop 처리 엔진 중 가장 빠른 성능 제공 (Greenplum과 함께 최상위). 3.5TB 데이터에서 10억 건 조회·삽입에 약 40초.
하둡은 크게 HDFS (저장·관리)와 MapReduce (분석·수행) 두 축으로 구성.
| 단계 | 활동 |
|---|---|
| 1. 사전 진단 | AS-IS 시스템 현황 파악, 대상 시스템 선정 |
| 2. 서비스 현황 조사·분석 | 대상 시스템 분석, To-Be 시스템 결정 |
| 3. Migration Test | 성능 파악, Pilot 실행, 단위/통합 Test |
| 4. Migration 수행 | 절차 따라 이행 |
| 5. 검증·안정화 | 성능·정합성 검증 |
| 영역 | 분석 대상 |
|---|---|
| Infra | Data Flow, Network, Architecture, Resource, Operation System |
| Application | Version, Library, Configuration |
| Data | Storage Usage, File Count, File Type |
| Service | Service Type, Dependence, Func Specification |
12c (TNS 구성, 내부망 IP는 $INTERNAL_IP로 마스킹)9.5.2 (compiled by Visual C++ build 1800, 64-bit)strawberry-perl-5.28.0.1-64bit.msi 또는 -32bit.msi, Oracle Client와 동일 bit)win32_11gR2_client)pgAdmin 4 (v3.3-x86)C:\Strawberry\perl\bin;C:\Program Files (x86)\pgAdmin 4\v3\runtime
| Oracle | PostgreSQL | 주의사항 |
|---|---|---|
VARCHAR2(n) |
VARCHAR(n) |
Oracle n=바이트 수, PG n=문자 수 |
CHAR(n) |
CHAR(n) |
동일 |
NUMBER(n,m) |
NUMERIC(n,m) |
성능 위해 SMALLINT/INT/BIGINT 권장 |
NUMBER(4) |
SMALLINT |
|
NUMBER(9) |
INT |
|
NUMBER(18) |
BIGINT |
|
NUMBER(n) (n≥19) |
NUMERIC(n) |
|
DATE |
TIMESTAMP(0) |
Oracle DATE는 날짜+시간, PG DATE는 날짜만 |
TIMESTAMP WITH LOCAL TIME ZONE |
TIMESTAMPTZ |
PG TIMESTAMPTZ ≠ Oracle TIMESTAMP WITH TIME ZONE, Oracle LOCAL TIME ZONE과 동치 |
CLOB |
TEXT |
PG TEXT는 최대 1GB |
BLOB |
BYTEA (1GB 한도) |
1GB 초과 시 Large Object 사용 |
RAW(n) |
Large Object |
| Oracle 의미 | PostgreSQL 함수 | 샘플 |
|---|---|---|
| SQL start time | statement_timestamp() |
2018-09-20 17:42:20.069803+09 |
| Transaction start time | now() |
|
| Time when the function is implemented | clock_timestamp() |
TO_DATE는 hh24/mi/ss까지 지원TO_DATE는 yyyy/mm/dd까지만 지원변환 예
-- Oracle
SELECT TO_DATE('20180314121212','yyyymmddhh24miss') FROM dual;
-- PostgreSQL
SELECT TO_TIMESTAMP('20180314121212','yyyymmddhh24miss')::TIMESTAMP(0);
날짜만 쓴다면 그대로 사용 가능.
| 케이스 | Oracle | PostgreSQL |
|---|---|---|
'ABC' || (null) |
'ABC' |
(null) |
'' (empty string) |
(null) |
'' |
Sequence_name.nextvalNEXTVAL('sequence_name')SUBSTR: 시작 위치에 음수 가능SUBSTR/SUBSTRING: 시작 위치 음수 시 NULL 반환Oracle:
SELECT * FROM EMPLOYEES
CONNECT BY PRIOR EMPLOYEE_ID = MANAGER_ID
START WITH MANAGER_ID IS NULL;
PostgreSQL 자동 변환 (alias 필요):
WITH RECURSIVE cte AS (
SELECT a.* FROM EMPLOYEES a WHERE MANAGER_ID IS NULL
UNION ALL
SELECT a.* FROM EMPLOYEES a JOIN cte c ON (c.EMPLOYEE_ID = a.MANAGER_ID)
)
SELECT * FROM cte;
| 성공 요소 | 내용 |
|---|---|
| 선도 개발의 완벽한 연계 | 선도 개발 결과의 완벽한 이해 및 전 영역 확대 적용 |
| As-Is 기반 To-Be 매핑 | As-Is 기반의 To-Be 매핑 모델링 방법론 적용 |
| 자동화된 솔루션 활용 | 매핑 정의 기반의 자동 이행 프로그램 생성 |
| 효율적 협업 | 업무 분장·콘텐츠 공유, 모델러의 매핑 정의 변경 관리 |
| 대용량 이행 전략 | 솔루션에 의한 변경관리 자동화, 통합 테스트 리드타임 최소화 |
| 개념 | 설명 |
|---|---|
| 모집단 | 관찰의 대상이 되는 전체 집단 (예: 한국인) |
| 모수 (Parameter) | 모집단의 특성을 나타내는 수치 (평균·중앙값·표준편차·분산) |
| 표본 (Sample) | 모집단의 부분집합 (예: 1,500명) |
| 통계량 (Statistic) | 표본의 특성을 나타내는 수치 |
| 전수조사 | 모집단 전체 조사 (비용 高) |
| 표본조사 | 표본으로부터 모수 추정 (비용 低) |
| 표본오차 | 표본 조사로 인한 모수 추정의 오차 |
Data in the real world is dirty. 수많은 데이터가 잠재적으로 잘못될 수 있다.
주요 문제 유형:
Salary = "-10") Data Cleaning → Data Integration → Data Transformation → Data Reduction
회귀는 본래 "한번 돌아 원래로 돌아오는 것" (Francis Galton의 평균 회귀 현상)에서 유래. 현대 회귀분석은 평균으로 돌아가려는 특성을 분석하는 것이 아니라 두 변수 간 인과관계를 통해 예측하는 기법이다.
Ŷ = a + bX
Ŷ: 종속변수(수요) Y의 추정치 (회귀선상의 값)X: 독립변수 (수요에 가장 큰 영향을 미치는 요인)a: Y축 절편 (X=0일 때 Ŷ 값)b: 직선의 기울기n개 관측치 (X_i, Y_i)에 대해:
b = (n·ΣX_i·Y_i - ΣX_i·ΣY_i) / (n·ΣX_i² - (ΣX_i)²)
a = (ΣY_i - b·ΣX_i) / n
| 월(i) | 총운행거리 X (만km) | 타이어 사용량 Y |
|---|---|---|
| 1 | 24 | 10 |
| 2 | 32 | 15 |
| 3 | 27 | 12 |
| 4 | 18 | 8 |
| 5 | 20 | 9 |
| 6 | 43 | 18 |
| 합계 | 164 | 72 |
계산 결과:
b = (6×2,142 - 164×72) / (6×4,902 - 164²) ≈ 0.41a = (72 - 0.41×164) / 6 ≈ 0.79Ŷ = 0.79 + 0.41X= 0.79 + 0.41(35) ≈ 15.14 (약 15개)k개 독립변수:
Ŷ = a + b₁·X₁ + b₂·X₂ + ... + b_k·X_k
PCA는 Data Reduction의 한 기법으로서 차원 축소를 통해 다음을 얻는다.
데이터 가공 프로세스 내 위치:
| 연도 | 사건 | 주요 인물/논문 |
|---|---|---|
| 1943 | 인공 신경망(ANN) 개념의 시작 | McCulloch, Warren S. & Walter Pitts, "A logical calculus of the ideas immanent in nervous activity" |
| 1958 | 퍼셉트론(Perceptron) 개념 | Frank Rosenblatt, "The perceptron: A probabilistic model for information storage and organization in the brain" |
| 1969 | 단층 퍼셉트론의 한계 증명 | Marvin Minsky & Seymour Papert, "Perceptrons" |
| 1974 | 오류역전파법(Backpropagation) 최초 제안 | Paul Werbos (당대엔 무시됨) |
| 1986 | 다층 퍼셉트론 공식화 | McClelland, Rumelhart, Hinton, "Parallel Distributed Processing" |
| ~1998 | CNN의 등장 | Yann LeCun, LeNet |
| 2006 | 딥러닝의 부활 | Hinton, Bengio — 적절한 초기값과 충분히 깊은 네트워크가 복잡한 문제 해결 가능 |
1, 작으면 -1을 출력2개 입력 신호 x₁, x₂, 가중치 w₁, w₂, 임계치 θ에 대해:
y = 1 if (w₁·x₁ + w₂·x₂ > θ)
y = 0 otherwise
y = step(w·x + b)합성 함수의 미분 = 합성 함수를 구성하는 각 함수의 미분의 곱
| 노드 | 순전파 | 역전파 |
|---|---|---|
| 덧셈 (+) | z = x + y |
상류 미분에 1을 곱해 그대로 전달 |
| 곱셈 (×) | z = x·y |
상류 미분에 순전파 신호를 서로 바꾸어 곱해 전달 |
| 나눗셈 (/) | z = 1/x |
-1/x² 곱 |
| EXP | z = exp(x) |
순전파 출력을 곱해 전달 |
ReLU 함수
f(x) = x (x > 0)
f(x) = 0 (x ≤ 0)
역전파:
∂f/∂x = 1 (x > 0)
∂f/∂x = 0 (x ≤ 0)
Sigmoid 계층
y = 1 / (1 + exp(-x))∂L/∂x = ∂L/∂y · y · (1 - y) — 순전파의 출력만으로 역전파 계산 가능초기값 선택 가이드
| 구분 | C-SVM | nu-SVM |
|---|---|---|
| 파라미터 | C (페널티/코스트) | ν (0~1 사이) |
| 해석 | 크게 하면 줄을 복잡하게 그려도 에러 최소화 (오버피팅 가능) / 작게 하면 부드러운 선, 에러 용인 | ν만큼 에러 허용 상한 지정 (ν=0.5면 50% 에러 허용) |
| 비유 | 패널티 = 교통법규 벌금. 벌금 낮으면 법규 안 지킴 |
Data Preprocessing — Categorical Feature
{red, green, blue} → 3개 0/1 변수Data Preprocessing — Feature Scaling
[-1, +1] 또는 [0, 1] 범위 스케일링 권장Model Selection (Cross-Validation, Grid Search)
SVM Training
Prediction
장점
단점
| 방식 | 설명 | 예 |
|---|---|---|
| 연산의 공유 | 해를 구하는데 두 개 이상 알고리즘이 개입 (공통 문제에 여러 알고리즘 참여) | SVM+DT: 분류 명확한 집단은 DT로, 어려운 집단은 SVM으로 (Kumar et al., 2010) |
| 결과의 결합 | 독립적으로 학습된 모델들의 결과를 다수결/가중합으로 결합 | Bagging, Random Forest, Boosting, Stacking |
Bagging (Bootstrap Aggregating)
Boosting
Stacking
| 환경 | 대상 | 주요 도구 |
|---|---|---|
| 전문 분석 개발 환경 | 분석가 | Jupyter Notebook, R-Studio |
| 비전문가 분석 환경 | Citizen Data Scientist | GUI Workflow, Auto ML |
| 분석 자원 관리 | 전체 | 신청·승인·회수, 자원 모니터링 |
데이터 수집 → 데이터 정제 → 모델 생성 → 모델 학습 → 모델 검증 → 모델 배포 → 서비스 모니터링 → 모델 서비스
각 단계는 재실행·버전 관리·자동화가 가능해야 하며, 컨테이너(K8s) 기반 자원 할당을 권장한다.
데이터 시각화는 데이터에 내재된 통계적 정보를 그림의 형태로 드러내는 것이다.
| 측면 | 분석적 측면 | 서비스 측면 |
|---|---|---|
| 누가 | 분석가 | 프로그래머, 웹디자이너, BI |
| 목적 | 데이터 탐색·해석 | 결과 전달, 인사이트 도출 |
| 결과물 | 탐색 차트 | 대시보드, 리포트 |
최근에는 분석가가 탐색 과정에서 생성한 그래프를 서비스 그래프로 공유·재활용하는 경향.
| 대상 | 목적 | 대표 그래프 |
|---|---|---|
| 시간 | 추세·주기 | 선그래프, Area Chart, Candlestick |
| 분포 | 값의 퍼짐 | 히스토그램, 박스플롯, 밀도 |
| 관계 | 변수 간 상관 | 산점도, 버블, Heatmap, 상관행렬 |
| 비교 | 범주 간 크기 | 막대, 누적막대, 대칭 막대 |
| 공간 | 지리 정보 | Choropleth, 지도 Heatmap, Point Map, Flow Map |
수요예측은 각종 생산 의사결정에 기초자료 제공. 재고(계획) 생산에 특히 중요. 공정설계, 생산능력계획, 재고관리 등.
| 예측용도 | 기간 | 요구 정확도 | 적합 기법 |
|---|---|---|---|
| 공정설계 | 장기 | 중간 | 정성적 + 인과형 |
| 설비계획 | 장기 | 중간 | 정성적 + 인과형 |
| 총괄계획 | 중기 | 높음 | 인과형 + 시계열 |
| 일정계획 | 단기 | 매우 높음 | 시계열 |
| 재고관리 | 단기 | 매우 높음 | 시계열 |
시계열이란 일정한 시간간격으로 본 일련의 과거자료 (예: 일별·주별·월별 판매량). 4가지 구성요소로 분해된다.
모델: Y = f(T, S, C, R)
Y = T · S · C · RY = T + S + C + R(a) 추세·계절 변동 없음 — 안정 평균
(b) 추세 없고 계절만 있음
(c) 선형 추세, 가법적 계절
(d) 선형 추세, 승법적 계절
(e) 비선형 추세, 가법적 계절
(f) 비선형 추세, 승법적 계절
공식: F_t = (A_{t-1} + A_{t-2} + ... + A_{t-N}) / N
예: 4개월 단순 이동평균, 1~4월 실제수요 4, 3, 4, 5
(5+4+3+4)/4 = 4(5+5+4+3)/4 = 4.25이동평균기간 결정
직전 N기간에 합이 1인 가중치를 부여.
공식: F_t = W_{t-1}·A_{t-1} + W_{t-2}·A_{t-2} + ... + W_{t-N}·A_{t-N}, Σ W_i = 1
예: W = [0.4, 0.3, 0.2, 0.1], 1~4월 [100, 90, 105, 95]
0.4(95) + 0.3(105) + 0.2(90) + 0.1(100) = 97.50.4(110) + 0.3(95) + 0.2(105) + 0.1(90) = 102.5지수적으로 감소하는 가중치 적용. 최근 자료에 더 큰 비중.
공식
F_t = α·A_{t-1} + (1-α)·F_{t-1}
= F_{t-1} + α·(A_{t-1} - F_{t-1})
α는 평활상수 (0 ≤ α ≤ 1). 표현: 신예측치 = 구예측치 + α × 예측오차
예: F_{t-1} = 100, A_{t-1} = 110, α = 0.3
F_t = 100 + 0.3×(110-100) = 103α 역할
α 결정 방법
시계열을 관통하는 추세선 구한 뒤 외삽.
직선 추세선: Ŷ_t = a + b·t
t = 1, 2, ..., n (기간)a = Ŷ_t 축 절편 (t=0일 때)b = 기울기최소자승법으로 a, b 결정 (회귀분석과 동일).
예: 1996~2000년 실제수요 [30, 40, 60, 50, 80]
b = (5×890 - 260×15) / (5×55 - 15²) = 11a = (260 - 11×15) / 5 = 19Ŷ_t = 19 + 11tŶ_6 = 19 + 11(6) = 85시계열을 구성요소로 분해하여 수요 예측.
추세와 계절의 결합
FITS = 추세 + 계절FITS = 추세 × 계절지수예시 (가법·승법 비교)
2007년 분기 실제수요: [봄 90, 여름 150, 가을 110, 겨울 50], 평균 100
[-10, +50, +10, -50][0.9, 1.5, 1.1, 0.5][100, 160, 120, 60][99, 165, 121, 55]계절지수 계산 예 (4분기 2005~2007)
[0.596, 0.746, 0.926, 1.732]2008년 분기별 예측치 (평균 분기 매출액 예측치 Ŷ_t = 47.8 + 2.63t 가정)
| 분기 | t | 평균 예측 | 계절지수 | 최종 예측 |
|---|---|---|---|---|
| 1/4 | 13 | 82.0 | 0.596 | 48.8 |
| 2/4 | 14 | 84.6 | 0.746 | 63.1 |
| 3/4 | 15 | 87.2 | 0.926 | 80.7 |
| 4/4 | 16 | 89.9 | 1.732 | 155.7 |
(수식·사례는 Part 5 참조)
Ŷ = a + b₁·X₁ + b₂·X₂ + ... + b_k·X_k
| 지표 | 공식 | 특징 |
|---|---|---|
| ME (Mean Error) | Σ(A_t - F_t) / n |
양의·음의 오차 상쇄. 편의 없으면 0에 근접. 절대편차는 클 수 있음 |
| MSE (Mean Squared Error) | Σ(A_t - F_t)² / n |
양·음 상쇄 없음. 큰 오차에 가중치 큼 |
| MAD (Mean Absolute Deviation) | Σ|A_t - F_t| / n |
오차의 절대치 평균. 1σ ≈ 1.25·MAD / 1MAD ≈ 0.8σ |
| MAPE (Mean Absolute Percent Error) | Σ|A_t - F_t|/A_t × 100% / n |
상대오차 비율. 수요 크기 크게 달라질 때 유용 |
| t | 실제 A | 예측 F | 편차 A-F | 절대편차 | 자승오차 | 절대비율오차 (%) |
|---|---|---|---|---|---|---|
| 1 | 53 | 54 | -1 | 1 | 1 | 1.89 |
| 2 | 59 | 55 | 4 | 4 | 16 | 6.78 |
| 3 | 64 | 56 | 8 | 8 | 64 | 12.50 |
| 4 | 48 | 58 | -10 | 10 | 100 | 20.83 |
| 5 | 55 | 50 | 5 | 5 | 25 | 9.09 |
| 6 | 52 | 55 | -3 | 3 | 9 | 5.77 |
| 7 | 55 | 52 | 3 | 3 | 9 | 5.45 |
| 8 | 44 | 48 | -4 | 4 | 16 | 9.09 |
| 합 | 2 | 38 | 240 | 71.40 |
결과: ME = 0.25, MAD = 4.75, MSE = 30, MAPE ≈ 8.93%
TS = Σ(A_t - F_t) / MAD
단위는 MAD.
최종 기법 선택은 다음 요인의 종합적 판단:
2012년 [회사F]의 연구보고서 "효과적 수요 예측 방법과 사례" (주저자 [발표자U]·공동저자 [발표자V~AA]) 의 핵심 기법 비교.
| 구분 | 기법 | 적합한 환경 | 특징 |
|---|---|---|---|
| 정성적 | 전문가 의견 활용 | 과거 데이터 수집 불가능 / 유사 제품 시장 전문가 확보 가능 | 적합한 전문가 확보가 관건 |
| 정성적 | 컨조인트 분석 | 제품 기능·속성별 니즈 파악 / 신제품 시장 반응 예측 | 정확도 높아 기업에서 널리 사용 / 고비용 서베이 필요 |
| 정성적 | 인덱스 분석 | 부동산·프로젝트 등 희소제의 선택 가능성 예측 | 변수 민감도 파악 용이 / 사전 연구 필요 |
| 정량적 | 회귀분석 | 분석 대상 데이터 확보 여부가 중요 / 인과관계 파악 필요 분야 | 엑셀 등에서도 쉽게 추정 |
| 정량적 | 시계열 분석 | 과거 데이터 수집 용이 / 다양한 변수·시차의 복잡한 인과관계 모형화 가능 | 예측 목적 전형적 모형 / 충격에 의한 장기 영향 파악 |
| 정량적 | 확산모형 | 신제품·신기술 수요 예측 / 과거 데이터 불가능하거나 초기 데이터만 활용 | 신제품 확산 과정 모델링 / 대중매체·구전효과 반영 / 저비용 |
| 정량적 | 정보 예측 시장 | 제품·상황의 장기 실시간 변화 파악 | 시장 참여자가 많아야 의미 있는 정보 추출 |
| 시스템 | 시스템 다이내믹스 | 수요가 산업 내적 요인에 의해 주로 영향 | 산업의 동태적 변화를 구조에 기반하여 이해 |
| 시스템 | 인공신경망 | 인과관계 복잡하고 많은 데이터 분석 필요 / 미래 고객 발굴 마케팅 | 알고리즘 활용 최적화 결과 도출 / 인과관계 설명 부족 |
개인정보를 특정 개인을 알아볼 수 없도록 가공하는 처리. 완전 삭제가 아닌 데이터 유용성과 식별 위험의 균형을 찾는 활동이다.
| 기법 | 설명 | 예시 (원본 → 처리) |
|---|---|---|
| Masking (마스킹) | 식별자를 *·임의문자로 부분 대체 |
홍길동 → 홍*동, abc@domain.com → a**@**main.com |
| Pseudonymization (가명처리) | 식별자를 가명·대체값으로 치환 | 홍길동 → [발표자A], 주민번호 → 식별 불가 ID |
| Encryption (암호화) | 식별자를 암호화하여 복호화 키 없이 식별 불가 | 123-45-6789 → AES-256 암호문 |
| Suppression (삭제) | 식별자를 완전히 제거 | 홍길동 → <삭제> |
| Aggregation (총계처리) | 개별 값을 평균·합계 등으로 집계 | 각자 소득 → 연령대별 평균 소득 |
| Categorization (범주화) | 구간·범주로 일반화 | 나이 27 → 20대, 서울시 종로구 → 서울시 |
[회사A] DSC(데이터서비스센터)가 운영하는 모델: 개인·기업 등이 보유한 공공·민간 데이터를 비식별 조치하여, 누구나 자유롭게 연계·결합·분석할 수 있는 독립된 분석 활용 공간.
운영환경 ──▶ [Subset] ──▶ [Mask] ──▶ [Propagate] ──▶ 개발환경
(여러 타겟으로 전파)
현재 시스템은 "데이터를 저장하고 처리하는 기능은 잘 갖추어져 있지만, 데이터를 누가·어떻게 사용하는지 관리하는 체계가 없는" 상태가 일반적이다.
| 현재 문제 | 비유 | 위험성 | 도입 후 |
|---|---|---|---|
| 사용자 계정 관리 없음 | 출입증 없이 누구나 들어옴 | 접속자 파악 불가 | Keycloak으로 통합 계정 관리 |
| 통합 인증(SSO) 없음 | 방마다 다른 열쇠 사용 | 권한 관리 불가 | OIDC/SAML 기반 SSO |
| 데이터 접근 통제 없음 | 모든 방 문이 열려 있음 | 비인가 접근 차단 불가 | OPA 정책 엔진 |
| 데이터 카탈로그 없음 | 건물 안내 지도 없음 | 데이터 위치 파악 어려움 | OpenMetadata 카탈로그 |
| 데이터 품질 관리 없음 | 시설물 점검 없음 | 잘못된 데이터 업무 사용 | Great Expectations |
| 역할 | 오픈소스 | 기능 |
|---|---|---|
| 통합 인증 (IAM) | Keycloak | SSO, OIDC/SAML, MFA(TOTP/WebAuthn), LDAP/AD 연동 |
| 인가 정책 엔진 | OPA (Open Policy Agent) | Policy-as-Code, Rego 언어, RBAC/ABAC |
| 시크릿 관리 | HashiCorp Vault | 비밀번호·API 키·토큰 중앙 관리, 동적 시크릿, 자동 로테이션 |
| 세션 저장소 | Redis / Valkey | 세션 유지·타임아웃·동시 세션 제어 |
| 리버스 프록시 | Nginx + TLS 1.3 | 보안 접속 게이트웨이 |
| 감사 로깅 | P6Spy + Fluent Bit + Kafka + OpenSearch | 모든 SQL 캡처 → 중앙 집계 → 장기 보관·검색 |
| 관측성 | Prometheus + Loki + Grafana | 메트릭·로그·대시보드·알림 |
| 범주 | 이슈 |
|---|---|
| 비용 절감 | 인프라 비용 (티어드 스토리지), 컴플라이언스 비용 최소화(위약금·벌금), 저가 장비 애플리케이션 에러 최소화 인력비 절감 |
| 성능 최적화 | 과거 트랜잭션 데이터 안전 분리로 앱 성능 향상, SLA 달성, 앱 릴리즈 가속화 |
| 위험 요소 제거 | 과거 데이터 관리·접근, 감사·e-Discovery 대응, 개인정보 보호 |
데이터는 생물과 같아서 성장·관리·교육해야 가치를 발휘한다.
성공적 빅데이터 활용 시스템 구성
| 단계 | 역할 | 주체 |
|---|---|---|
| 데이터 활용 전략 | 내·외부 고객 데이터 분석 (정형 + 비정형) | 전략 컨설팅, 데이터 판매 회사 |
| DW 저장·가공 | ETL·정제·통합 | 클라우드·가상화·데이터 통합·Backend 프로세스 |
| BA 분석 | 알고리즘·분석 툴 | 분석 전문회사 |
| BI 수행 전략 | 타겟·리포트·캠페인 개발 | 캠페인 툴·CRM·OLAP·전략 컨설팅 |
| 수행 활용 | 고객 지원·채널 수행 | 다채널 관리·디자인·이메일/우편/모바일/웹/케이블 |
| 수행 모니터링 | 평가·개선 | 분석·모니터링 대시보드·혁신적 제품 개발 |
활용 전략 → 데이터 저장·가공 → BA 분석 → BI 전략 → 수행 → 모니터링 → 활용 전략으로 피드백.
| 세대 | 시기 | 기술 특성 |
|---|---|---|
| 1세대 (BI 1.0) | 1985~2000 | ETL & Relational, Manual Discovery, A→B Pipe |
| 2세대 (BI 2.0) | 2000~2010 | ETL with GUI, Wire Diagrams, Relational, Simple Connectors, MDM Hub |
| 3세대 (BI 3.0) | 2010~2012 | Persistent Metadata Server, Hub & Spoke, Data Virtualization, Automated Discovery, Automated Operations, Relational/Object/XML/NoSQL, No Programming, Cloud & On-premise |
| 차세대 NGEN Platform | 2012~2013 | Enterprise View of Data Integration, Networked Topology, ETL & Data Virtualization, State & Lineage, Compliance, Data Quality, Data Governance, Roll-back, Roll-forward, Virtual MDM™, No programming, Cloud & On-Premise |
| 시기 | 미국 | 한국 |
|---|---|---|
| ~2005 | 통합 (Integration) | 통합 (Integration) |
| 2005~2010 | 연합 (Federation) | 통합 (여전) |
| 2010~ | 가상화 (Virtualization) | 통합 (여전) |
한국은 미국 대비 약 7~10년 지연된 흐름.
빅데이터 활용에서 대부분의 문제는 통합과 가공의 문제이다.
9대 주요 난제
Worldwide Big Data Technology and Services Revenue Share
빅데이터 Sample Use Cases
| 단계 | 필요 인력 |
|---|---|
| Development | DS (Data Scientist), DA (Data Analyst), DE (Data Engineer), DA (Data Architect), BDE (Big Data Engineer), DBA |
| Operation | DE, DA, DBA |
데이터 생성 시스템 시장 순위:
전통 CRM이 2008년을 기점으로 Social CRM으로 확장.
| 영역 | 구성 요소 |
|---|---|
| Online Customer Communities | 고객 커뮤니티 |
| Social Networks | SNS |
| Traditional CRM | 내부 고객 DB |
| Social CRM | 위 세 요소의 교집합 |
운영계(기간계) + 정보계(분석계) = 전사 정보 시스템
How did Obama Campaign Leverage Big Data This Election?
여러 DB 병합으로 분리된 팀 간의 데이터 공유 촉진.
| 핵심 | 요구사항 | 답 |
|---|---|---|
| 급증하는 데이터와 정보의 사일로화 | 지능적 의사결정을 위해 다수 소스로부터 유입되어 실시간 활용 가능한 **정보의 부(富)**를 어떻게 누릴 것인가? | New Intelligence |
| 새로운 비즈니스와 프로세스에 대한 요구 | 새 방식의 구매·소비·직업·일상생활을 지원하는 유연·역동적 프로세스에 임하여 어떻게 지능적 일할 것인가? | Smart Work |
| 유연성 결여된 고비용 구조의 인프라 | 오늘과 같은 역동적 비즈니스 환경에 필요·맞출 수 있는 지능적이고 인지되며 비용 효율적 인프라를 어떻게 구축할 것인가? | Dynamic Infrastructure |
| 제한된 리소스 | 다양한 이슈에 효율적·경쟁력 있게 민첩·빠른 의사결정을 내릴 것인가? | Green & Beyond |
→ 이 모든 답의 핵심은 New Intelligence.
정보 기반 조직으로의 변화가 필요하다. 비즈니스 가치 vs 정보 사용 성숙도 2x2 매트릭스:
| 단계 | 정보 활용 |
|---|---|
| Focus on Data And Reporting | 조직·기업 운영을 위한 데이터 관리 |
| Basic Information Interaction | 조직·기업 경쟁 위한 정보 관리 |
| Information in Context | 정보를 전략적 자산으로 활용 |
| Real-time Single View of the Truth | 정보를 통해 혁신을 가능하게 함 |
| Adaptive Business Performance | 정보를 경쟁적 차별화 요소로 활용 |
최상위 단계에서 Innovative Uses of Information가 실현된다.
"정보가 지닌 비즈니스적 가치를 이끌어내기 위한 접근 방법"
| 영역 | 주요 과제 |
|---|---|
| 전략 | 원칙 수립 / 모든 구성 요소에 대한 포괄적 비전 제시 / 조직의 비즈니스 전략과 운영 프레임워크 적용 / 전체 이해관계자 수립 |
| 데이터 거버넌스 | 정책 수립·실행 필수 / 핵심 정보 자산 관리 정책·실행 정의 / 아키텍처 실행과 표준 개발 / 데이터 질 모니터 / 교육·개발 |
| 정보 인프라 | 비즈니스 프로세스 일부로서 정보 관리 / 정확·신뢰할 수 있는 정보 구축·유지 / 비즈니스 수행 계획·이해·최적화 |
| 로드맵 | 비즈니스 전략 우선순위에 따른 IT 프로젝트 우선순위 / 정보 활용 역량 파악 / 장기 정보 전략 유지 관리 프로세스·거버넌스 실행 |
**ILM (Information Lifecycle Management)**이란 폭발적으로 늘어나는 정보의 관리에 있어, 생성부터 폐기까지 비즈니스 관점에서의 정보의 가치 변화에 따라 가장 효율적이고 경제적인 방법으로 관리하기 위한 정책·절차·서비스·IT 솔루션의 메커니즘이다. (SNIA, Oct 2004)
정보의 가치는 시간에 따라 변한다.
→ 이 곡선에 맞춰 스토리지 계층과 접근 정책을 달리 적용해야 한다.
모든 데이터를 영원히 동일한 레벨로 관리하는 것은 매우 비효율적이다.
ILM은 DB 및 애플리케이션 시스템에서 생성된 수많은 정보를 관리하는 Best Practice이다.
IBM의 데이터 거버넌스 Framework 구조:
Outcomes
✔ Data Risk Management (ART)
✔ Value Creation (CLA)
Enablers
✔ Organizational Structures & Awareness (Models, GBS)
✔ Stewardship (IIS, MDM) | Policy (ReqPro, GBS)
Core Disciplines
✔ Data Quality Management (IIS, MDM, GNR&EAS)
✔ Information Life-Cycle Management (IIS, MDM, Optim) ← ILM의 자리
✔ Information Security and Privacy (TIM/TAM, IIS, MDM, EAS)
Supporting Disciplines
✔ Data Architecture (IIS, MDM, Models)
✔ Classification & Metadata (IIS, MDM, GBS)
✔ Audit, Logging & Reporting (BI, ISS, Consul)
Enablers → Core Disciplines → Supporting Disciplines 계층으로 구성되며, ILM은 Core Disciplines의 핵심 축이다.
IBM ILM은 고객 비즈니스의 특징·요구에 따라 다양한 접근이 가능한 5가지 유형의 Offering으로 구성.
| Offering | 내용 |
|---|---|
| Tiered Information Infrastructure | 비즈니스 가치에 따라 정보 분류·등급화, 등급에 따른 인프라 정책 수립 |
| Content and Data Management | 업무 수행 시 비정형 데이터의 접근성·활용성 높이기 위한 관리 정책 수립 |
| Archiving and Retention | 활성·비활성 데이터 구분, 적합한 데이터 보관 정책 수립 |
| Process Enhancement and Automation | 스토리지 운영·관리·컴플라이언스 대응 효율적 수행을 위한 자동화·프로세스 강화 전략 |
| Storage Optimization and Virtualization | 스토리지 낭비 요인 제거, 스토리지 통합 및 가상화·기술 적용으로 효율적 활용 |
IBM은 ILM 구현을 위해 IBM ILM Consulting & Architecture Method를 생성하였으며, 이 방법론으로부터 **SMCD-ILM (System Managed, Consulting & Design for ILM)**이라는 IBM 고유의 ILM 컨설팅 및 구축 방법론을 개발하여 활용한다.
| Phase | 내용 |
|---|---|
| Phase #1 — Data Collection | 데이터 수집 |
| Phase #2 — Analysis | 분석, Information Classification |
| Phase #3 — Methodology | 방법론 정의, Architecture Definition |
| Phase #4 — Solution Strategy | 솔루션 전략, Recommendations |
IBM 통합 ILM 구현은 SMCD-ILM 방법론 기반 5가지 태스크로 완성된다. 오퍼링별 특성에 따라 태스크가 취사선택되어 진행될 수 있다.
| Phase | 태스크 | 내용 |
|---|---|---|
| I. Consulting Phase | Ⅰ. 정보 현황분석 | IBM Tool·인터뷰로 정보 수집·분석 → ILM 정책 수립 기반 마련 |
| I. Consulting Phase | Ⅱ. ILM 정책 수립 | 데이터 분석 기반 정보군을 비즈니스 관점 중요도에 따라 분류, 우선순위·테이블별 수명주기 정책 수립 |
| II. Implementation Phase | Ⅲ. 계층별 인프라 구축 | 수립된 정책에 따라 가상화·아카이빙 스토리지 구성, 계층별 스토리지 구축, TCO 분석 |
| II. Implementation Phase | Ⅳ. ILM 솔루션 적용 | 불필요 데이터 삭제·이주, 수집 정책 따른 DB·E-mail 아카이빙, 솔루션으로 ILM 구축 완성 |
| III. Management System Develop | Ⅴ. ILMS 시스템 구축 | 수립 ILM 정책 지속 유지·모니터링·보완 가능하도록 전사적 ILM 관리 시스템 포털 구축 |
[ 테이블 특성 ] → [ 데이터 특성 ] → [ 아카이빙 방식 ]
6 Dimension 5 Group 3 Type
유형·의뢰성 Mission Critical Online Archiving
엠블라이언스·기관성/요건 Shared Nearline Archiving
활용도 Business Vital Offline Archiving
Just In Case
Deferable
분석 대상 테이블 선정 → 테이블별 특성 조사 → 데이터 그룹 분류 → 연관성 분석 → 아카이빙 대상 확정
DB 아카이빙은 기업이 보유한 정형 데이터에 대해, 해당 정보들의 수명주기(Lifecycle)에 따라 효과적인 보관 및 활용 정책을 수립·운영하는 것.
| 접근 유형 | 설명 | 적합 계층 |
|---|---|---|
| Frequent Access | 자주 접근 | Production DB (Current) |
| Sporadic Access | 산발적 접근 | On-Line Archive |
| Minimal Access | 최소 접근 | Near-Line Archive |
| Disposal | 폐기 | Off-Line Archive (WORM Storage: KD Tape, Optical, VCR) |
SGI Data ───▶ On-Line Archive (Oracle)
↓ 5-7 yr
Near-Line Archive (ATA Server - New DBMS Retention Platform)
↓
Off-Line Archive (RM Storage: KD Tape, Optical, WORM)
IBM의 데이터 아카이빙 Framework은 수명주기 정책과 이를 효과적으로 구현·운영하기 위한 체계·방안·ILM 관리 도구로 구성.
| 영역 | 효과 |
|---|---|
| 비용 절감 | 스토리지 비용 절감 / 60~90% 압축률 / 데이터베이스 독립성 |
| 성능 최적화 | 시스템/DB 성능 향상 / 소프트웨어 업그레이드·폐기 / 테스팅 생산성 향상 |
| 위험 요소 제거 | 데이터 개인정보 보호 / 데이터 보존 주기 보장 / 과거 데이터 조회 보장 |
[Production: Historical · Restored · Current]
◀── Selective Restore / Archive ──▶
[Archives]
├── Reference Data
├── Historical Data
└── Reporting Data
── Open Access to Application Data ──
Application ODBC / JDBC XML Report Writer
주요 특징
지원 환경
Production DB / Prod DB Cloning
▼
[Optim Extract]
▼
Extract Files
│
└── Load (Insert/Update/Compare)
├── Dev
├── QA
└── Test
장점
Test Smarter 가치 4축
(9.5 절 참조 — 기밀 정보를 가상화된 데이터로 대체, 다양한 Masking 알고리즘 제공)
많은 기업이 EDM(Enterprise Data Management) 전략의 일환으로 Optim과 같은 아카이빙 솔루션으로 레거시 데이터를 추출·보관·접근하도록 하여, 원래 애플리케이션·인프라는 폐기하고 과거 데이터 조회는 아카이브에서 제공하는 방식을 채택한다.
이 방식으로 얻어지는 효과:
[고객사ι]의 CSR-001 플랫폼 제안(2022.01)에서 제시된 데이터 관리 포털 중심의 서비스 구조는 다음과 같이 구성된다.
데이터 관리 포털에서 지원하는 주요 활동
플랫폼에 참여하는 주체들의 역할을 분리하여 권한과 책임을 부여.
| 참여자 | 주요 활동 |
|---|---|
| 데이터 관리자 | 표준·모델·구조·품질·흐름 관리, 가상 DB 설계 승인 |
| 데이터 엔지니어 | 수집·정제·변환 파이프라인 구축 및 운영 |
| 데이터 분석가 (전문) | R-Studio, Jupyter 기반 분석, ML 모델링 |
| Citizen Data Scientist | GUI Auto ML, 비전문가 분석환경 활용 |
| 보안 관리자 | 접근정책 설정, 비식별화 정책 관리 |
| 시스템 운영자 | 자원 모니터링, 컨테이너 운영 |
원천 DB → [수집] → Landing → [정제·변환] → Curated DW / DM
↓
Physical Data Lake (복제)
↓
Data Virtualization Layer (가상화)
↓
Logical Data Lake
↓
[데이터 포털 / 마켓 스토어] → 데이터셋 / 데이터 상품 API
↓
[분석 환경: 전문가 / Citizen DS] → [ML Workflow] → 모델 서비스
↓
서비스 모니터링 → 피드백
데이터 준비 → 전처리 → 모델 선택 → 학습 → 평가 → 튜닝 → 배포 → 모니터링
쿠버네티스는 컨테이너화된 애플리케이션의 자동 디플로이(Deploy), 스케일링(Scaling) 등을 제공하는 관리시스템으로, 오픈 소스 기반이다.
조직 내 데이터를 **상품(Dataset)**으로 관리하여 생산자와 소비자를 연결하는 포탈. 셀프서비스 데이터 활용 문화 정착.
데이터 등록 → 메타데이터 자동 수집 → 카탈로그 등록 → 검색·탐색
→ 상세 조회 → 신청 → 승인 → 제공 → 사용 이력 관리
DCAT (Data Catalog Vocabulary) V2.0는 W3C의 데이터셋 카탈로그 교환 표준으로, 다음 5개 핵심 클래스를 중심으로 구성된다.
| 클래스 | 역할 |
|---|---|
| dcat:Catalog | 데이터셋의 모음을 기술하는 메타데이터 |
| dcat:Dataset | 데이터의 개념적 단위 |
| dcat:Distribution | 데이터셋의 특정 표현(포맷·위치) |
| dcat:DataService | 데이터 접근을 위한 서비스 |
| dcat:CatalogRecord | 카탈로그 내 레코드 (메타 관리) |
[회사A]의 DATAWARE 제품군은 단일·통합 리포지토리 기반 메타정보 활용 및 확장이 용이한 데이터 거버넌스 솔루션이다.
| 제품 | 약어 | 역할 |
|---|---|---|
| DA# | Data Architecture | 데이터 모델링 툴 (물품식별번호 23286297) |
| META# | Metadata | 메타데이터 관리 시스템 |
| DQ# | Data Quality | 데이터 품질 관리 시스템 |
| AP# | Application Process | 애플리케이션 영향도 분석 |
| DF# | Data Flow | 데이터 흐름 관리 |
| SQL# | SQL Manager | SQL 표준 점검·관리 |
| ETT# | Extract·Transform·Translate | ETL 자동화 |
| DV# | Data Virtualization | 데이터 가상화 |
| Data Harvest | — | 데이터 수집 |
포지셔닝: 국산 모델링 S/W 시장 점유율 및 인지도 절대적 1위.
역할: 정보시스템의 가장 본질적인 데이터 구조를 체계화시키고 데이터 아키텍처의 전 과정을 설계·관리하는 데이터 아키텍처 모델링 및 관리 솔루션. 개괄 모델부터 개념·논리·물리 모델에 이르기까지 데이터 아키텍처 구축의 전 단계를 총괄적으로 지원.
주요 강점
DA# Workgroup Edition 계열
| 에디션 | 특성 |
|---|---|
| Workgroup Edition | 사용자 PC별 제품 인증 방식 |
| Workgroup-Floating Edition | 동시 접속 허용 방식 |
| Workgroup-DQ Edition | 국내·외 유일한 팀 모델링과 데이터 품질 진단 동시 지원. 공공데이터 품질관리 수준 평가 대응을 위한 간편 진단·산출물 생성 자동화 |
공통 Key Features
포지셔닝: 국내·외 유일한 단일·통합 리포지토리 기반.
역할: 데이터 표준 관리, 데이터 구조 관리, DBMS 정보 관리, 데이터 메타 영향 분석 등의 기능을 통해 데이터 구조의 전 단계를 일관성 있게 통제·관리하는 도구.
Key Features
역할: 기업 데이터 자산의 품질 수준 향상을 위한 체계적 측정·분석·관리. 프로파일링이나 업무 규칙 적용으로 오류데이터 추출, 원인 분석 및 개선 활동을 통한 지속적 품질 모니터링.
Key Features
포지셔닝: 최고의 분석 엔진 성능과 안정성, 메타정보 활용 및 확장 용이 — 관련 업계 1위.
역할: 시스템의 데이터베이스 카탈로그 정보와 다양한 언어의 애플리케이션 소스를 단일·통합 Repository에 자동 수집·파싱하여 이들 간의 정확한 구조 및 연관 정보를 제공. 소스 및 DB 변경에 따른 위험 예방, AS-IS 분석 비용 절감, 업무 효율성 향상 등 애플리케이션의 변경·품질 관리와 효율적 유지보수 체계를 지원.
Key Features
[HDFS (Parquet)] [HBase] [Kudu] ← 스토리지
↑ (MapReduce/Spark) ↑ (Impala)
└─────── Hadoop Ecosystem ───────┘
[Impala] — ANSI-92 SQL 엔진 (Kudu와 완벽 통합)
[Hive] — SQL on Hadoop
[Spark] — 분산 처리 프레임워크
[Flume / Kafka] — 수집
| 업무 | 적합 스토리지 |
|---|---|
| 정형 DW (10TB 이하) | MySQL/PostgreSQL |
| 대량 배치 분석 | HDFS + Parquet |
| 단건 실시간 조회 | HBase |
| 단건 + 대량 혼재 OLAP | Kudu |
| 시계열 (IoT, 로그) | Kudu (컬럼형) |
(Part 11 전체 참조. 3대 솔루션: Data Growth, Test Data Management, Data Privacy)
[회사G](GTOne)는 Reference Data Governance를 중심 주제로 하는 거버넌스 전문 솔루션 기업.
| 플랫폼 | 점유율 |
|---|---|
| CKAN | 41 % |
| Socrata | 8.9 % |
| DKAN | 2.7 % |
| Junar | 2 % |
| OpenDataSoft | 1.9 % |
| 기타 (자체 플랫폼, 웹사이트) | 43.6 % |
| 구분 | 소스 공개 | 특징 | 사용 |
|---|---|---|---|
| CKAN | 오픈소스 | 전세계 개발자들이 자발 지원 / 가장 활성화된 데이터 연계 플랫폼 / 콘텐츠 관리·시각화·API 추출 등 Drupal 등 타 오픈소스와 결합 | 영국·미국·캐나다 등 40개 이상 국가 |
| OGPL | 오픈소스 | 미국·인도 정부 공동 개발 / 공공기관 투명성 목적 | 인도 정부 부처 |
| Socrata | 상용 | 시각화·분석에서 오픈소스 대비 장점 | 미국 연방정부 및 10여개 주정부 |
| Junar | 상용 | 클라우드 기반 데이터 연계 플랫폼 서비스 | 세크라멘토·팔로알토 등 도시 중심 |
| 솔루션 | 제공 업체 | 주요 기능 |
|---|---|---|
| DATAWARE | [회사A] | 메타·DQ·영향도 분석 통합 패키지 |
| TeraONE | 데이터스트림즈 | 데이터 패브릭 기반 통합 데이터 관리 |
| MetaCatalog + DQMiner | [회사G] | 카탈로그·DQ 개별 제공 |
| 솔루션 | 제공 업체 | 주요 기능 |
|---|---|---|
| IDMC | Informatica | 클라우드 기반 통합 플랫폼 (카탈로그·품질·MDM) |
| Collibra Platform | Collibra | 데이터 거버넌스 전문 플랫폼 (Gartner 선두) |
| Atlan | Atlan | AI 기반 데이터 거버넌스 플랫폼 |
| 범주 | 오픈소스 | 용도 | 비용 |
|---|---|---|---|
| 데이터 접속 | CloudBeaver | 웹 기반 DB 도구 | 무료 |
| 분산 쿼리 | Trino | 여러 DB를 SQL 하나로 조회 | 무료 |
| 데이터 가상화 | Teiid | 이기종 DB 가상 통합 | 무료 |
| SQL 감사 | P6Spy | JDBC 프록시로 모든 SQL 기록 | 무료 |
| BI 시각화 | Apache Superset | 차트·대시보드 | 무료 |
| 데이터 카탈로그 | OpenMetadata | 카탈로그·리니지·품질 통합 | 무료 |
| 데이터 품질 | Great Expectations | 품질 자동 검증 | 무료 |
| 통합 인증 | Keycloak | SSO·OIDC·MFA | 무료 |
| 접근 정책 | OPA | Policy-as-Code | 무료 |
| 시크릿 관리 | HashiCorp Vault | 비밀번호·키 중앙 관리 | 무료 (Community) |
| 메트릭 | Prometheus | 시스템 지표 | 무료 |
| 로그 | Loki | 중앙 로그 | 무료 |
| 대시보드 | Grafana | 통합 관측성 | 무료 |
| 파이프라인 | Apache Airflow | 배치 오케스트레이션 | 무료 |
| 스트리밍 | Apache Kafka | 메시지 큐·이벤트 스트리밍 | 무료 |
| 검색 | Elasticsearch/OpenSearch | Full-text 검색 | 무료 |
| 영역 | 역할 | 구성 기술 |
|---|---|---|
| A. 데이터 프록시 서비스 | 자체 개발 제품화 목표 | CloudBeaver + Trino + Teiid + P6Spy |
| B. 데이터 포털 | 맞춤 개발 | React/Vue + Apache Superset 임베드 |
| C. 메타데이터/품질 | 솔루션 도입 | OpenMetadata + Great Expectations |
| D. 공통 기반 | 설계 + 구축 | Keycloak + OPA + Vault + Prometheus/Loki/Grafana |
| 솔루션 | 제공 업체 | 특성 |
|---|---|---|
| DBSAFER | 피앤피시큐어 | DB 접근 통제 |
| Petra | 신시웨이 | DB 접근 통제·감사 |
프로젝트 개요
추진 방안
비전
Data Biz. 전략
Data Profile
Data Biz. Platform
프로젝트 개요
조사 대상
5 Zone 플랫폼 구성
차별점
프로젝트 개요
주요 구성 아키텍처
적용 라이선스 (CSR-001 문서 기준)
DATAWARE-DV# (데이터 가상화)DATAWARE – Data Harvest (데이터 수집)현대카드·캐피탈·커머셜의 차세대 시스템 구축 사례 — 3개 금융사 통합 데이터 모델링 및 마이그레이션.
신용카드사의 데이터 거버넌스 체계 수립, CRM 통합.
| 산업/고객 | 주요 도전 | 플랫폼 구성 특성 |
|---|---|---|
| 통신 ([회사E] SKT) | 대용량 로그·통신 데이터 활용 | D-MAP 전략·Key·Profile 중심 |
| 유통·엔터테인먼트 ([고객사θ] CJ) | 계열사 데이터 통합·가명처리 | Physical+Logical Lake 이중 |
| 공공 인프라 ([고객사ι] K-Water) | 분석 환경 셀프서비스 | 개인화 분석·DCAT 마켓 포탈 |
| 금융 ([고객사α/δ] 카드사) | 규제 준수·MDM | Reference Data 중심 |
| 의료 (병원) | 임상 연구 데이터 비식별 | Data Free Zone 모델 |
| 주거·부동산 ([고객사η]) | 내외부 데이터 결합 | DSC 모델 |
데이터 사이언티스트의 역량 영역은 다음 세 가지 교집합으로 정의된다.
교집합으로부터:
| 역할 | 핵심 책임 | 주 사용 도구 | 요구 스킬 |
|---|---|---|---|
| 데이터 엔지니어 | 파이프라인 구축·운영 | Spark, Kafka, Airflow | 분산 처리, 스토리지 |
| 데이터 분석가 | 데이터 기반 의사결정 지원 | SQL, Excel, BI 툴 | SQL, 통계 기초, 시각화 |
| 데이터 사이언티스트 | 예측 모델·고급 분석 | Python, R, ML 라이브러리 | 통계, ML, 수학 |
| 데이터 아키텍트 | 전사 데이터 전략·구조 설계 | 모델링 툴, 거버넌스 | 전사 관점, 설계 경험 |
| MLOps 엔지니어 | ML 모델 배포·운영 | K8s, MLflow, CI/CD | DevOps + ML |
| 보안 관리자 | 접근 통제·개인정보 보호 | IAM, DLP | 보안 표준, 규제 |
| 국가 | 사회/공적 주택 비중 | 주요 운영 주체 | 특징 |
|---|---|---|---|
| 네덜란드 | ~30% | 주택조합 | 가장 높은 비중 |
| 오스트리아 (비엔나) | ~25% | 시 직영 + 조합 | 시 차원 대규모 운영 |
| 영국 | ~17% | 지방정부 + 조합 | Right to Buy로 감소 |
| 독일 | ~5% | 주·시 소유 | 임대료 규제 중심 |
| 한국 | ~8% | LH + SH + 지자체 | 지속 확대 중 |
| 용어 | 영문 · 약어 | 정의 |
|---|---|---|
| 데이터 아키텍처 | Data Architecture (DA) | 전사 데이터 구조·의미·관계를 정의한 체계 |
| 데이터 거버넌스 | Data Governance | 데이터 관리를 위한 조직·규칙·의사결정권·책임 체계 |
| 마스터 데이터 | Master Data | 전사적으로 공유·참조되는 핵심 데이터 |
| 레퍼런스 데이터 | Reference Data | 코드·도메인 등 참조용 데이터 |
| 메타데이터 | Metadata | 데이터에 관한 데이터 (기술·비즈니스) |
| 데이터 스튜어드 | Data Steward | 데이터 자산에 대한 실질적 관리자 |
| MDM | Master Data Management | 마스터 데이터 통합 관리 |
| DGI | Data Governance Institute | 거버넌스 프레임워크 제공 기관 |
| CTQ | Critical To Quality | 품질에 결정적인 항목 |
| DQI | Data Quality Index | 데이터 품질 지수 |
| BR | Business Rule | 비즈니스 규칙 |
| ETL | Extract-Transform-Load | 추출·변환·적재 |
| ELT | Extract-Load-Transform | 추출·적재·변환 |
| CDC | Change Data Capture | 변경 데이터 추적 |
| EAI | Enterprise Application Integration | 기업 애플리케이션 통합 |
| ESB | Enterprise Service Bus | 기업 서비스 버스 |
| HDFS | Hadoop Distributed File System | 하둡 분산 파일 시스템 |
| NoSQL | Not Only SQL | 비관계형 DB 총칭 |
| Kudu | Apache Kudu | 하둡용 컬럼형 OLAP DB |
| Impala | Apache Impala | 하둡용 SQL 엔진 |
| Trino | Trino | 분산 SQL 쿼리 엔진 |
| Teiid | Teiid | 오픈소스 데이터 가상화 엔진 |
| Lambda Architecture | λ Architecture | Speed + Batch 이중 아키텍처 |
| Kappa Architecture | κ Architecture | 스트림 일원화 아키텍처 |
| Data Lake | — | 원시 데이터 저장소 |
| Data Warehouse | DW | 정형화된 분석용 저장소 |
| Data Mart | DM | 부서·용도별 소형 DW |
| EDW | Enterprise Data Warehouse | 전사 데이터 웨어하우스 |
| BI | Business Intelligence | 비즈니스 인텔리전스 |
| OLAP | Online Analytical Processing | 온라인 분석 처리 |
| OLTP | Online Transaction Processing | 온라인 트랜잭션 처리 |
| ILM | Information Lifecycle Management | 정보수명주기관리 |
| WORM | Write Once Read Many | 1회 기록·다중 읽기 스토리지 |
| SMCD-ILM | System Managed, Consulting & Design for ILM | IBM ILM 방법론 |
| Data Stewardship | — | 데이터 관리자 체계 |
| DCAT | Data Catalog Vocabulary | W3C 데이터 카탈로그 표준 |
| LOD | Linked Open Data | 연결된 공개 데이터 |
| RDF | Resource Description Framework | 시맨틱 웹 메타데이터 |
| URI | Uniform Resource Identifier | 자원 식별자 |
| SLA | Service Level Agreement | 서비스 수준 계약 |
| SOX | Sarbanes-Oxley Act | 미국 회계 투명성 법 |
| HIPAA | Health Insurance Portability and Accountability Act | 미국 의료 프라이버시 법 |
| GLBA | Gramm-Leach-Bliley Act | 미국 금융 프라이버시 법 |
| GDPR | General Data Protection Regulation | EU 개인정보 보호 규정 |
| AML | Anti Money Laundering | 자금세탁 방지 |
| FDS | Fraud Detection System | 부정거래 탐지 시스템 |
| CRM | Customer Relationship Management | 고객관계관리 |
| ERP | Enterprise Resource Planning | 전사 자원 관리 |
| SCM | Supply Chain Management | 공급망 관리 |
| MES | Manufacturing Execution System | 제조실행시스템 |
| MDM (개인정보) | Mobile Device Management | 모바일 기기 관리 |
| ANN | Artificial Neural Network | 인공신경망 |
| MLP | Multi-Layer Perceptron | 다층 퍼셉트론 |
| CNN | Convolutional Neural Network | 합성곱 신경망 |
| RNN | Recurrent Neural Network | 순환 신경망 |
| SVM | Support Vector Machine | 서포트 벡터 머신 |
| PCA | Principal Component Analysis | 주성분 분석 |
| RBF | Radial Basis Function | 방사 기저 함수 (커널) |
| AutoML | Automated Machine Learning | 자동화된 머신러닝 |
| EDA | Exploratory Data Analysis | 탐색적 데이터 분석 |
| MAD | Mean Absolute Deviation | 평균 절대 편차 |
| MAPE | Mean Absolute Percent Error | 평균 절대 비율 오차 |
| MSE | Mean Squared Error | 평균 자승 오차 |
| TS | Tracking Signal | 추적지표 |
| KPI | Key Performance Indicator | 핵심 성과 지표 |
| SSO | Single Sign-On | 통합 인증 |
| OIDC | OpenID Connect | 인증 프로토콜 |
| SAML | Security Assertion Markup Language | 인증 교환 표준 |
| MFA | Multi-Factor Authentication | 다중 인증 |
| RBAC | Role-Based Access Control | 역할 기반 접근 제어 |
| ABAC | Attribute-Based Access Control | 속성 기반 접근 제어 |
| IAM | Identity and Access Management | 아이덴티티·접근 관리 |
| PII | Personally Identifiable Information | 개인식별정보 |
| PoLP | Principle of Least Privilege | 최소 권한 원칙 |
| OPA | Open Policy Agent | 오픈 정책 엔진 |
| PVC | Persistent Volume Claim | K8s 영속 볼륨 |
| HPA | Horizontal Pod Autoscaler | K8s 수평 확장 |
| K8s | Kubernetes | 쿠버네티스 |
| API | Application Programming Interface | 애플리케이션 프로그래밍 인터페이스 |
| REST | Representational State Transfer | REST API 아키텍처 스타일 |
| gRPC | gRPC Remote Procedure Call | 구글 발 RPC |
| CI/CD | Continuous Integration / Delivery | 지속 통합·배포 |
| RTE | Real-Time Enterprise | 실시간 기업 |
| IoT | Internet of Things | 사물인터넷 |
| BPM | Business Process Management | 비즈니스 프로세스 관리 |
| BAM | Business Activity Monitoring | 비즈니스 활동 모니터링 |
| CIM | Computer Integrated Manufacturing | 컴퓨터 통합 생산 |
| OIS | Office Information System | 사무정보시스템 |
| ITA/EA | IT Architecture / Enterprise Architecture | IT 아키텍처·전사 아키텍처 |
| PLM | Product Lifecycle Management | 제품수명주기관리 |
| KMS | Knowledge Management System | 지식관리시스템 |
| CDP | Customer Data Platform | 고객 데이터 플랫폼 |
| Data Free Zone | — | 비식별 데이터 활용 독립 공간 |
본 문서에서 적용한 가명화 기준표. 실제 매핑은 원본 자료 및 세션 메모리에 별도 관리.
| 가명 구분 | 범위 | 총 개수 |
|---|---|---|
| [발표자A]~[발표자AD] | 개인 발표자·저자 | 30개 |
| [회사A]~[회사H] | 기업 | 8개 |
| [기관X] | 공공 기관 | 1개 |
| [대학A]~[대학B] | 대학 | 2개 |
| [고객사α]~[고객사ι] | 프로젝트 고객사 | 9개 |
| $INTERNAL_IP | 내부 네트워크 IP | — |
| $EMAIL_SALES | 영업 이메일 | — |
PII 마스킹 처리 사례
계정명@[회사X] 형태 유지[발표자X] 치환$INTERNAL_IP 치환wiki.theknowledges.net/ko/knowledge/temporary/scm_gov
우선 읽기: Part 1 → 2 → 11 → 13 → 14 → 부록 A/B
심화: Part 9, 10, 12
우선 읽기: Part 3 → 4 → 12 → 13 → 부록 A
심화: Part 2, 9
우선 읽기: Part 5 → 6 → 7 → 8 → 15 → 부록 A
심화: Part 3 (원천 이해), 12 (AutoML)
우선 읽기: Part 5 → 6 → 8 → 12 → 15
심화: Part 7, 11, 부록 전체
우선 읽기: Part 9 → 11 → 1.6 → 13.7 → 부록 A/B
심화: Part 4 (마이그레이션 보안)
우선 읽기: Part 3 → 4 → 12 → 11 → 13
심화: Part 2, 14
우선 읽기: Part 10 → 14 → 13 → 15 → 16
심화: 전체 1회독
우선 읽기: Part 10 → 1 → 11 → 14 → 16
심화: Part 2, 13
| 표기 | 의미 |
|---|---|
[발표자X] |
비식별화된 개인 발표자·저자 |
[회사X] |
비식별화된 기업 |
[고객사X] |
비식별화된 프로젝트 고객사 |
[기관X] |
비식별화된 공공 기관 |
[대학X] |
비식별화된 대학 |
$INTERNAL_IP |
내부 네트워크 IP 마스킹 |
$EMAIL_SALES |
영업 이메일 마스킹 |
— 본 종합 문서 끝 —