Data Mining

토픽

키워드 특징 및 설명

Data Mining

프로세스 마이닝, Web Mining, 지지도/신뢰도/리프트, 방법, 기법, 오피니언 mining 등 상위 개념 이해

 

<기출문제>

No.

회차

교시

기출문제

1

관리-102

3

데이터 마이닝을 위한 신경망(Neural Network) 분석에 대하여 설명하시오.

2

관리-101

4

5. 데이터마이닝에서 프로토타입 기반의 군집기법인 k-means 알고리즘을 설명하시오.

3

관리-99

1

8. 데이터 마이닝(Data mining)의 기법 5가지에 대하여 설명하시오.

4

관리-98

1

12. 일반적인 데이터마이닝(Data Mining)의 수행단계를 설명하시오.

5

관리-96

1

11. 프로세스 마이닝(Process mining)에 대하여 설명하시오.

6

관리-96

4

3. 데이터 마이닝(Data mining)의 과정, 기법 및 활용사례에 대하여 설명하시오.

7

관리-96

1

10. 데이터 마이닝 기술에서 연관규칙을 찾아주는 Apriori 알고리즘을 예를 들어 설명하시오.

8

응용-92

1

1-13. 텍스트 마이닝(Text Mining)

9

응용-75

3

웹 마이닝(Web Mining)을 정의하고, 웹 구조 마이닝(Web Structure Mining),
웹 내용 마이닝(Web Content Mining), 웹 사용 마이닝(Web Usage Mining)의 세가지 분야에 대하여 설명하시오

10

관리-74

4

데이터마이닝의 정의를 기술하고 데이터 마이닝에 많이 사용되는 5가지 적용기법을 제시하고 원리와 특징

11

관리-72

2

데이터마이닝 기법중, 연관규칙(Association Rule) 기법은 어떤 사건이 일어나면 다른 사건이 일어나는 관련성을 의미한다. 연관 규칙은 트랜잭션들의 상황을 얼마만큼 잘 뒷받침 해주는가를 다음의 3가지 척도로 측정한다. 이들을 수식으로 설명하시오. (관심 있는 규칙 (x→y)에 대하여
1) 지지도(Support) (2) 신뢰도(Confidence)
3) 리프트(Lift)

 

 

Data Mining

 

  1. 효율적,과학적 의사결정을 위한 정보추출 및 분석기법, 데이터 마이닝의 개요
    1. 데이터 마이닝(Data Mining)의 정의
  • 대용량의 데이터에서 이들간의 상관관계, 패턴, 규칙 등을 탐색하고 모형화하여 의사결정에 사용할 수 있도록 목적을 가진 의미 있는 정보를 추출하고 가공하는 일련의 과정
  • 사용자가 비즈니스에 대한 새로운 통찰력을 얻을 수 있게 해주고 사업결과에 영향을 미칠 최적의 의사결정을 돕고 의미 있는 정보를 추출해 내는 일련의 작업

 

    1. 데이터 마이닝의 특징
      1. 정보의 Activity와 Rule을 추론하여 경영의 경쟁력 강화를 위하여 목표 예상을 가능하게 함.
      2. 지식집약적(Knowledge Intensive) : 응용분야 지식, DB/DW지식, 데이터마이닝 기법에 대한 지식

       

  1. 데이터 마이닝의 기능

기능

설명

분류

- 특정한 데이터의 항목이 분류 체계 중 어디에 속하는가를 결정

추정

- "예","아니오" 등 이산형 결과대신 연속적인 결과를 추정

예측

- 데이터를 통하여 만들어진 예측모형을 이용하여, 자료의 특정한 속성을 예측

유사집단화

- 어떤 것들이 함께 움직이는가를 결정짓는 작업

군집화

- 데이터의 여러 속성들을 비교하여 유사한 특성을 갖는 항목들을 함께 묶음

기술(Description)

- 공정이나 결과를 서술해야 할 때, 어디서부터 설명해야 할 지를 제시

  1. 데이터마이닝의 수행단계
    1. 데이터 마이닝의 구축절차

구분

내용

Data 선택

- 필요 Data의 위치, 형태, 완전성 등을 파악하여 확보/통합하는 과정

Data 정제

- 확보된 데이터의 완성도를 높이는 작업

Data 보완

- 데이터의 양과 깊이를 늘리는 작업

Data 변환

- 불필요한 레코드, 항목 삭제, 파생항목을 만들거나 항목의 값을 세분화 또는 그룹핑하는 작업

Data Mining

적용 및 평가

- 구축된 데이터에 대한 Data Mining 기술을 적용하여 도출된 결과를 해석

- 의미 있는 결과는 의사결정에 적용

 

 

    1. 데이터 마이닝의 수행단계 개념도

  1. 데이터 마이닝 상세 수행단계

수행단계

내용

Sampling/Selecting

-방대한 양의 데이터로부터 모집단의 유형과 닮은 작은 양의 데이터 추출

Data cleaning/Preprocessing

-데이터의 일관성을 위해 오류제거 작업을 통한 데이터 무결성 및 질 관리

Transformation

-이미 알고 있는 사실들을 확인하여 수치화 하는 작업을 시작으로 하여 보유하고 있는 수많은 변수들의 관계를 살펴보는 단계

Modeling

-이전 단계에서 선정된 주요한 변수를 사용하여 다양한 모형을 접합해 보는 단계

Reporting/Visualization

-사용자들에게 보기 편하고 이해하기 쉬운 형태로 제공

 

  1. 비즈니스 인텔리전스의 통찰력 확보를 위한 핵심, 데이터 마이닝의 기법
  1. 예측 기반의 데이터 마이닝 기법
  • 목적에 맞는 Sampling 방법 선정, 데이터 정제 과정에서 데이터의 의미 통일 필수

항 목

개념도

설 명

의사결정

트리

- 과거에 수집된 데이터들을 분석하여

이들 사이에 존재하는 패턴을 분류,

해당 분류의 값을 예측하는데 사용

- recursive partitioning 기법을 통해 구축

 

- 이해하기 쉽고 데이터 선정 용이

- 나이나 소득과 같이 연속형 데이터를

처리하는 능력이 신경망 모형 기법에

비해 떨어지며 예측력도 감소

신경망 분석

- 인간 두뇌의 신경 세포를 모방

- 과거에 수집된 데이터로부터 반복적인

학습과정을 거쳐 데이터에 내재되어

있는 패턴을 탐색

 

- 이산형, 연속형 변수에 모두 적용 가능

- 분류나 예측 결과만을 제공할 뿐,

결과에 대한 이유 설명이 곤란

가설 검정

- 모집단의 표본 집합을 대상으로 가설을

세운 뒤, 사실적 근거를 앞세워 가설의

논리적 결함을 증명, 통계적 가설의

옳고 그름을 판단하는 방법

 

- 표본에서 검정 가능한 계량적 수치화

- 독립변수와 종속변수 관계 명확화

 

- 귀무가설, 대립가설의 가설을 수립하고

유의 수준을 통해 기각/채택을 판단

 

  1. 탐색 기반의 데이터 마이닝 기법
  • 설명력, 효율성, 보편성을 고려하여 지속적인 피드백을 통한 적정 모델 선정 중요

항 목

개념도

설 명

연관성 탐사(Association)

 

 

 

- 상품 또는 서비스간의 연관성을 살펴 유용한 규칙을 찾아내고자 할 때.

[사례] 슈퍼마켓의 맥주와 아기 기저기가 함께 팔린다

연속성(Sequence)

 

 

 

- 동시에 구매될 가능성이 높은 상품군을 찾아내는 연관성 측정에 시간개념을 포함하여 순차적인 구매가능성 높은 상품을 찾아냄.

[사례] 컴퓨터를 산 사람은 다음달에 프린터를 산다.

군집화(Clustering)

- 상호간의 유사한 특성을 갖는 데이터들을 집단화 하는 과정.

- K-means 클러스터링 알고리즘을 통한 분석(seed point, centroid, 양자화, 클러스터링)

분류규칙

(Classification)

- 이미 알려진 특정 그룹의 특징을 부여하고 정의된 분류에 맞게 구분

[사례]

신용카드 신규 가입자를 낮음/중간/높음 신용 위험 집단으로 구분함

특성화

(Characterization)

데이터 집합의 일반적인 특성을 분석하는 것으로 데이터의 요약 과정을

통하여 특성 규칙을 발견하는 것

 

  1. 데이터 마이닝과 관련기술 OLAP과의 비교
  1. 데이터 마이닝과 OLAP의 개념도

 

  1. 데이터 마이닝과 OLAP의 비교

구분

Data Mining

OLAP

개념

-컴퓨터에 의해 가설을 세우고 검증하는 기법

-발견형(Discovery-Driven)기법

-분석과정에서 사용자들의 사전지식 검증

-검증형(Verification-Driven)기법

주체

컴퓨터

사용자

단점

분석기법 이해 필요

사용자가 모든 질문 생각

공통점

데이터 사이의 새로운 관계를 찾아내는 과정

데이터웨어 하우스(DW)의 활용을 높이는 방안

  1. 데이터 마이닝의 활용사례
  1. 데이터 마이닝의 활용사례

금융

- 신용 평가 (Credit Scoring)

▲ 특정인의 신용상태를 점수화

▲ 신용래 대출한도를 결정하는 것이 주요 목표

▲ 이를 통하여 불량채권과 대손을 추정하여 최소화

▲ 적용분야: 신용카드, 주택할부금융, 소비자 대출, 상업 대출

- 사기 탐지(Fraud Detection)

- 고객 분할

- 라이프사이클 예측 관리

유통 및 마케팅

- 데이터베이스 마케팅 (Database Marketing)

▲ 데이터를 분석하여 획득한 정보 이용, 마케팅 전략을 구축

- 목표 마케팅 (Target Marketing)

- 고객 세분화 (Segmentation)

- 고객성향변동 분석 (Churn Analysis)

- 교차 판매 (Cross Selling)

- 시장바구니 분석 (Market Basket Analysis)

통신

- 기존의 고객을 유지하고 새로운 고객을 획득

- 통화 상세내역 분석

- 고객 로열티 (loyalty) 분석

품질관리

- 불량품을 찾고 그 원인을 밝혀 궁극적으로 이를 예방

- 의료보험조합에서 불필요한 장기입원이나 보험료 과다청구를 탐지

- 제조업체에서 불량품 감소

생물 정보학

- 지놈(Genom) 프로젝트로부터 얻은 방대한 양의 유전자 정보로부터 가치 있는 정보의 추출(예: 간암을 유발하는 유전자의 발견)

- 신약 개발

- 조기 진단

- 유전자 치료

웹 마이닝

(Web Mining)

- 인터넷과 데이터 마이닝을 결부

- 데이터 마이닝을 웹 서버의 로그에 적용, 인터넷 상에서 사용자의 행동을 예측

- 사용자가 다음에 무엇을 하고 싶어하는지 미리 생각해 그 가능성이 가장 높은 링크를 제공

"끝"

 

Process Mining

 

  1. 프로세스 경영과 조직 성과 개선을 위한 프로세스 마이닝 개요
  2. 프로세스 마이닝(Process Mining)의 정의
  • 기업내 다양한 정보 시스템에 기록된 이벤트 로그를 분석하여 프로세스 모델을 자동으로 도출하고 이를 개선하여 비즈니스 프로세스와 조직 성과 관리 및 향상을 달성하는 일련의 과정
  • 업무 프로세스 수행을 지원 또는 수행결과를 기록하는 정보시스템 ERP, BPM, CRM, SCM등에 저장되어 있는 과거 업무 수행 기록(정보시스템 로그)를 분석하여 업무수행결과에 대한 여러가지 정보 및 지식을 추출해 내는 것을 목적으로 하는 활동 및 방법론

     

  1. 프로세스 마이닝의 특징
    1. 다양한 분석관점 제공 : 프로세스, 조직, 사용 케이스 및 시간 등
    2. BPM(Business Process Management) 라이프 사이클 대부분의 단계에서 활용 가능
    3. 결과 예측 정보 지원 : 현재 진행중인 케이스에 대한 결과 예측 정보 지원

       

  2. 프로세스 마이닝의 목표
  • 조직성과 개선을 위한 전략적 목표는 높은 수준의 비즈니스 프로세스를 통해서 달성
  • 프로세스를 분석하고 문서화함으로써 조직 전략과 개인 사이의 간격을 메워주고, 이러한 프로세스 개선과 관리를 통해 조직성과 달성.

 

  1. 프로세스 마이닝 구조도
  1. 프로세스 마이닝의 구조도 및 구성요소

구분

내용설명

구성도

- 비즈니스 프로세스 수행을 지원하는 정보시스템들이 남긴 이벤트 로그를 분석해서 비즈니스 프로세스 모델들의 자동화된 발견을 지원하는 프로세스 마이닝 기법 활용

- 프로세스 마이닝은 인터뷰 없이, 데이터로부터 현재 수행이 되고 있는 업무 수행 모델에 가장 가까운 모델을 도출할 수 있고, 업무 프로세스 개선을 정확하게 반영

구성요소

프로세스 모델링

- TQM, BPR,PI, SCM, CRM, BSC, BPM

- 조직 전략과 개인 (또는 정보시스템) 사이의 간격을 메워주는 비즈니스 프로세스의 문서화와 개선, 관리가 조직 성과 달성 기술

프로세스 분석기법

- 프로세스 성과 측정, 프로세스 모델 도출, 조직 모델 도출

프로세스 지원

- 정보시스템 로그, 조직 및 인력, 자동화도구

프로세스 모니터링

- 프로세스 향상을 위한 의사결정에 도움을 주기 위해서 활용

- 활동들과 사건들,상태들, 통제 흐름 논리들을 그래프로 표현

cf)

  • TQM(Total Quality Management) 총체적 품질 관리:  전사가 제품의 품질을 목표로 두고 움직이는 관리 시스템
  • BPR(Business Process Reengineering) 비즈니스 프로세스 재 공학:  프로세스를 합리적으로 재설계 및 정립 하는 방법
  • PI(PI: Process Innovation) 프로세스 혁신: 프로세스 혁신을 통해 한정된 기업자원 이용의 효율성을 극대화하여 기업의 가치를 향상시키기 위한 활동
  • SCM(Support Chain Management) 공급망 관리: 유통망 관리로 원가를 절감하려는 관리 방법
  • BSC(Balanced Score Card): 재무적 관점과, 비재무적 관점을 측정 가능한 핵심 성과 지표(KPI)로 전환하여 관리함으로써, 균형적인 경영 및 성과관리를 실행하도록 도와주는 성과관리기법
  • BPM(Business Process Management)비즈니스 프로세스 관리: 기업의 프로세스를 관리(프로세스의 정의, 실행, 모니터링, 분석등)하고 이를 지원하는 도구와 서비스의 집합체.

 

 

  1. 프로세스 마이닝 기법

 

  1. BPM/BPR 프로세스 개선 프로젝트 사례
  1. 기존 프로세스 개선 활동의 한계점
    1. 프로세스 개선을 위한 단계들 중에서 현(as-is) 프로세스를 문서화하고 분석하는 진단단계에서 시간관 자원으 소요가 가장 많음.
      1. 시간과 자원의 투입이 많은 진단단계에서 도출된 프로세스 모델이 현 상황을 정확히 반영하느냐에 대한 확신을 가질 수 없기 때문에 정확한 문제 진단을 통한 프로세스 개선 모델의 도출에 한계를 가짐.
      2. 평가단계에서 프로세스 성과 개선에 대한 정확한 평가가 어렵고, 개선(to-be)프로세스 모델에 따라서 업무를 진행하고 있는지 알 수가 없음.
    1. 프로세스 개선 활동을 지원하는 프로세스 마이닝 활용 방안
  • 선정된 핵심 프로세스들에 대해서 프로세스 마이닝을 통해서 자동화된 방식으로 프로세스 모델을 도출하면 아래와 같이 [진단]과 [평가] 단계 수행의 효율과 정확성을 극적으로 향상시킬 수 있습니다.

"끝"

 

Web Mining

 

  1. 웹 환경 기반의 데이터 마이닝, Web Mining의 개요
  2. 웹 마이닝(Web Mining)의 정의
  • Data Mining 기법을 활용하여, 웹 상의 문서들과 서비스들로부터 정보를 자동적으로 추출/발견하는 기법
  • 웹에서 발생하는 고객의 행위 분석과 특성 데이터를 추출/정제/로딩하여 의사결정에 활용하기 위한 Data Mining 기법
  1. 웹 마이닝의 특징
    1. 대량의 웹로그를 실시간으로 분석
      1. One-to-One : 웹상의 고객 행위 분석을 통해 개인화 지향
      2. 타겟 마케팅 지원 : 연관 규칙, 분류규칙 등을 적용해 특정 마케팅 서비스 가능

         

  2. 웹 마이닝의 유형과 구조
  1. 웹 마이닝의 유형

유형

설명

데이터 유형

사용기법

웹 구조

마이닝

(Web Structure Mining)

-웹 사이트의 구조적인 요약 정보, 관계를 찾기 위한 기법

-웹 사이트의 하이퍼링크를 통한 그래프의 구조적인 정보 이용

-Web Document

-Hyperlink

-Reputation-based filter

웹 내용

마이닝

(Web Content Mining)

-검색엔진과 유사하게 이용 가능한 정보를 찾아주는 기법

-웹 페이지의 내용 중에서 유용한 정보를 추출(Text, Image, Sound 등)

-때때로 Web Text Mining으로 불림

-HTML, Text, Audio, Image, Video

-Content-based filter

-Reputation-based filter

-NLP(Natural Language Processing)

-Search Engine

웹 사용

마이닝

(Web Usage Mining)

-웹 로그를 분석하여 사용자의 접속경향과 패턴을 이해하기 위한 로그분석 및 패턴분석

-User profiles

-Access Patter

-Collaborative filtering

-Event-based filter

  1. 웹 마이닝의 구조

구분

요소

내용

추출

Web log 분석

웹 서버의 로그를 기반으로 개인별 Site 방문기록 추적

HTML 분석

HTML 내의 컨텐츠 의미를 분석하여 구조화

HTML 구조분석

HTML 내의 하이퍼링크를 기반으로 그래픽적으로 구조화

저장

데이터웨어하우스

웹 로그 기반으로 추출한 정보를 DW에 저장하여 패턴 분석

데이터마트

추출한 정보 중 특정 패턴이나 특정 고객 분류 및 데이터 축적

기법

연관성 탐사

관련성이 강한 웹로그 정보를 조합을 통해 패턴을 발견

연속성 탐사

시간의 경과에 따라 웹로그 분석을 통해 패턴을 질의

분류탐사

이미 알려진 그룹의 특성을 부여

군집탐사

유사한 특성을 갖는 data의 그룹을 분류하여 패턴 분석

 

 

  1. 웹 마이닝 구축 단계

 

  1. 웹 마이닝 활용분야와 주의점
  1. 웹 마이닝 활용사례

분야

서비스

내용

금융

은행상품

주식매매

-예금 상품안내 및 개인화된 상품발굴

-주식 매매 패턴 분석 후 상품제안

전자상거래

홈쇼핑

B2B

-구매패턴, 구매품 분석으로 상품 제안

-거래 기업의 구매 행태 분석

e-learning

LMS 정책수립

-학습자에 대한 개인화 교육 패턴 분석/학습 제안

여행사

개인화 여행 제안

-여행 관심도나 여행 패턴 분석을 통해 여행 상품 제안

 

  1. 웹 마이닝 활용시 주의점
    1. 고객 데이터 수집에 따른 개인정보, 사생활 침해에 대한 대책 필요
      1. 쓸모없는 Garbage 정보 분류 방안에 대한 고민 필요
      2. 새로운 행동 패턴 분석을 위한 추가 기초 자료 마련 방안 필요

        "끝"

 

Opinion Mining

 

  1. 사용자의 의견 분석, 오피니언 마이닝(Opinion Mining)의 개요
  2. 오피니언 마이닝의 정의
  • SNS의 대량의 리뷰로부터 사용자가 원하는 정보를 빠르게 분석해 주고, 의미있는 정보를 지능적으로 유추해내는 마이닝 기술

     

  1. Opinion Mining의 등장 배경
    1. SNS를 비롯한 소셜 미디어가 미치는 영향력이 사회 전반으로 확대
      1. 제품이나 서비스 구매후기 분석을 통해 소비자들의 평가, 불만, 니즈 등 의견을 파악하고 기업 및 브랜드의 잠재위기를 조기에 감지 가능

         

  2. 기존 검색 기술과의 차이점
    1. 기존 검색은 '팩트'를 찾아내는 데 집중, Opinion Mining은 '팩트'에서 '의견'을 뽑아낸 뒤 이를 평가, 분석
      1. '질문해서 받아내는' 의견이 아니라 '스스로 말하는' 의견을 수집하기 때문에 정보의 순도가 높음

 

  1. 오피니언 마이닝의 개념도 및 주요 절차
  1. 오피니언 마이닝의 개념도

  1. 오피니언 마이닝의 주요절차 및 요소 기술

유형

주요 내용

요소기술

1단계

- 문장을 '팩트'에 근거한 문장과 글쓴이의 '의견'이 들어간 문장으로 구분

- 긍정 및 부정을 표현하는 단어 정보를 추출

- 텍스트 마이닝

- 자연어 처리 (NLP)

- 비정형 분석

- 형태소 분석

2단계

- 세부 평가요소와 그것이 가리키는 오피니언 연결관계를 포함한 문장 인식

- 글쓴이의 '의견'이 들어간 문장을 Positive와 Negative 문장으로 구분

- 형용사, 동사, 부사에 초점

예) 배송은 / 느리지만, / 제품은 / 이쁘고 / 좋네요.

(명사 / 형용사 / 명사 / 형용사 / 형용사)

( -1 +1 +1 )

3단계

긍정/부정 표현의 수 및 유용한 문장 추출하여 리뷰 요약 생성

 

 

  1.     SNS에서의 오피니언마이닝 시스템
  1. SNS에서의 오피니언 마이닝 시스템 구성도

 

  • 도메인 지식 추출과 오피니언 추출 단계로 구분하여 시스템을 구분
  • 도메인 지식 추출 모듈에서는 전처리, 도메인 의존적 단어 추출, 연어정보, 공기정보, 단서 단어 추출 기능을 수행함
  • 오피니언 추출 모듈에서는 개체명인식, 관계추출 기능을 담당함

 

유형

구분

주요 내용

도메인

지식 추출

전처리

- 객관적인 문장인지 주관적인 문장 인지 분리

- 사실을 기술한 객관적 문장은 분석대상에서 제외

- 문장분리 및 형태소 분석

도메인 의존적 단어

특정단어가 주어진 도메인에서 발생한 빈도와 일반 도메인의 신문기사에서 발생한 빈도 비교

연어정보

likelihood ratio를 평가 척도로 활용

공기정보

의미가 가까운 단어-문서, 단어-단어, 문서-문서를 찾는데 활용

단서단어

개체명 인식에서 단서 단어를 찾는데 활용

오피니언 추출

개체명인식

평가요소 또는 오피니언에 해당하는 단어 열을 인식

관계추출

평가요소-오피니언 관계 중 관련성이 존재하는

연결관계만을 인식

 

  1. SNS에서 오피니언마이닝 활용 방법

유형

주요 내용

트위터를 통한 오피니언 발견 절차

- 트위터를 통한 오피니언 발견 절차 :

학습데이터 수집 à 자연어 분석 à 오피니언 발견

- 학습 데이터로 트위터를 사용하는 이유

1) 여러 가지 다른 주제에 대한 자신의 의견을 표현하는 다양한 사람들이 존재

2) 엄청난 수의 텍스트 게시물을 포함

3) 트위터 이용자는 매우 다양하여 서로 다른 사회적 관심

그룹에서 텍스트 게시물을 수집하는 것이 가능

4) 트위터 이용자는 다양한 나라의 사용자들이기 때문에 여러 언어의 데이터를 수집하는 것도 가능

SNS 기반 핫토픽 추출

- 실시간 트위터 상에 이슈 추출

- 트위터 키워드 그래프를 통해 추출(기하급수적으로 증가(피크시작)시 핫토픽 시작)

- 실시간 이벤트 하이라이트 발췌. 다양한 스토리를 공유하고 간접적으로 경험

- SNS 상에서 오피니언 흐름의 변화 제시

 

 

  1. 오피니언 마이닝의 활용방안

구분

활용

상세 설명

Consumer Research

Early Market Reaction Analysis

신상품에 대한 소비자의 반응을 분석하여 시장 진입의 성공여부 확인

New Product Plan

기존 상품의 만족도, 타겟 시장의 특성 및 트렌드, 소비자 라이프 스타일 등 소비자 성향 분석을 통한 개발에 대한 아이디어 획득

Digital PR Communication

Measuring PR Activities

온라인 미디어에서의 PR 영향력 측정

Crisis Management

부정적인 소비자의 반응을 중점적으로 분석하여 기업 위기를 사전에 감지하고 해결방안을 모색

Marketing Evaluation

Campaign Effectiveness

기업의 메시지가 시장에서 어떻게 이해되고 있는지를 확인하고 이를 마케팅 전략에 활용

Brand Monitoring

Brand Reception

소비자 인사이트 기반의 브랜드 가치 측정을 통한 잠재적인 가치 및 경쟁사와의 차별성 분석

 

"끝"

 

 

 

Text Mining

 

  1. 대량의 텍스트데이터에서 의미 있는 정보를 찾아내는 기술, Text Mining 의 개요
  2. 텍스트 마이닝(Text Mining)의 정의
  • 대용량의 데이터에서 사용자가 관심을 가지는 정보를 찾아 내는 프로세스
  • 비/반정형 데이터에 대하여 자연어 처리(Natural Language Processing) 기술과 문서처리 기술을 적용하여 유용한 정보를 추출하는 기술
  1. 텍스트 마이닝의 등장 배경
  • 기업, 학교, 연구소등에서 생성, 저장, 재사용되는 데이터들은 2:8의 비율로 정형화된 데이터와 비정형화된 데이터로 구분되며 80%에 이르는 비정형화된 데이터로부터 유용한 정보를 추출하고 가공하는 기술이 필요하게 됨에 따라 등장
  • SNS 메시지, e-Mail, 블로그, 개인 홈페이지 등 비정형화된 대량의 텍스트 데이터를 분석하여 패턴화하는 과정을 통해 비즈니스에 유용한 정보를 추출하여 기업의 마케팅에 활용하고자 하는 시도와 비즈니스적 요구가 대두됨.

 

  1. 텍스트 마이닝 프로세스 및 적용 기술
  1. 텍스트 마이닝 프로세스

  • SNS 메시지, e-Mail, 웹페이지 문서 등으로부터 유의미한 정보 및 고객의 이용패턴을 추출하는 텍스트 마이닝의 기본 프로세스
  1. 텍스트 전처리 작업(Text Processing)
  • 일반적인 텍스트 데이터들을 컴퓨터가 처리하기 쉽도록 변환하는 작업
  • DB에 저장된 잘 구조화된 데이터를 대상으로 하는 데이터 마이닝과는 다르게 컴퓨터에 저장된 문서, 이메일, 웹페이지 같은 다양한 종류의 문서를 텍스트 마이닝이 분석 가능하도록 해주는 처리 단계
  • 텍스트 마이닝 알고리즘의 성능을 결징짓는 핵심적인 요소
  1. 텍스트 마이닝 적용 기술

기법

내용

정보추출

(Information Extraction)

-일반적인 텍스트 문서로부터 사용자가 원하는 정보를 추출하는 작업

-원하는 정보를 문장의 형식이나 사용자가 이전에 미리 정의한 질의 포맷에 맞추어서 추출

문서분류

/문서 클러스터링

- 문서들을 문서의 내용에 따라 자동으로 구조화

- 문서분류: 주워진 키워드에 따라 문서를 분류하는 기법, 해당 카테고리로 분류할지 안 할지를 결정

- 문서클러스터링: 문서들을 분석하여 동일한 내용의 문서들을 묶는 기법

예) 구글의 뉴스 서비스

Topic Tracking

-사용자 프로필을 기반으로 사용자가 관심 있어 하는 문서가 어떤 문서일지를 예측하는 시스템

-시스템은 사용자의 프로필에 따라 사용자가 관심 가질 것으로 예상되는 문서들만을 추출하여 사용자에게 제공

Web Mining

- 텍스트 마이닝 기법을 웹사이트에 적용

- 연구 분야 3가지(사용, 구조, 내용)

1) web usage mining: 웹 서버의 로그를 분석, 웹 페이지 설계 등의 최적화에 활용

2) web structure mining: 하이퍼링크로 연결된 웹 페이지들간의 관계를 분석

3) web content mining: 웹 페이지의 문서 데이터에 다양한 텍스트 마이닝 알고리즘을 적용하여 가치 있는 정보 추출

Question Answering

-질의응답시스템은 사용자가 자연 언어로 질문을 던지면 시스템이 질문에 대한 대답을 제공해 주는 시스템

Concept linkage

- 각각의 문서들에서 공유되고 있는 의미를 발견하여 사용자에게 제공(단순히 공통된 키워드 기반의 문서 제공보다 더 진보된 시스템 구축의 시도)

- 생명 의학 연구 분야 적용 가능

Ex) 여행정보제공문서 또는 사이트의 전반내용을 분석하여 공통의미를 발견 후 제공

문서요약

- 문서에서 다룬 중요 내용을 글로 요약하려는 시도

- 아직 인간수준의 문서요약에 미치지 못함

- 원하는 정보가 있는 긴 글에 대해 읽을 가치를 있는지 판단할 목적으로 요약이 필요

- 현재 사용되는 주된 기법은 글의 중요 문장으로 예상되는 문장들을 추출하여 구성하는 방식

- 휴리스틱(heuristic) 방법도 적용

(ex)"결론은" 단어 포함 문장을 주제문장으로 예상)

Duo-mining

- 데이터 마이닝과 텍스트 마이닝을 함께 적용하려는 시도

- 데이터 마이닝으로 얻을 수 있는 정보에 한계가 있는데 텍스트 마이닝 기법을 사용하여 좀 더 다양하게 얻은 정보로 기업의 의사결정을 도움

예) 고객의 통화량(고객군 추출) + 서비스요청내역(불만 유형 추출)

 

  1. 텍스트 마이닝과 데이터 마이닝 비교
  1. Mining 과 Text Mining 비교

구분

텍스트 마이닝

데이터 마이닝

대상

컴퓨터에 저장되어 있는 문서, 이메일, 웹 페이지를 대상으로 마이닝을 수행

데이터베이스에 저장되어 있는 잘 구조화된 데이터를 대상으로 마이닝을 수행

분류작업

특성추출에 의한 특성벡터

다양한 알고리즘(결정트리, 신경망, 연관규칙 등)

도구

IBM사의 Intelligent Miner for Text

SPSS에서 개발한 Clementine "끝"

 

사용 알고리즘

## 알고리즘은 잘 이해가 가지 않음,

 

  1. Data Mining의 연관 규칙을 찾아주는 Apriori 알고리즘
  2. 연관 규칙(Association Rule)의 개념
  • 여러 개의 트랜잭션 중에서 동시에 발생하는 트랜잭션 사이의 연관 관계를 발견하는 규칙.
  • 지지도(support), 신뢰도(confident), 향상도(lift)로 수치화 하여 연관 관계를 분석.

     

  1. 연관규칙의 3가지 척도 (X -> Y)

구분

설명

수식

지지도

(S : support)

X, Y를 동시에 2개 구매하는 비율

(X, Y 동시 거래건수) / 전체 거래건수

신뢰도

(C : Confidence)

X를 사고, Y를 사는 구매

(X, Y 동시 거래건수) / X를 포함된 거래건수

향상도

(L : Lift)

긍정관계(향상도 < 1)

부정관계(향상도 > 1)

독립관계(향상도 = 0)

{ (X, Y 동시 거래건수) /

(X 구매건수 * Y구매건수) } *

전체 거래건수

 

  1. 연관규칙사례 (모니터 -> 키보드)

거래내역

구매물품

1

모니터, 키보드

2

키보드, 마우스

3

모니터, 키보드, 마우스

4

모니터, 보안경

  1. 지지도 : 2/4 = 0.5 * 100% = 50%
    1. 신뢰도 : 2/3 = 0.667 * 100% = 66.7%
    2. 향상도 : { 2 / (3 * 3) } * 4 = 0.889 < 1 : 음의 연관관계

       

  1. Apriori 알고리즘 탐색과정
    1. 1단계 : 최소 지지도 설정 값에 따라 빈도수 높은 항목의 집합 추출
      1. 2단계 : 이들 집합으로부터 신뢰도 설정 값을 모두 계산
      2. 3단계 : Apriori 알고리즘 적용

         

  2. K-means 알고리즘
  1. 군집분석(Cluster Analysis)
  • 대상들을 분류하기 위한 명확한 기준이 존재하지 않거나 기준이 밝혀지지 않은 상태에서 다양한 특성을 지는 대상자들을 집단으로 분류하는데 사용하는 기법
  • 개별 데이터들간의 유사성을 측정하여 유사한 자료를 같은 그룹으로 모으는 기법
  • 대상을 군집(Cluster)이라 불리는 상대적으로 동질적인 집단으로 분류하는데 이용되는 기법

 

  1. 군집분석 알고리즘의 분류

분류

알고리즘

사례

Partitioning methods

- 사전에 결정된 군집들의 수를 사용하는 것

- 이 방법은 레코드들을 각각의 군집에 할당하는 방법

- 일반적으로 계산량이 많지 않기 때문에 대량의 데이터 베이스에서 유용

K-Means, K-medoids, PAM, CRARA, CRARANS

계층적 방법

(Hierarchical methods)

- 이 방법은 병합 또는 분할 방법을 사용한다. 병합방법은 n개의 군집들을 가지고 시작해서 최종적으로 하나의 군집이 남을 때까지 순차적으로 유사한 군집들을 병합함

- 분할방법은 이와 반대 방향으로 작용하는데, 모든 레코드들을 포함하고 있는 하나의 군집에서 출발함

- 이러한 계층적 방법은 목적이 군집들을 자연적인 계층으로 정리하고자 할 때 특히 유용함

CURE, CHAMELON, BIRCH

Model-based methods

- 어떤 정보가 hidden 되어 있는 경우 가장 그럴듯한 모델을 추정 할 때 사용하는 효과적인 반복 알고리즘

- 보통 Maximum Likelihood estimate 방법을 사용해서 관측된 데이터에 알맞은 모델의 변수(parameter)를 추정

EM(Expectation Maximization)

  • 군집기법을 프로토타입 기반 군집기법, 계층적 기법, 밀도기반 군집기법, 그리드 기반 기법으로 구분하기도 함. 프로토타입이라 함은 클러스터의 특징(중심점)을 의미

 

  1. K-means 알고리즘의 정의
  • 주어진 데이터를 사전 정의된k개의 클러스터로 묶는 알고리즘, 각 클러스터와 거리차이의 분산을 최소화하는 방식으로 동작.
  • 군집(Cluster)별 중심 값에서 중심과의 거리를 기반으로 데이터를 분류하는 군집 기법의 종류
  • 입력 값으로 K를 취하고 군집 내 유사성은 높게, 군집간 유사성은 낮게 되도록 N개의 객체집합을 K개의 군집으로 군집하는 기법

 

  1. K-means 알고리즘의 특징

특징

설명

Data중심점(Centeroid)

군집화된 데이터는 중복되지 않으며 상호배타적 포함

거리 기반의 분류기법

각 군집의 중심점과의 유클리디안 거리 최소화

데이터군 양자화

데이터군을 양자화하여 분할 시 발생하는 오류 최소화

속도 및 구현

거리기반의 군집기법으로 빠른 결과 산출, 구현 용이성

  • 군집 갯수가 사전에 정의되고, 거리계산이 가능한 Data만 적용
  • 간단한 구조, 많은 환경에서 빠르게 수렴(처음 주어진 데이터 개수보다 적은 반복 필요)
  • 전역 최적값을 보장하지 않음(맨 처음 K값에 따라서 실제 최적값보다 나쁜 값이 나올 수 있음)

 

  1. K-means 알고리즘의 원리

 

단계

절차

1

군집의 수 K를 정의

2

초기 K개 군집의 중심(Centroids) 선택

3

각 관측 값들을 가장 가까운 중심의 군집에 할당

4

새로운 군집의 중심 계산

5

재정의 된 중심값 기준으로 다시 거리기반의 군집 재분류

6

군집 경계가 변경되지 않을 때까지 반복

 

  1. 군집분석을 위한 유사성의 측정(Similarity)
  • 군집으로 분류될 대상들 사이의 일치성 또는 비슷함의 척도
  • 주로 유클리디안 거리를 주로 사용

유사성 측정 척도

설명

유클리디안거리

(=유클리드 거리)

임의의 두 지점간의 최단거리, 양 지점간의 직선거리

각 변수 값에서의 차이를 제곱한 것을 합하고 이를 제곱근

 

 

  1. 군집분석의 장점과 단점

장점

단점

탐색적인 기법

다양한 형태의 데이터에 적용가능

분석방법의 적용 용이성

가중치와 거리 정의

초기 군집수의 결정에 민감

결과 해석의 어려움

  • 구하려는 클러스터의 개수가 미리 정의 필요, 너무 많은 클러스터 개수 설정은 큰 클러스터가 여러 개로 나뉘는 결과 발생 가능
  • K-means 군집기법을 사용하기 위해서는 초기에 군집의 수를 미리 제공해야 하는데 군집분석은 데이터를 분석하면서 결정하는 경험적 분석방법이므로 적절한 군집의 수를 안다는 것은 어려운 일.
  • 따라서 군집의 수를 변화시켜 가면서 수행된 결과들을 비교해가는 분석방법이 요구(F-검정법등)

 

  1. 군집분석(K-means)의 활용사례
  • Data Mining에서 데이터 분류 및 군집 알고리즘으로 활용
  • 시장과 고객 분석, 패턴인식, 공간데이터 분석, Text Mining 등
  • 최근에는 패턴인식, 음성인식의 기본 알고리즘으로 활용
  • 데이터가 불규칙하고 내부 특징이 알려지지 않은 분류 초기 단계에 적합.

"끝"

 

Neural Network

 

  1. 신경망 분석의 개요
  2. 신경망 분석의 정의
  • 인간두뇌 세포를 모방한 개념으로 뉴런들의 상호작용하고 경험을 통해 배우는 생물학적 활동을 반복적인 학습과정으로 모형화하는 분석 기법

     

  1. 신경망 분석의 특징

주요 특징

세부내용

예를 통한 학습

예를 계속 제시하여 원하는 형태의 사상 학습

일반화

학습이 완료된 신경회로망은 학습되지 않은 입력에 대해서도 올바른 결과 출력 가능

연상기억

새로운 입력, 일부 유실된 정보를 유사한 출력 가능

결함 허용성

일부 뉴런 고장, 단절에도 남아 있는 뉴런들에 의해 작동 보장

 

  1. 신경망 분석 방법
  1. 신경망 분석 구성도

 

 

  1. 신경망 분석 구성요소

구분

주요내용

입력층

- 학습을 위한 기초데이터 입력계층(Input Layer)

출력층

- 학습을 통해 도출된 결과값을 출력하는 계층(Output Layer)

은닉층

- 다중신경회로망에서 입력층과 출력층 사이에 존재

- 정보를 전파, 학습, 활성화(Hidden Layer)

전달(활성화)함수

- 임계값을 이용 뉴런의 활성화 여부를 결정하기 위해 사용되는 함수

가중치(연결강도)

- 활성화 함수의 입력값으로 사용되는 뉴런간의 연결계수

 

 

  1. 신경망 분석 학습유형

입력형태

학습방법

신경망 모델

디지털 입력

지도학습

Hopfield network

자율학습

Art model

지도/자율학습 결합

Carpenter network

아날로그

입력

지도학습

Perceptron, multilayer perceptron

자율학습

Competitive learning, self-organization map(SOM)

  1. 지도학습 절차 (유형: Hopfield network, 다층 퍼셉트론)

  1. 응용 목적에 적절한 신경망 구조를 설계한다.
    1. 연결 강도를 초기화 한다.
    2. 학습 패턴쌍 (x, d)를 입력하여 신경망의 출력 y를 구한다.
    3. 출력 y랑 목표치 d를 비교해서 오차를 산출한다.
    4. 오차를 학습 신호 발생기에 입력해서 연결강도 변화랑 Δw를 구한다.
    5. 연결강도를 Δw만큼 변경한다.
    6. 변경된 연결 강도에 대해서 3 ~ 6 단계를 반복한다.
    7. 더 이상 연결 강도가 변하지 않으면 학습을 종료한다.
  1. 자율학습 (Unsupervised Learning) 절차(ART 모델, SOM)

 

 

  1. 신경망 분석 사용 분야

"끝"

더보기

댓글,

착한사기꾼