본문 바로가기
Useful IT

텍스트 마이닝, 빅데이터 분석

by Berasix 2023. 7. 30.
반응형

1. 텍스트 마이닝

 

정형화되어 있지 않은 텍스트(비정형 텍스트)를 정형화하여

의미있는 패턴과 새로운 정보를 찾아내는 것을 말한다.

딥러닝 알고리즘을 적용해 발견할 수 있다.

 

- 비정형 텍스트가 뭔데?

  SNS 제품 리뷰 같은 텍스트, 비디오나 오디오 같은 미디어 형식

 

- 그래서 텍스트 마이닝을 어떻게 하는데?

  텍스트 마이닝 툴과 자연어 처리(NLP) 기술, 정보 추출을 활용해 비정형 텍스트를 정형 텍스트로 

  변환하여 분석하여 고수준의 정보를 획득하라고.

 

- 그러면 텍스트 마이닝 해서 어디에 쓰는데?

 1) 사이트 내 리뷰나 SNS 리뷰 등을 텍스트 마이닝을 통해 데이터를 얻어 해당 고객에게

    갖가지 방법? 혹은 마케팅으로 좋은 피드백을 준다면 고객 관리에 좋을 것이다.

 2) 업계 동향이나 금융 흐름을 미리 분석 모니터링하여 사업이든 주식이든 내가 관심 있는

    분야에 대한 판단에 도움을 받을 수 있을 것이다.

 3) 내가 당면해 있는 과제나 실패의 원인을 더 빨리 찾아낼 수 있을 것이다. 

 4) 의학적인 연구에서 크게 도움이 되고 있다고 한다. 의학 연구 자료를 분석하는데 도움이 되는듯?

    이는 다른 분야에서도 역시 마찬가지일 것이다.

 5) 이메일 필터링을 하는데도 사용될 수 있다고 한다.

 

- 그래서 이제 어떻게 텍스트 마이닝을 해볼 수 있는데?

 1) 빅카인즈 : 언론사들의 뉴스 DB 기반으로 검색, 분석 서비스를 해준다.

   - 빅카인즈 홈페이지

   https://www.bigkinds.or.kr/

 

빅카인즈(BIG KINDS)

뉴스빅데이터 분석시스템, 뉴스 속 키워드 관계망, 주요 이슈, 정보원, 이슈 트렌드 분석 정보 제공

www.bigkinds.or.kr

   - 빅카인즈 사용법

   https://www.youtube.com/playlist?list=PLFGwKtGWrxwc5jFLwpdOz9up4p9QQ96YQ 

 

빅카인즈

 

www.youtube.com

 

 2) 텍스톰 : 텍스트마이닝 기술을 이용한 빅데이터 분석 웹솔루션

   - 텍스톰을 활용해 작성된 논문도 엄청 많다.

   - 근데 가입하려면 신분증이나 명함등 파일을 내야한다. 트라이얼을 해보려고 해도 그런듯하다.

     이용권은 '용량' 이고 1MB당 4천원이라고 한다. 

   - 이런게 있다고 해서 이 포스팅을 한건데 비싼거라 절망했다. 돈이 없다면 역시 공부를 해야한다.

   https://textom.co.kr/home/main/main.php

 

텍스톰(TEXTOM)

웹 기반의 빅데이터 분석 솔루션! WEB, SNS, 보유데이터 분석이 가능합니다.

textom.co.kr

  - 텍스톰 사용법

https://textom.co.kr/home/sub/manual_collecting.php?pnm=3 

 

텍스톰(TEXTOM)

웹 기반의 빅데이터 분석 솔루션! WEB, SNS, 보유데이터 분석이 가능합니다.

textom.co.kr

 3) 무료는 없는거니?

  - 공부를 좀 많이 해야할 것이다.

  - 오픈소스로는 HADOOP, STORM, R, 파이썬 등이 있다!

728x90

댓글