Text mining

  1. Structured data (schema first)
: db 에 저장되는 데이터.

형식이 있는 메시지

strict format 이 있다.

  1. Semi-structured data (schema later)
: tagged text/ media

특정한 structure 가지고 있지만, 다 똑같지는 않다.

data value 가 섞여있을 수 있다. 타입 또한.

  1. Unstructured data (schema never)

Plain text

media

:이미지, 그래픽 등등..

대부분의 데이터는, unstructured 데이터이다.

Tidy text format

Tidy data 의 특정한 structure:

각각의 변수는 열

각각의 케이스는 행

이 정보를 테이블에.

Tokenization은, 텍스트를 token으로 나누는 것이다.

토큰은, text 의 meaningful unit이다.

Sentiment data

Bing : negative/ positive 로 나타난다.

Afinn: +,-로 감정을 나타낸다.

Nrc : 앞의 두개보다 비교적 더 많은 감정들을 나타낸다.

Tf-idf = TF*IDF

단어가 얼마나 빈번하게 나오는가?

Tf : 특정 단어가 어떤 문서에서 얼마나 자주 나오는가

​ : n(문서에 나온 특정 단어)/n( 문서에 나온 전체단어)

Idf : 이 단어가 얼마나 희소한가?

​ : ln(총 문서의 수/ 이 단어가 나온 문서)

TF-IDF는, TF*IDF 이다. 따라서, 희소한 단어가 거기에만 등장한다면, IDF 가 높아지고, 이문서에서 그 단어가 자주나온다면, tf 값이 높아진다.


© 2018. All rights reserved.

Powered by Hydejack v8.5.2