Text mining

: tagged text/ media: 특정한 structure 가지고 있지만, 다 똑같지는 않다.; data value 가 섞여있을 수 있다. 타입 또한.

Plain text

media

:이미지, 그래픽 등등..

대부분의 데이터는, unstructured 데이터이다.

Tidy text format

Tidy data 의 특정한 structure:

각각의 변수는 열

각각의 케이스는 행

이 정보를 테이블에.

Tokenization은, 텍스트를 token으로 나누는 것이다.

토큰은, text 의 meaningful unit이다.

Sentiment data

Bing : negative/ positive 로 나타난다.

Afinn: +,-로 감정을 나타낸다.

Nrc : 앞의 두개보다 비교적 더 많은 감정들을 나타낸다.

Tf-idf = TF*IDF

단어가 얼마나 빈번하게 나오는가?

Tf : 특정 단어가 어떤 문서에서 얼마나 자주 나오는가

: n(문서에 나온 특정 단어)/n( 문서에 나온 전체단어)

Idf : 이 단어가 얼마나 희소한가?

: ln(총 문서의 수/ 이 단어가 나온 문서)

TF-IDF는, TF*IDF 이다. 따라서, 희소한 단어가 거기에만 등장한다면, IDF 가 높아지고, 이문서에서 그 단어가 자주나온다면, tf 값이 높아진다.