Text mining
- Structured data (schema first)
- : db 에 저장되는 데이터.
형식이 있는 메시지
strict format 이 있다.
- Semi-structured data (schema later)
- : tagged text/ media
특정한 structure 가지고 있지만, 다 똑같지는 않다.
data value 가 섞여있을 수 있다. 타입 또한.
- Unstructured data (schema never)
Plain text
media
:이미지, 그래픽 등등..
대부분의 데이터는, unstructured 데이터이다.
Tidy text format
Tidy data 의 특정한 structure:
각각의 변수는 열
각각의 케이스는 행
이 정보를 테이블에.
Tokenization은, 텍스트를 token으로 나누는 것이다.
토큰은, text 의 meaningful unit이다.
Sentiment data
Bing : negative/ positive 로 나타난다.
Afinn: +,-로 감정을 나타낸다.
Nrc : 앞의 두개보다 비교적 더 많은 감정들을 나타낸다.
Tf-idf = TF*IDF
단어가 얼마나 빈번하게 나오는가?
Tf : 특정 단어가 어떤 문서에서 얼마나 자주 나오는가
: n(문서에 나온 특정 단어)/n( 문서에 나온 전체단어)
Idf : 이 단어가 얼마나 희소한가?
: ln(총 문서의 수/ 이 단어가 나온 문서)
TF-IDF는, TF*IDF 이다. 따라서, 희소한 단어가 거기에만 등장한다면, IDF 가 높아지고, 이문서에서 그 단어가 자주나온다면, tf 값이 높아진다.