Text Mining using Deep Learning

02 Feb 2016

목차

Text mining

NLP, Text Mining 에서 사용되는 Deep Learning 및 Topic modelling 관련 기술들을 정리해 봤습니다. 개인적으로 정리 진행중인 문서라 미흡하니 틀린 부분 혹은 추가할 항목 피드백 주시면 감사하겠습니다.

Word2Vec

  • 같은 맥락을 진니 단어끼리 가까운 의미를 지니고 있다는 전제에서 출발
  • 한 단어에 대해 주변에 출현하는 다른 단어들을 관련 단어로서 인공 신경망에 학습
  • 학습을 반복하는 과정에서 연관된 단어는 점차 가까운 벡터를 지님
  • paper : Efficient Estimation of Word Representations in Vector Space
  • code
  • wiki

Doc2Vec

  • Doc2vec modifies the word2vec algorithm to unsupervised learning of continuous representations for larger blocks of text, such as sentences, paragraphs or entire documents.
  • The main point is, labels act in the same way as words in Doc2Vec.
  • paper : Distributed Representations of Sentences and Documents
  • code

LDA ( Latent Dirichlet Allocation )

  • 주어진 문서들에 대해 각 문서에 어떤 주제들이 존재하는지에 대한 확률 모형
  • 미리 학습된 주제별 단어수 분포 정보를 바탕으로, 주어진 문서에 어떤 주제를 다루는지 예측
  • paper : Latent Dirichlet Allocation
  • wiki

LSI ( Latent Semantic Indexing(Analysis) )

TF-IDF ( Term Frequency - Inverse Document Frequency )

  • 특정 단어가 문서내 얼마나 중요한 것인지 나타내는 통계적 수치
  • 문서 내 얼마나 자주 등장하는지에 대한 TF 와 문서군 내에서 자주 등장하는 빈도의 역수인 IDF 를 곱한 값으로, 조사 등 흔하게 등장하는 것은 제외하고 핵심어를 추출 할 수 있다.
  • wiki

CNN ( Convolutional Neural Network )

RNN ( Recursive Neural Network )

reference

comments powered by Disqus