💡(1)편에서는 RNN에 대해서 알아봤습니다. 이 글에서는 이를 활용해 문서를 분류하는 과정을 살펴보도록 하겠습니다. 실습 데이터로는 NLTK 영화 리뷰를 사용하도록 하겠습니다. (1)편 링크 : https://jungnerd.tistory.com/4 NLTK 영화 리뷰 감성 분석 워드 임베딩을 위한 데이터 준비 from nltk.corpus import movie_reviews fileids = movie_reviews.fileids() #movie review data에서 file id를 가져옴 reviews = [movie_reviews.raw(fileid) for fileid in fileids] #file id를 이용해 raw text file을 가져옴 categories = [movie_rev..
💡딥러닝을 활용하면 사람이 문장을 읽을 때처럼, 단어 순서를 반영해 문맥을 이해할 수 있습니다. 특히, RNN은 문장을 이해하기 위해 단어의 순서를 고려하는 가장 직관적인 모형이라고 할 수 있습니다. (1)편에서는 RNN을 이해하고 (2)편에서는 이를 활용해 문서를 분류하는 과정을 살펴보도록 하겠습니다. RNN의 이해 왜 RNN일까? 먼저 RNN에 대해 알아보겠습니다. 왜 RNN을 자연어 처리에 사용할까요? BOW와 같은 카운트 기반의 문서 표현은 문서에 있는 단어들의 통계를 통해 문서의 내용을 이해하려는 시도라고 할 수 있습니다. 반면에, 딥러닝은 사람이 책을 읽는 것처럼 단어의 순서를 반영해 문맥을 이해하는 방식으로 작동합니다. 특히 순환신경망이라고 부르기도 하는 Recurrent Neural Net..
데이터 분석에는 반드시 필요한 세 가지 패키지가 있습니다. 바로 Pandas, Numpy, 그리고 Matplotlib입니다. 오늘은 Pandas에 대한 기본적인 내용들을 다뤄보려고 합니다! Pandas (판다스) Pandas(판다스)는 파이썬 데이터 처리를 위한 라이브러리입니다. 스프레드시트나 데이터베이스같이, 테이블로 나타낸 데이터를 활용할 때 유용하게 쓰일 수 있습니다. Pandas가 설치되어 있는 환경에서 아래와 같이 import 할 수 있습니다. import pandas as pd Pandas의 경우 pd라는 명칭으로 임포트하는 것이 관례입니다. Pandas는 세 가지의 Data Structure을 사용합니다. Series (시리즈) DataFrame (데이터프레임) Panel (패널) Panel..