1. 형태소 분석기 Mecab 설치알려진 한국어 형태소 분석기 중 실행 속도가 빠르고 성능이 좋다고 알려진 Mecab을 설치하기로 했다>>>>>jdk설치Mecal이 java 기반으로 구현된 모델이기 때문에 java가 필요함GitHub - ojdkbuild/ojdkbuild: Community builds using source code from OpenJDK project위 링크에서 openjdk msi 파일을 다운로드 받아 설치Microsoft C++ Build Tools 설치error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft..
3. 토큰화: 주어진 코퍼스에서 토큰으로 불리는 단위로 나누는 작업토큰은 상황에 따라 다르게, 의미 있는 단위로 정의함단어 토큰화토큰화의 기준을 단어로 하는 경우(이 때 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주됨)일반적으로 구두점이나 특수 문자 등을 제거하는 정제 과정 후 띄어쓰기를 기준으로 문장을 자른다 (다만 한국어의 경우, 띄어쓰기만으로는 단어 토큰을 구분하는 경우가 많음)하지만 토큰화를 단순하게 생각할 수 없는건, 구두점이나 특수 문자를 단순히 모두 제외해버리면 원래의 의미를 잃어버릴 수 있기 때문임단어 자체에 & 혹은 /를 갖고 있거나, . 을 통해 문장의 경계를 알 수도 있고, 숫자 사이에 , 이 들어가는 경우도 있기 때문임문장 토큰화토큰화의 기준을 문장으로 하는 경우? ..