1. 형태소 분석기 Mecab 설치
알려진 한국어 형태소 분석기 중 실행 속도가 빠르고 성능이 좋다고 알려진 Mecab을 설치하기로 했다
<<<<<윈도우 환경이 아닌 경우>>>>>>
jdk설치
Mecal이 java 기반으로 구현된 모델이기 때문에 java가 필요함
GitHub - ojdkbuild/ojdkbuild: Community builds using source code from OpenJDK project
위 링크에서 openjdk msi 파일을 다운로드 받아 설치
Microsoft C++ Build Tools 설치
error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/
파이썬 패키지 설치
pip install konlpy
pip install mecab-python3
wget 설치
컴퓨터에 wget이 설치 되어있지 않는 경우
[문제 해결] 'wget'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는 배치 파일이 아닙니다.
mecab-ko 설치
wget <https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz>
tar xvfz mecab-0.996-ko-0.9.2.tar.gz
mecab-dic 설치
wget <https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.1.1-20180720.tar.gz>
tar xvfz mecab-ko-dic-2.1.1-20180720.tar.gz
cd mecab-ko-dic-2.1.1-20180720
./configure
make
sudo make install
mecab-python 설치
git clone <https://bitbucket.org/eunjeon/mecab-python-0.996.git>
cd mecab-python-0.996
python setup.py build
를 설치하던 중 발견한 충격적인 소식
mecab은 윈도우에서 지원하지 않는다..
<<<<<윈도우 환경인 경우>>>>>>
윈도우 환경이 아닌 경우 방법이 두가지가 있는데, 첫번째 방법이 압도적으로 빠르고 쉽기 때문에 추천함
방법 1. eunjeon 라이브러리 사용하기
검색엔진에서 쓸 수 있는 오픈소스 한국어 형태소 분석기 프로젝트 은전한닢에서 mecab을 활용한 형태소 분리기를 제공하고 있음
pip install eunjeon
위 명령어로 잘 설치된다면 아주 쉽게 쉽게 갈 수 있다
방법 2. 코랩 사용하기
구글 코랩에서 mecab을 사용하는 건 어떤 착한 분이 만들어 두셔서
!git clone <https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git>
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh
위 명령어를 실행하면 mecab-ko,dic,python을 알아서 모두 설치해준다라고 알고 있었는데
Tagger 오류가 떠서 찾아보니 저 sh 파일이 설치되기 전에 Mecab을 import 하여 Tagger오류가 한 번이라도 뜬 적이 있다면 그 런타임에는 계속 오류가 뜬다는 것…
나는 이미 수많은 Tagger를 본 뒤였기 때문에 런타임을 다시 연결하고 실행해주었더니 잘 됐다.
그런데 런타임 연결을 다시 하고 실행해도 에러가 발생한다
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip3 install konlpy JPype1-py3
!bash <(curl -s <https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh>)
위 명령어를 통해 쉘스크립트를 설치 해주어야 한다는 이야기가 있어서 실행해봤으나
위와 같이 python-0.996이 설치되지 않았다는 오류가 발생한다
⇒ 뻘짓하지 말고, 해당 런타임 세션에서 mecab-python3이 설치 되어있는지 확인해볼 것
정리하자면
- mecab-python3 파이썬 라이브러리 설치
- 코드 실행
!git clone <https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git>
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh
!apt-get update
!apt-get install g++ openjdk-8-jdk
!pip3 install konlpy JPype1-py3
!bash <(curl -s <https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh>)
3. 현재 런타임에서 Tagger 오류가 한 번이라도 떴다면 런타임을 다시 연결할 것
코랩을 추천하지 않는 이유는 공짜 GPU를 사용할 수 있어 좋긴 하지만 연결을 오랫동안 해두면 세션이 끊겨 학습을 처음부터 다시 해야하는 사태가 자주 발생하기 때문
사용하다보면 화딱지나서 못씁니다
2. 데이터 전처리
위와 같은 과정을 거쳐서 전처리를 완료하여
사진과 같은 형태로 전처리를 완료하였음
빈도수 순으로 정렬 후 최소 빈도수 이하의 단어를 제거하는 부분은, 분석할 전체 리뷰 데이터 수가 얼마나 되느냐에 따라서 결정되는 값이 달라지기 때문에 보류하였음
Mecab 설치하는 과정이 아주 험난했지만, 직접 전처리 과정을 해볼 수 있어서 뿌듯했다. 띄어쓰기 변환기가 떨어뜨리면 안되는 단어들을 떨어뜨리기도 하고, 형태소 변환기가 그러기도 하는데 이는 나중에 Mecab에 사용자 단어를 추가하면 된다고 하니 천천히 해보려고 한다.
'모각코 > 2024 하계 모각코' 카테고리의 다른 글
[진저비어] 하계 모각코 6주차 계획 (0) | 2024.08.16 |
---|---|
[진저비어] 하계 모각코 5주차 회고 (0) | 2024.08.16 |
[진저비어] 하계 모각코 5주차 계획 (0) | 2024.08.16 |
[진저비어] 하계 모각코 3주차 계획 (0) | 2024.08.16 |
[진저비어] 하계 모각코 2주차 계획 (0) | 2024.07.21 |