
[진저비어] 하계 모각코 4주차 회고
데이터 전처리1. 정제: 갖고있는 코퍼스로부터 노이즈 데이터를 제거하는 작업이 때, 노이즈 데이터라고함은등장 빈도가 적은 단어길이가 짧은 단어 (한자가 사용되는 한국어와 달리 영어의 경우 단어의 길이가 짧을 경우 큰 의미가 없는 단어가 많음)2. 정규화: 전처리 절차 중 하나로, 코퍼스에 있는 단어의 개수를 줄일 수 있는 표제어 추출과 어간 추출 등이 있음표제어 추출: 기본 사전형 단어를 찾아서 단어의 개수를 줄일 수 있는지 판단하는 것 (am, are, is → be) 어간 추출: 단어 안에서 의미를 담고 있는 단어의 핵심 부분을 추출하는 과정어간 추출 후 결과에는 사전에 없는 단어들이 포함되어 있음 자연어 처리는 데이터 전처리가 아주 중요하다는 걸 알게 되었다. 그리고 전처리 방법에 꼭 정해진 답도 ..