본문 바로가기

728x90

자연어 처리2

[소셜네트워크] 자연어 처리 #2 1. 말뭉치(Corpus)와 데이터 준비Corpus(말뭉치): 컴퓨터에 저장된 자연어 자료의 모음입니다.예: Google Books Ngram, Brown Corpus, American National Corpus파일 형식: .txt, .csv, .json, .xml말뭉치 준비 과정:데이터 선택 및 전처리: 의미 없는 데이터(노이즈)를 제거.형식 변환: 데이터를 NLP에 적합한 형태로 변경 (예: JSON, CSV).샘플링: 분석에 필요한 데이터 속성 추출.숫자 데이터 변환(Encoding): 머신러닝 모델 학습을 위해 텍스트를 수치화. 2. NLP의 주요 전처리 단계토큰화(Tokenization):텍스트를 단어 또는 문장 단위로 분리.N-gram: 단어를 n개씩 묶어서 연결(예: Unigram, Big.. 2024. 10. 23.

[소셜네트워크] 자연어 처리 #1 1. 자연어 처리(NLP)란?자연어: 사람들이 사용하는 언어(예: 한국어, 영어)로, 의사소통의 수단입니다.자연어 처리(NLP): 자연어를 컴퓨터가 이해하고 분석할 수 있도록 디지털화하는 기술입니다.예: 이메일에서 스팸 여부를 자동으로 판단하기 위해 NLP를 활용. NLP의 활용 분야:텍스트 분석(Text Analytics): 주어진 텍스트에서 유용한 인사이트를 추출합니다.자연어 이해(NLU): 컴퓨터가 문장을 이해하도록 만듭니다.자연어 생성(NLG): 컴퓨터가 인간이 이해할 수 있는 자연어로 문장을 생성합니다. 2. 텍스트 분석 도구NLP 관련 라이브러리 및 도구:NLTK: 자연어 처리와 관련된 다양한 기능 제공.Gensim: 토픽 모델링에 유용한 라이브러리.SpaCy: 고성능 NLP 라이브러리.Sta.. 2024. 10. 23.

이전 1 다음

728x90

티스토리툴바