본문 바로가기
728x90
반응형

소셜네트워크7

[소셜네트워크] 언어 모델과 평가에 대해서 1. 언어 모델 (Language Model) 개요언어 모델은 단어 시퀀스(문장)에 확률을 할당하는 모델로, 주어진 문맥에서 가장 자연스러운 단어의 조합을 찾는 데 사용됩니다.예를 들어, 기계 번역, 오타 수정, 음성 인식 등에서 다음에 올 단어를 예측하는 데 사용됩니다.조건부 확률을 사용하여 단어가 등장할 확률을 계산합니다. 예를 들어, 문장 "나는 버스를 탔다"와 "나는 버스를 태운다"에서 확률이 더 높은 쪽을 선택합니다.2. 통계적 언어 모델 (SLM)통계적 언어 모델은 조건부 확률 (Conditional Probability)과 연쇄 규칙 (Chain Rule)을 사용하여 문장의 확률을 계산합니다.예를 들어, 문장 "A little boy is smiling"의 확률은 각 단어가 이전 단어들에 따.. 2024. 11. 11.
[소셜네트워크] 정규 표현식 (Regular Expression, RE)에 대하여 1. 정규 표현식 개요정규 표현식 (RE): 텍스트 내에서 특정 패턴을 찾기 위한 문자 집합을 정의하는 공식입니다. 주로 텍스트에서 특정 규칙을 가진 문자열을 추출할 때 사용합니다.활용:데이터 전처리에서 불필요한 부분을 제거하거나 필요한 정보를 추출할 때 유용합니다.예를 들어, 이메일 주소나 전화번호를 추출하는 데 자주 사용됩니다.2. 메타 문자와 기본 문법 (1) 메타 문자 (Meta-characters)메타 문자는 문자 자체가 아닌 특정 기능을 표현하기 위해 사용되는 문자들입니다.[]: 대괄호 안의 문자들 중 하나와 매칭.[abc]: 텍스트에서 'a', 'b', 'c' 중 하나라도 포함하는 경우를 찾습니다.[A-Za-z]: 대문자와 소문자 모든 알파벳을 의미합니다.[0-9]: 모든 숫자를 의미합니다... 2024. 11. 10.
[소셜네트워크] 감성 분석(Sentiment Analysis)에 대하여 1. 감성 분석(Sentiment Analysis)의 개요 감성 분석(Sentiment Analysis)은 텍스트, 음성 등에서 사람들의 태도, 의견, 감정을 분석하는 기법입니다. 주요 목적:- 많은 양의 의견 데이터를 요약하여 긍정, 부정, 중립과 같은 감정의 유형을 파악합니다.- 감정 분석은 특정 제품이나 서비스, 또는 사람에 대한 여론을 이해하고, 기업의 전략적 의사결정에 도움을 줍니다.  2. 감성(Sentiment) 구성 요소 감성 분석의 구성 요소는 다양한 변수로 표현될 수 있습니다:g (감성 대상): 감정을 유발하는 특정 대상. 예: 제품(스마트폰), 서비스(항공사 서비스 품질).s (감성): 대상에 대한 감정의 표현. 긍정적, 부정적, 중립적 감정을 나타냅니다.h (주체): 감정을 표현하는.. 2024. 11. 9.
[소셜네트워크] 자연어 처리 #2 1. 말뭉치(Corpus)와 데이터 준비Corpus(말뭉치): 컴퓨터에 저장된 자연어 자료의 모음입니다.예: Google Books Ngram, Brown Corpus, American National Corpus파일 형식: .txt, .csv, .json, .xml말뭉치 준비 과정:데이터 선택 및 전처리: 의미 없는 데이터(노이즈)를 제거.형식 변환: 데이터를 NLP에 적합한 형태로 변경 (예: JSON, CSV).샘플링: 분석에 필요한 데이터 속성 추출.숫자 데이터 변환(Encoding): 머신러닝 모델 학습을 위해 텍스트를 수치화. 2. NLP의 주요 전처리 단계토큰화(Tokenization):텍스트를 단어 또는 문장 단위로 분리.N-gram: 단어를 n개씩 묶어서 연결(예: Unigram, Big.. 2024. 10. 23.
728x90
반응형