no image
[자연어처리(NLP)] 3. 임베딩_1(이론)
1. 자연어의 특성 자연어를 기계가 처리하도록 하기 위해서는 먼저 자연어를 기계가 이해할 수 있는 언어로 바꾸는 방법을 알아야 합니다. 토큰화 작업의 결과인 단어 사전을 기계가 이해할 수 있는 언어로 표현하는 과정이며, 단어 사전 내 단어 하나를 어떻게 표현할지의 문제로 볼 수 있습니다. 1-1. 단어의 유사성과 모호성 단어의 의미는 유사성과 모호성을 가지고 있는데 단어는 겉으로 보이는 형태인 표제어 안에 여러가지 의미를 담고 있습니다. 사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있지만, 기계는 학습의 부재 또는 잘못된 데이터로 의미를 파악하지 못하는 경우가 있습니다. 한가지 형태의 단어에 여러 의미가 포함되어 생기는 중의성 문제는 자연어처리에서 매우 중요합니다. 동형어 : 형태는 같으나..
2024.01.18
no image
[자연어처리(NLP)] 2. 자연어 처리 진행 순서_2(실습)
데이터 전처리 실습 1. 필요모듈 설치 !pip install newspaper3k ※ 뉴스 기사 크롤링 라이브러리 입니다. 2. 필요모듈 임포트 import newspaper 3. 지원되는 언어 확인 newspaper.languages() 4. Article 임포트 from newspaper import Article 5. 원하는 뉴스의 링크 + 객체 생성 url = 'https://v.daum.net/v/ySnyNE6FqA' # 객체 생성 article = Article(url, language='ko') 6. 해당 링크를 기준으로 다운로드 article.download() article.parse() print('title', article.title) print('content', article...
2024.01.17
no image
[자연어처리(NLP)] 2. 자연어 처리 진행 순서_1(이론)
1. 문제 정의 문제에 대한 솔루션이 있어야 하며, 명확하고 구체적 일수록 알맞는 자연어처리 기술을 찾을 수 있습니다. 2. 데이터 수집 및 분석 다양한 학습데이터를 수집하기 위해 공개된 데이터셋, 유료 데이터셋 또는 웹 크롤링을 사용하여 수집합니다. 웹 크롤링을 통하여 데이터를 수집했다면 EDA(탐색적 데이터 분석) 및 분석 작업을 통해 데이터를 철저하게 검증해야 합니다. 레이블이 필요하다면 수집한 데이터에 레이블을 붙여야 합니다. 3. 데이터 전처리 학습에 용이하게 데이터를 수정/보완하는 작업 입니다. 자연어처리 진행 과정에서 데이터가 차지하는 비중이 매우 높기 때문에 데이터를 수집하고 전처리하는 과정이 매우 중요 합니다. 토큰화(Tokenization) : 주어진 데이터셋에서 문장이나 문서들을 토큰..
2024.01.17
no image
[자연어처리(NLP)] 1. 자연어 처리 개요_2(워드 클라우드, Task)
워드 클라우드(Word Cloud)란? 핵심 단어를 시각화 하는 기법 문서의 키워드, 개념 등을 직관적으로 파악할 수 있게 핵심 단어를 시각적으로 돋보이게 하는 기법을 말합니다. 실습 1. 코렙에서 워드 클라우드 설치방법 !pip install wordcloud 2. text파일 생성 text = open('/content/drive/MyDrive/KDT v2/9. 자연어 처리/data/alice.txt').read() text 3. 모듈 임포트 from wordcloud import WordCloud 4. 활성화 및 객체 생성 wordcloud = WordCloud().generate(text) wordcloud # 결과값 : # generate() : 단어별 출현 빈도수를 비율로 반환하는 객체를 생성..
2024.01.16
no image
[자연어처리(NLP)] 1. 자연어 처리 개요_1(Hannanum, Kkma, Komoran, Okt)
1. 자연어란? Natural Language를 뜻합니다. 프로그래밍 언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어를 말합니다. 1-1. 자연어 처리 컴퓨터가 한국어나 영어와 같은 인간의 자연어를 읽고 이해할 수 있도록 돕는 인공지능의 한 분야를 말합니다. 자연어에서 의미 있는 정보를 추출하여 활용을 합니다. 기계가 자연어의 의미를 이해하고 사람의 언어로 소통할 수 있게 합니다. 1-2. 자연어 처리의 활용 문서 분류, 스팸 처리와 같은 분류 문제에 주로 활용됩니다. 검색어 추천 음성인식, 질의 응답, 번역 소셜 미디어 분석 등 많은 분야에 활용되고 있습니다. 1-3. 자연어 처리의 용어 자연어 이해(NLU) 자연어 처리의 하위 집합 일반적으로 기계가 자연..
2024.01.16