no image
[자연어처리(NLP)] 2. 자연어 처리 진행 순서_2(실습)
데이터 전처리 실습 1. 필요모듈 설치 !pip install newspaper3k ※ 뉴스 기사 크롤링 라이브러리 입니다. 2. 필요모듈 임포트 import newspaper 3. 지원되는 언어 확인 newspaper.languages() 4. Article 임포트 from newspaper import Article 5. 원하는 뉴스의 링크 + 객체 생성 url = 'https://v.daum.net/v/ySnyNE6FqA' # 객체 생성 article = Article(url, language='ko') 6. 해당 링크를 기준으로 다운로드 article.download() article.parse() print('title', article.title) print('content', article...
2024.01.17
no image
[자연어처리(NLP)] 2. 자연어 처리 진행 순서_1(이론)
1. 문제 정의 문제에 대한 솔루션이 있어야 하며, 명확하고 구체적 일수록 알맞는 자연어처리 기술을 찾을 수 있습니다. 2. 데이터 수집 및 분석 다양한 학습데이터를 수집하기 위해 공개된 데이터셋, 유료 데이터셋 또는 웹 크롤링을 사용하여 수집합니다. 웹 크롤링을 통하여 데이터를 수집했다면 EDA(탐색적 데이터 분석) 및 분석 작업을 통해 데이터를 철저하게 검증해야 합니다. 레이블이 필요하다면 수집한 데이터에 레이블을 붙여야 합니다. 3. 데이터 전처리 학습에 용이하게 데이터를 수정/보완하는 작업 입니다. 자연어처리 진행 과정에서 데이터가 차지하는 비중이 매우 높기 때문에 데이터를 수집하고 전처리하는 과정이 매우 중요 합니다. 토큰화(Tokenization) : 주어진 데이터셋에서 문장이나 문서들을 토큰..
2024.01.17
no image
[자연어처리(NLP)] 1. 자연어 처리 개요_2(워드 클라우드, Task)
워드 클라우드(Word Cloud)란? 핵심 단어를 시각화 하는 기법 문서의 키워드, 개념 등을 직관적으로 파악할 수 있게 핵심 단어를 시각적으로 돋보이게 하는 기법을 말합니다. 실습 1. 코렙에서 워드 클라우드 설치방법 !pip install wordcloud 2. text파일 생성 text = open('/content/drive/MyDrive/KDT v2/9. 자연어 처리/data/alice.txt').read() text 3. 모듈 임포트 from wordcloud import WordCloud 4. 활성화 및 객체 생성 wordcloud = WordCloud().generate(text) wordcloud # 결과값 : # generate() : 단어별 출현 빈도수를 비율로 반환하는 객체를 생성..
2024.01.16
no image
[자연어처리(NLP)] 1. 자연어 처리 개요_1(Hannanum, Kkma, Komoran, Okt)
1. 자연어란? Natural Language를 뜻합니다. 프로그래밍 언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어를 말합니다. 1-1. 자연어 처리 컴퓨터가 한국어나 영어와 같은 인간의 자연어를 읽고 이해할 수 있도록 돕는 인공지능의 한 분야를 말합니다. 자연어에서 의미 있는 정보를 추출하여 활용을 합니다. 기계가 자연어의 의미를 이해하고 사람의 언어로 소통할 수 있게 합니다. 1-2. 자연어 처리의 활용 문서 분류, 스팸 처리와 같은 분류 문제에 주로 활용됩니다. 검색어 추천 음성인식, 질의 응답, 번역 소셜 미디어 분석 등 많은 분야에 활용되고 있습니다. 1-3. 자연어 처리의 용어 자연어 이해(NLU) 자연어 처리의 하위 집합 일반적으로 기계가 자연..
2024.01.16
no image
[머신러닝과 딥러닝] 22. 포켓몬 분류
1. 포켓몬스터 분류 Train Data : https://www.kaggle.com/datasets/thedagger/pokemon-generation-one Pokemon Generation One Gotta train 'em all! www.kaggle.com Validation Data : https://www.kaggle.com/hlrhegemony/pokemon-image-dataset Complete Pokemon Image Dataset 2,500+ clean labeled images, all official art, for Generations 1 through 8. www.kaggle.com 2. 필요한 Datasets 다운로드 및 압축풀기 import os os.environ['KA..
2024.01.12
no image
[Windows]윈10 주피터 노트북(jupyter notebook)에서 GPU(CUDA) 사용하도록 설정하기
1. CUDA Toolkit 설치하기 https://developer.nvidia.com/cuda-toolkit CUDA Toolkit - Free Tools and Training Get access to SDKs, trainings, and connect with developers. developer.nvidia.com 위 사이트에 접속후 아래에 있는 [Download Now]를 클릭합니다. 2. 아래의 사진 처럼 클릭 후 [Download]를 클릭하면 됩니다. [Windows], [x86_64], [10], [exe (network)] 물론 자신이 윈도우 11을 사용하면 [11]을 클릭하면 됩니다. 3. 설치 파일 실행 설치파일을 실행하면 아래와 같은 설치창이 뜹니다. 이때 [OK]를 클릭하면 됩..
2024.01.11