no image
[머신러닝과 딥러닝] 9. 랜덤 포레스트
1. 호텔 데이터셋 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt hotel_df = pd.read_csv('/content/drive/MyDrive/KDT v2/머신러닝과 딥러닝/ data/hotel.csv') hotel_df pd.set_option('display.max_columns', 60) hotel_df.head() hotel_df.info() 0 hotel 119390 non-null object 1 is_canceled 119390 non-null int64 2 lead_time 119390 non-null int64 3 arrival_date_ye..
2024.01.03
no image
[머신러닝과 딥러닝] 8. 서포트 백터 머신
from sklearn.datasets import load_digits digits = load_digits() digits.keys() # 출력값 => dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR']) data = digits['data'] data.shape # 출력값 => (1797, 64) target = digits['target'] target.shape # 출력값 => (1797,) target # 출력값 => array([0, 1, 2, ..., 8, 9, 8]) import matplotlib.pyplot as plt fig, axes = plt.subplots(2, 5, f..
2024.01.02
no image
[머신러닝과 딥러닝] 7. 로지스틱 회귀
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns hr_df = pd.read_csv('/content/drive/MyDrive/KDT v2/머신러닝과 딥러닝/ data/hr.csv') hr_df.head() hr_df.info() # 결과값 => # 0 employee_id 54808 non-null int64 # employee_id: 임의의 직원 아이디 # 1 department 54808 non-null object # department: 부서 # 2 region 54808 non-null object # region: 지역 # 3 education 52399..
2024.01.02
no image
[머신러닝과 딥러닝] 6. 의사 결정 나무
1. bike 데이터셋 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns bike_df = pd.read_csv('/content/drive/MyDrive/KDT v2/머신러닝과 딥러닝/ data/bike.csv') bike_df.info() sns.displot(bike_df['count']) sns.boxplot(y=bike_df['count']) sns.scatterplot(x='feels_like', y='count', data=bike_df, alpha=0.3) sns.scatterplot(x='pressure', y='count', data=bike_df, ..
2023.12.29
no image
[머신러닝과 딥러닝] 5. 선형 회귀
1. Rent 데이터셋 # 필요한 데이터셋 로그 및 탐색 import numpy as np import pandas as pd import seaborn as sns rent_df = pd.read_csv('/content/drive/MyDrive/KDT v2/머신러닝과 딥러닝/ data/rent.csv') rent_df # rent_df의 파일내용 확인 rent_df.info() # 데이터프레임에 대한 기술 통계를 빠르게 요약하여 보여줍니다. rent_df.describe() count : 각 컬럼의 유효한 데이터 개수입니다. 결측치는 제외. mean : 수치 데이터에 대한 평균값 std : 표준편차로, 데이터의 분산 정도 min : 각 컬럼의 최소값 25% : 하위 25%(1사분..
2023.12.28
no image
[머신러닝과 딥러닝] 4. 타이타닉 데이터셋
1. 캐글(Kaggle) https://kaggle.com 구글에서 운영하는 전세계 데이터 사이언티스트들이 다양한 데이터를 분석하고 토론할 수 있도록 제공하는 커뮤니티 데이터 분석 및 머신러닝, 딥러닝 대회를 개회 많은 데이터셋, 파이썬 자료, R자료 등... 제공 Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. www.kaggle.com 2. 데이콘(Dacon) https://dacon.io/ 국내 최초 AI 해커톤 ..
2023.12.27