import torch  
import sys  
import numpy  
import torch  

print("Python version:", sys.version)  
print("NumPy version:", numpy.__version__)  
print("PyTorch version:", torch.__version__) 

# CUDA 사용 가능 여부 확인  
print(torch.cuda.is_available())  

# 사용 가능한 GPU 장치 수 확인  
print(torch.cuda.device_count())

Python version: 3.11.10 | packaged by Anaconda, Inc. | (main, Oct  3 2024, 07:22:26) [MSC v.1929 64 bit (AMD64)]
NumPy version: 2.1.3
PyTorch version: 2.5.1+cpu
False
0

import torch  
import sklearn

print(torch.__version__)
print(sklearn.__version__)

2.5.1+cpu
1.5.2

import numpy as np  
import pandas as pd  
import torch  
import torch.nn as nn  
import torch.optim as optim  
from sklearn.model_selection import train_test_split  
from sklearn.preprocessing import StandardScaler  
from sklearn.impute import SimpleImputer

import os 
os.getcwd()

'd:\\github\\DeepLearning_Basic_Class'

# 시드 고정  
torch.manual_seed(42)  
np.random.seed(42)  

# 1. 데이터 준비  
# 상대 경로로 데이터 로드
train = pd.read_csv('./datasets/health_mental_24/train.csv')
test = pd.read_csv('./datasets/health_mental_24/test.csv')
sub = pd.read_csv('./datasets/health_mental_24/sample_submission.csv')

# 데이터 shape 확인
print("훈련 데이터 shape:", train.shape)
print("테스트 데이터 shape:", test.shape)

# 데이터 정보 확인
print("\n훈련 데이터 정보:")
print(train.info())

print("\n테스트 데이터 정보:")
print(test.info())

훈련 데이터 shape: (140700, 20)
테스트 데이터 shape: (93800, 19)

훈련 데이터 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140700 entries, 0 to 140699
Data columns (total 20 columns):
 #   Column                                 Non-Null Count   Dtype  
---  ------                                 --------------   -----  
 0   id                                     140700 non-null  int64  
 1   Name                                   140700 non-null  object 
 2   Gender                                 140700 non-null  object 
 3   Age                                    140700 non-null  float64
 4   City                                   140700 non-null  object 
 5   Working Professional or Student        140700 non-null  object 
 6   Profession                             104070 non-null  object 
 7   Academic Pressure                      27897 non-null   float64
 8   Work Pressure                          112782 non-null  float64
 9   CGPA                                   27898 non-null   float64
 10  Study Satisfaction                     27897 non-null   float64
 11  Job Satisfaction                       112790 non-null  float64
 12  Sleep Duration                         140700 non-null  object 
 13  Dietary Habits                         140696 non-null  object 
 14  Degree                                 140698 non-null  object 
 15  Have you ever had suicidal thoughts ?  140700 non-null  object 
 16  Work/Study Hours                       140700 non-null  float64
 17  Financial Stress                       140696 non-null  float64
 18  Family History of Mental Illness       140700 non-null  object 
 19  Depression                             140700 non-null  int64  
dtypes: float64(8), int64(2), object(10)
memory usage: 21.5+ MB
None

테스트 데이터 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93800 entries, 0 to 93799
Data columns (total 19 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   id                                     93800 non-null  int64  
 1   Name                                   93800 non-null  object 
 2   Gender                                 93800 non-null  object 
 3   Age                                    93800 non-null  float64
 4   City                                   93800 non-null  object 
 5   Working Professional or Student        93800 non-null  object 
 6   Profession                             69168 non-null  object 
 7   Academic Pressure                      18767 non-null  float64
 8   Work Pressure                          75022 non-null  float64
 9   CGPA                                   18766 non-null  float64
 10  Study Satisfaction                     18767 non-null  float64
 11  Job Satisfaction                       75026 non-null  float64
 12  Sleep Duration                         93800 non-null  object 
 13  Dietary Habits                         93795 non-null  object 
 14  Degree                                 93798 non-null  object 
 15  Have you ever had suicidal thoughts ?  93800 non-null  object 
 16  Work/Study Hours                       93800 non-null  float64
 17  Financial Stress                       93800 non-null  float64
 18  Family History of Mental Illness       93800 non-null  object 
dtypes: float64(8), int64(1), object(10)
memory usage: 13.6+ MB
None

train.head()

test.head(3)

sub.head()

train.columns

Index(['id', 'Name', 'Gender', 'Age', 'City',
       'Working Professional or Student', 'Profession', 'Academic Pressure',
       'Work Pressure', 'CGPA', 'Study Satisfaction', 'Job Satisfaction',
       'Sleep Duration', 'Dietary Habits', 'Degree',
       'Have you ever had suicidal thoughts ?', 'Work/Study Hours',
       'Financial Stress', 'Family History of Mental Illness', 'Depression'],
      dtype='object')

# 필요한 피처 선택  
features = ['Age', 'Work/Study Hours', 'Financial Stress', 'Gender']  
target = 'Depression'  

# 성별 인코딩  
train['Gender'] = train['Gender'].map({'Male': 0, 'Female': 1})  

# 결측값 처리  
imputer = SimpleImputer(strategy='median')  
X = imputer.fit_transform(train[features])  
y = train[target].values

# 스케일링  
scaler = StandardScaler()  
X = scaler.fit_transform(X)  

# 데이터 분할  
X_train, X_test, y_train, y_test = train_test_split(  
    X, y, test_size=0.2, random_state=42  
)  

# NumPy to PyTorch Tensor 변환  
# X_train이라는 NumPy 배열을 PyTorch의 FloatTensor로 변환. 
# FloatTensor는 32비트 부동 소수점 숫자로 구성된 텐서를 생성.
# 이 변환은 PyTorch 모델에서 데이터를 처리할 수 있도록 준비하는 단계
X_train = torch.FloatTensor(X_train)  
X_test = torch.FloatTensor(X_test)  
y_train = torch.FloatTensor(y_train).unsqueeze(1)  
y_test = torch.FloatTensor(y_test).unsqueeze(1)

# 2. 신경망 모델 정의  
model = nn.Sequential(  
    nn.Linear(4, 8),  
    nn.ReLU(),  
    nn.Dropout(0.3),  
    nn.Linear(8, 4),  
    nn.ReLU(),  
    nn.Dropout(0.3),  
    nn.Linear(4, 1),  
    nn.Sigmoid()
)  

# 3. 모델 학습  
# 손실 함수와 옵티마이저 정의  
criterion = nn.BCELoss()  # 이진 분류 손실 함수  
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 학습 진행  
epochs = 200  
for epoch in range(epochs):  
    # 순전파  
    outputs = model(X_train)  
    loss = criterion(outputs, y_train)  
    
    # 정확도 계산  
    with torch.no_grad():  
        # 이진 분류의 경우  
        predicted = (outputs > 0.5).float()  
        accuracy = (predicted == y_train).float().mean() 


    # 역전파  
    optimizer.zero_grad()  
    loss.backward()  
    optimizer.step()  
    
    # 20번마다 손실과 정확도 출력  
    if (epoch + 1) % 20 == 0:  
        print(f'Epoch [{epoch+1}/{epochs}], '  
              f'Loss: {loss.item():.4f}, '  
              f'Accuracy: {accuracy.item():.4f}')

Epoch [20/200], Loss: 0.5721, Accuracy: 0.8186
Epoch [40/200], Loss: 0.5589, Accuracy: 0.8186
Epoch [60/200], Loss: 0.5433, Accuracy: 0.8186
Epoch [80/200], Loss: 0.5241, Accuracy: 0.8186
Epoch [100/200], Loss: 0.5014, Accuracy: 0.8186
Epoch [120/200], Loss: 0.4769, Accuracy: 0.8186
Epoch [140/200], Loss: 0.4549, Accuracy: 0.8186
Epoch [160/200], Loss: 0.4341, Accuracy: 0.8186
Epoch [180/200], Loss: 0.4145, Accuracy: 0.8186
Epoch [200/200], Loss: 0.3987, Accuracy: 0.8186

# 4. 모델 평가  
model.eval()  # 평가 모드  
with torch.no_grad():  
    test_outputs = model(X_test)  
    predicted = (test_outputs > 0.5).float()  
    accuracy = (predicted == y_test).float().mean()  
    print(f'Test Accuracy: {accuracy.item():.4f}')

Test Accuracy: 0.8168

# 필요한 피처 선택  
features = ['Age', 'Work/Study Hours', 'Financial Stress', 'Gender']

# Gender 인코딩
test['Gender'] = test['Gender'].map({'Male': 0, 'Female': 1})

# 선택한 피처로 test 데이터 준비
X_predict = test[features]

# 결측값 처리
X_predict = scaler.transform(X_predict)

# 스케일링
X_predict = scaler.transform(X_predict)

# PyTorch Tensor로 변환
X_predict = torch.FloatTensor(X_predict)

# 예측 수행
model.eval()
with torch.no_grad():
    pred = model(X_predict)
    pred = (pred > 0.5).float()

# submission 파일에 예측값 저장
sub['Depression'] = pred.numpy()

sub.to_csv('./datasets/health_mental_24/sub01.csv', index=False)
print("예측 완료 및 sub 파일 저장.")

c:\Users\daniel_wj\anaconda3\envs\gpuDL\Lib\site-packages\sklearn\base.py:486: UserWarning: X has feature names, but StandardScaler was fitted without feature names
  warnings.warn(

예측 완료 및 sub 파일 저장.

PyTorch 버전	권장 CUDA 버전
1.13.x	11.7
2.0.x	11.8
2.1.x --	12.1

	id	Name	Gender	Age	City	Working Professional or Student	Profession	Academic Pressure	Work Pressure	CGPA	Study Satisfaction	Job Satisfaction	Sleep Duration	Dietary Habits	Degree	Have you ever had suicidal thoughts ?	Work/Study Hours	Financial Stress	Family History of Mental Illness	Depression
0	0	Aaradhya	Female	49.0	Ludhiana	Working Professional	Chef	NaN	5.0	NaN	NaN	2.0	More than 8 hours	Healthy	BHM	No	1.0	2.0	No	0
1	1	Vivan	Male	26.0	Varanasi	Working Professional	Teacher	NaN	4.0	NaN	NaN	3.0	Less than 5 hours	Unhealthy	LLB	Yes	7.0	3.0	No	1
2	2	Yuvraj	Male	33.0	Visakhapatnam	Student	NaN	5.0	NaN	8.97	2.0	NaN	5-6 hours	Healthy	B.Pharm	Yes	3.0	1.0	No	1
3	3	Yuvraj	Male	22.0	Mumbai	Working Professional	Teacher	NaN	5.0	NaN	NaN	1.0	Less than 5 hours	Moderate	BBA	Yes	10.0	1.0	Yes	1
4	4	Rhea	Female	30.0	Kanpur	Working Professional	Business Analyst	NaN	1.0	NaN	NaN	1.0	5-6 hours	Unhealthy	BBA	Yes	9.0	4.0	Yes	0

	id	Name	Gender	Age	City	Working Professional or Student	Profession	Academic Pressure	Work Pressure	CGPA	Study Satisfaction	Job Satisfaction	Sleep Duration	Dietary Habits	Degree	Have you ever had suicidal thoughts ?	Work/Study Hours	Financial Stress	Family History of Mental Illness
0	140700	Shivam	Male	53.0	Visakhapatnam	Working Professional	Judge	NaN	2.0	NaN	NaN	5.0	Less than 5 hours	Moderate	LLB	No	9.0	3.0	Yes
1	140701	Sanya	Female	58.0	Kolkata	Working Professional	Educational Consultant	NaN	2.0	NaN	NaN	4.0	Less than 5 hours	Moderate	B.Ed	No	6.0	4.0	No
2	140702	Yash	Male	53.0	Jaipur	Working Professional	Teacher	NaN	4.0	NaN	NaN	1.0	7-8 hours	Moderate	B.Arch	Yes	12.0	4.0	No

	id	Depression
0	140700	0
1	140701	0
2	140702	0
3	140703	0
4	140704	0

딥러닝 모델 구현해 보기¶

학습 내용¶

목차

01. 사전 환경 설치

GPU 버전 PyTorch 설치¶

02. 라이브러리 및 데이터 불러오기

03. 신경망 모델 정의

04. 새로운 데이터로 예측

추가 실습¶