반응형

간단 지식/Deep Learning 5

05. 자연어 처리(NLP)에 필요한 라이브러리 및 패키지 설치

자연어처리(Natural Language Processing)은 머신러닝과 딥러닝의 교집합 그 어드메라고 부를 수 있는 분야다. 그림으로 표현한다면 아래처럼 볼 수 있겠다. 이러한 NLP의 세부 분야로는 감성분석 또는 감정분석, 의미 분석, 구문분석, 음성인식(질의응답) 등이 있다. 개발 환경은 아나콘다, 필요한 프레임워크는 아나콘다를 설치하면서 기본적으로 딸려오는 Numpy, Pandas, Jupyter notebook, scikit-learn, matplotlib, seaborn, nltk 등 외에 tensorflow, keras, gensim 이 세 가지만 별도로 아나콘다 프롬프트 창에서 pip를 통해 설치해야한다. - tensorflow 설치 pip install tensorflow 텐서플로우는 ..

04. Linear Regression - How to minimize cost?

머신러닝의 분류도이다. 다시한번 복기해보자. 이번에는 회귀 중에서도 가장 기본인 선형 회귀(Linear Regression)에 대해 알아보자. 아래와 같이 data set(=train data)이 있다고 가정해보자. (독립변수x에 대해 종속변수y가 0~100 사이의 값을 가지면 회귀라고 부른다) x y 1 2 2 4 3 6 이에 따른 그래프는 다음과 같을 것이다. 여기서 H(x)는 가설을 의미하며, 위 데이터 셋으로부터 나올 수 있는 가장 이상적인 가설이다. 그러나 어떠한 연유로 H(n)과 같이 이상적이지 않은 결과 값이 나오는 가설이 만들어질수도 있다. 이때 가설과 실제값 간의 차이가 존재하는데 이를 구하는 방법을 cost function이라고 한다. 가장 기본적인 함수의 형태는 다음과 같다. 기본 형..

03. Activation - identity, softmax

머신러닝의 분류도이다. 다시한번 복기해보자. 우리가 집중해서 봐야할 부분은 지도학습의 분류와 회귀이다. 이걸 기억하고 아래를 보자. 지난 글에서 사용한 예시 코드에서 생성한 모델은 분류모델일까 회귀모델일까? import tensorflow as tf import pandas as pd 파일경로 = ' ' 데이터셋 = pd.read_csv(파일경로) 데이터셋.head() 독립 = 데이터셋[['독립변수1']] 종속 = 데이터셋[['종속변수2']] print(독립.shape, 종속.shape) X = tf.keras.layers.Input(shape=[1]) Y = tf.keras.layers.Dense(1)(X) ------------! model = tf.keras.models.Model(X, Y) mod..

02. what is Deep Learning?

다시 한번 인공지능 기술의 포함관계와 머신러닝의 분류에 대해 복기하고 딥러닝으로 넘어가자. deep learning은 뉴런과 비슷한 인공신경망 방식으로 정보를 처리하는 기술이다. 딥 러닝이라는 단어의 어원은 neural network로, 인간의 신경을 모방한다는 점을 따왔다. 뉴럴 네트워크는 일종의 머신러닝 알고리즘으로, 사람의 두뇌가 작동하는 것을 모방하여 기계가 학습할 수 있게 해주는 기술이다. 그리고 이와 유사한 알고리즘에는 결정트리, 랜덤포레스트, KNN, SVM 등이 있다. 그렇다면 tensorflow는 무엇일까? 바로 라이브러리이다. 이와 유사한 라이브러리에는 PyTorch, Caffe2, Theano 등이 있다. 그리고 텐서플로우에서 사용하는 알고리즘이 뉴럴 네트워크이고 이를 통해 해결하려는..

01. what is Machine Learning?

위 그림은 인공지능, 머신러닝, 딥러닝의 관계이다. 우리가 포괄적으로 생각하는 인공지능은 인간을 대신할 수 있는 컴퓨터 기술이지만, 정확히는 머신러닝과 딥러닝을 포함해서 아우르는 기술이다. Machine Learning은 한글로 기계 학습이다. learning은 model을 만드는 과정이다. 여기서 말하는 모델은 이론과 여러 실험으로 얻은 규훈을 합친 공식이 되겠다. 즉, 좋은 학습을 통해 좋은 모델을 만드는 것이 좋은 머신러닝 기술이 되는 것이다. 좋은 학습을 위해서는 데이터가 필요하다. 복잡한 현실에서는 발견하기 어려운 정보를 단순 데이터화해서 발견하는 데이터 산업인 data science와 data engineering이 있다. data science는 데이터를 만들고 사용하는 산업이고, data ..