반응형

간단 지식 79

05. 자연어 처리(NLP)에 필요한 라이브러리 및 패키지 설치

자연어처리(Natural Language Processing)은 머신러닝과 딥러닝의 교집합 그 어드메라고 부를 수 있는 분야다. 그림으로 표현한다면 아래처럼 볼 수 있겠다. 이러한 NLP의 세부 분야로는 감성분석 또는 감정분석, 의미 분석, 구문분석, 음성인식(질의응답) 등이 있다. 개발 환경은 아나콘다, 필요한 프레임워크는 아나콘다를 설치하면서 기본적으로 딸려오는 Numpy, Pandas, Jupyter notebook, scikit-learn, matplotlib, seaborn, nltk 등 외에 tensorflow, keras, gensim 이 세 가지만 별도로 아나콘다 프롬프트 창에서 pip를 통해 설치해야한다. - tensorflow 설치 pip install tensorflow 텐서플로우는 ..

08. 파이썬 모듈 & 유용한 함수

모듈에 접근하는 방식은 다음과 같다. import 모듈명 import 모듈명 as alias_name from 패키지명 import 모듈명 from 모듈명 import 클래스/함수명 import 형식 function description import os os.getcwd() 현재 작업 디렉토리 경로 출력 os.listdir() 현재 작업 디렉토리의 파일 리스트 출력 import numpy (as np) np.absolute() 인자의 절댓값을 반환한다. np.sqrt() 인자의 루트값을 구해준다 from scipy import stats stats.hmean() 조화평균을 구해준다 stats.variation() 분산을 구해준다 from datetime import datetime datetime.no..

07. 파이썬의 가변 매개변수

일반적인 파이썬의 함수 형식은 다음과 같다. def 함수명 (매개변수): ~~~~ return 결과 근데 이렇게 *를 붙여주면 가변 매개변수가 된다. def 함수명 (a, *b): #a는 일반 매개변수, b는 가변 매개변수 ~~~~ return 결과 >>> def change(x, *y):#x, y는 매개변수(parameter) print(x,y) >>> change(1)#1은 인자(argument) 1() >>> change(1,2) 1 (2,) >>> change(1,2,3,4) 1 (2,3,4) (이 글이 도움이 됐다면 광고 한번씩만 클릭 해주시면 감사드립니다, 더 좋은 정보글 작성하도록 노력하겠습니다 :) )

06. 조건문과 반복문

파이썬에서는 공백이 정말 중요하다. 다른 언어에서는 탭을 하던 스페이스를 누르던 빌드에 아무 문제가 없었지만, 파이썬에서는 공백 문자인만큼 어떻게 하느냐에 따라 빌드가 실패할 수 있다. 따라서 들여쓰기에는 탭보단 공백4개를 입력하는게 일반적이다. 조건문 혹은 반복문에서 공백에 의한 에러를 자주 만날 수 있으니 주의하자. if문 >>> happy = True >>> sad = False >>> if happy == sad: print("happy and sad") else: print("happy") print("sad") happy sad 조건이 많다면 elif를 사용할 수 있다. if score >= 90: print('A학점') elif score >= 80: print('B학점') elif scor..

05. 문자열 format

이전에 문자열 함수를 다루면서 format()은 제외했었다. 그만큼 쓰기에 따라 유용하게 쓸 수 있으므로 따로 정리했다. name, age, phone = '김뫄뫄', 24, '010-1234-5678' 소개 = "이름은 {}이고, 나이는 {}세이며, 전화번호는 {}입니다..".format(name,age,phone) 소개 = "이름은 {0}이고, 나이는 {2}세이며, 전화번호는 {1}입니다..".format(name,phone,age) #숫자는 인자의 인덱스 순서 소개 = "이름은 {a}이고, 나이는 {b}세이며, 전화번호는 {c}입니다..".format(a = name,b=age,c=phone) 소개 = f"이름은 {name}이고, 나이는 {age}세이며, 전화번호는 {phone}입니다.." 4줄 모..

04. 문자열 함수

파이썬에서도 문자열과 관련된 유용한 함수가 많다. len()은 문자열의 길이를 알려주는 함수다. >>> len('helloworldpython') 16 join()은 문자열을 음절 단위로 쪼개서 원하는 문자로 연결해준다. >>> '-'.join('HelloWorldPython') 'H-e-l-l-o-W-o-r-l-d-P-y-t-h-o-n' >>> '-'.join('12345') '1-2-3-4-5' split()은 인자에 들어있는 문자를 기준으로 문자열을 쪼개어 리스트로 출력해준다. >>> 'Hello-world-Python'.split('-') ['Hello', 'world', 'Python'] >>> '서울시 마포구 상암동 1585'.split() ['서울시', '마포구', '상암동', '1585']..

06. 비정형데이터 읽어오기 - scan(), readLines(), read.csv(), 엑셀파일 불러오기

R에서 작업 파일을 불러와야 한다면 사용할 수 있는 함수가 여럿 있다. 일단 작업 환경부터 설정을 하자. 추가적으로 텍스트 파일을 불러올 때 파일의 인코딩이 UTF-8 인지 ANSI인지 확인을 하자. UTF-8인 경우에는 함수의 옵션에 인코딩 옵션을 추가해줘야 한다. > getwd() [1] "C:/Users/sohyeon/Documents" > setwd("C:/Users/sohyeon/Desktop") > getwd() [1] "C:/Users/sohyeon/Desktop" scan() 함수 옵션 없이는 파일은 한 어절 단위로 읽어들이는 함수이다. 문장 단위로 읽어들이고 싶다면 sep 옵션을 사용하도록 하자. 문서가 문자열로만 이루어졌다면 what 옵션을 추가해줘야 한다. > a a [1] "안녕하세..

간단 지식/R 2021.06.24

05. plot(), par(), points(), lines() 함수

아무래도 R언어는 structure 구축이나 software 개발보다는 데이터를 시각화하는 것에 주력인 언어이기 때문에 그와 관련된 함수에 대해 알 필요가 있다. plot() 함수 그래프를 그려주는 함수이다. 형태: plot(x, y, option) option: main = 그래프제목, sub = 그래프부제목, xlab = x축 제목, ylab = y축 제목, type = plot의 형태, axes = 테두리선, col = plot의 색상 type: 'p' = 점 그래프, 'l' = 선 그래프, 'o' = 점이 선과 중첩되며 통과하는 그래프, 'h' = 히스토그램처럼 수직선 형태, 's'/'S' = 계단형 그래프 > age level plot(age, level, main="나이와 레벨", xlab="..

간단 지식/R 2021.06.24

04. vector, matrix, list, data frame

Vector Java나 C에 배열이 있다면 R에는 벡터(vector)가 존재한다. 벡터는 여러건의 데이터를 1차원의 한 열로 관리한다. > var1 var1 [1] 1 2 3 > is.vector(var1)#var1이 벡터인가 [1] TRUE > 2 %in% var1#벡터 var1에 element 2가 있는가 [1] TRUE 벡터 역시 특정 index의 값을 가져올 수 있으며, python처럼 slicing 기능이 있다. > var2 var2[2] [1] "껌" > var2[-2] #특정 행 빼고 조회 [1] "과자" "주스" > var2[2:3] #범위 조회 [1] "껌" "주스" > var2[-1:-3] #범위 빼고 조회 character(0) 차이점이 있다면 배열과 달리 벡터끼리는 연산자를 활용해서..

간단 지식/R 2021.06.24
반응형