본문 바로가기

분류 전체보기37

[Python] 정규 표현식(3) re 모듈 파이썬은 정규 표현식을 지원하기 위해 re 모듈을 제공한다. import re p = re.compile('ab#') re.compile을 사용하여 정규 표현식(위 예에서는 ab*)을 컴파일한다. re.compile의 결과로 돌려주는 객체 p를 사용하여 그 이후의 작업을 수행할 것이다. *컴파일이란 어떤 언어의 코드를 다른 언어로 바꿔주는 과정. 대표적인 예는 C++ 코드를 기계어로 바꿔주는 것이다. 정규식을 사용한 문자열 검색 컴파일된 패턴 객체는 다음과 같은 4가지 메서드를 제공한다. -match() : 문자열의 처음부터 정규식과 매치되는지 조사 -search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사 -findall() : 정규식과 매치되는 모든 문자열(substring)을 .. 2021. 7. 8.
[Python] 정규 표현식(2) 메타 문자(meta characters) : 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자 문자 클래스 [] 문자 클래스로 만들어진 정규식은 '[] 사이의 문자들과 매치'라는 의미를 갖음 즉, 정규 표현식이 [abc]라면 이 표현식의 의미는 'a,b,c 중 한 개의 문자와 매치'를 뜻함 정규식이 [abc]일 때 -문자열이 "a"일 경우 정규식과 일치하는 문자인 "a"가 있으므로 매치 -문자열이 "before"일 경우 정규식과 일치하는 문자인 "b"가 있으므로 매치 -문자열이 "dude"일 경우 정규식과 일치하는 문자가 없으므로 매치되지 않음 []안의 두 문자 사이에 하이픈(-)을 사용하면 두 문자 사이의 범위(From-To)를 의미. ex) [a-c]라는 정규 표현식은 [abc]와 동일 /.. 2021. 7. 8.
[Python] 정규 표현식(1) 정규 표현식(Regular Expressions)은 복잡한 문자열을 처리할 떄 사용하는 기법이다. 정규방정식이 왜 필요할까? 다음 문제를 보며 필요성을 느껴보자. 주민등록번호를 포함하고 있는 텍스트가 있다. 이 텍스트에 포함된 모든 주민등록번호의 뒷자리를 *문자로 변경해 보자. 981118-1122334 정석적인 방법은 1. 전체 텍스트를 공백 문자로 나눈다(split). 2. 나뉜 단어가 주민등록번호 형식인지 조사한다. 3. 단어가 주민등록번호 형식이라면 뒷자리를 *로 변환한다. 4. 나뉜 단어를 다시 조립한다. data = """ park 800905-1049118 kim 700905-1059119 """ result = [] for line in data.split("\n"): word_result.. 2021. 6. 29.
[핸즈온 머신러닝 정리] 1장. 배치 학습과 온라인 학습 앞 포스팅에서 머신러닝을 지도 학습, 비지도 학습, 강화 학습으로 나누어 보았다. 이는 '학습하는 동안의 감독 형태나 정보량'을 기준으로 분류한 것이다. 한편, 머신러닝은 '입력 데이터의 스트림(stream)으로부터 점진적으로 학습할 수 있는가?'에 따라 학습 방법을 크게 3가지로 나뉜다. 배치 학습(Batch Learning) 온라인 학습(Online Learning) 배치 학습 배치 학습에서는 시스템이 점진적으로 학습할 수 없으며, 가용한 데이터를 모두 사용해 훈련시켜야 한다. 먼저 시스템을 훈련시키고 그런 다음 제품 시스템에 적용하면 더 이상의 학습 없이 실행되게 때문에 학습한 것을 단지 적용만 하게 된다. 일반적으로 이 방식은 시간과 자원을 많이 소모하므로 보통 오프라인에서 수행한다. 그래서 '오.. 2021. 6. 26.