본문 바로가기

Python7

[Python] 인코딩 에러(UTF8, CP949) 해결 txt로 되어있는 데이터 파일을 불러오던 도중 종종 맞닥뜨리는 짜증나는 상황이 다시 한번 발견되었다. 더 이상 데이터 처리 과정에서 구글링에 애먹지 말자고 다짐하였기에, 해당 에러의 의미를 파헤치기로 했다. UTF-8? UTF-8은 전 세계적으로 가장 많이 사용되는 가변 길이 유니코드 인코딩이다. 유니코드? 가변길이? 천천히 알아보자 유니코드 : 전 세계의 모든 문자를 다루기 위해 설계된 표준 문자 전산 처리 방식. 많이 들어본 ASCII코드 또한 유니코드이다. 가변길이 유니코드 : 유니코드 한 문자를 나타내기 위해 UTF-8은 1byte ~ 4byte까지 사용 가능하며, 이를 가변 길이 인코딩 방식이라고 한다. 언어마다(국가마다) 인코딩 방법이 다르고, 한글을 위한 유니코드 또한 따로 존재한다. 그것이.. 2022. 12. 22.
Jupyter Notebook과 Git 연동 내가 코딩했던 모든 기록들을 앞으로 Github에 남기고자 한다. 하지만 Github에 들어갈 때 마다 항상 벙찌고,,,, 어떻게 해야할 지 몰라서 구글이나 유튜브를 뒤지게 된다. 앞으로 헷갈릴 때마다 내 블로그를 참고하여 시간낭비를 하지 않고자 정리하려 한다. 해당 포스팅은 Anaconda와 Jupyter Notebook, Git bash가 설치되어있다는 전제하에 쓴다. 이번 장에서는 기본적인 Git의 기초문법과 원격저장소의 활용을 포스팅해보겠다. GIt 사전준비 0, (윈도우의 경우 : git bash를 설치) 로컬 설정 $ git config --global user.name 'chanyoung98' $ git config --global user.email 'cksdud02@gmail.com' 처.. 2022. 7. 1.
[Python] 날짜 처리 방식 strftime(), strptime() 객체에서 문자열로의 변환은 strftime(), 문자열에서 객체로의 변환은 strptime()이 사용된다. strftime(), strptime 메서드에 주로 사용되는 서식을 먼저 살펴보겠다. ◆ %d : 0을 채운 10진수 표기로 날짜를 표시 ◆ %m : 0을 채운 10진수 표기로 월을 표시 ◆ %y : 0을 채운 10진수 표기로 2자리 년도 ◆ %Y : 0을 채운 10진수 표기로 4자리 년도 ◆ %H : 0을 채운 10진수 표기로 시간 (24시간 표기) ◆ %I : 0을 채운 10진수 표기로 시간 (12시간 표기) ◆ %M : 0을 채운 10진수 표기로 분 ◆ %S : 0을 채운 10진수 표기로 초 ◆ %f : 0을 채운 10진수 표기로 마이크로 초 (6자리).. 2021. 7. 17.
[Python] 정규 표현식(3) re 모듈 파이썬은 정규 표현식을 지원하기 위해 re 모듈을 제공한다. import re p = re.compile('ab#') re.compile을 사용하여 정규 표현식(위 예에서는 ab*)을 컴파일한다. re.compile의 결과로 돌려주는 객체 p를 사용하여 그 이후의 작업을 수행할 것이다. *컴파일이란 어떤 언어의 코드를 다른 언어로 바꿔주는 과정. 대표적인 예는 C++ 코드를 기계어로 바꿔주는 것이다. 정규식을 사용한 문자열 검색 컴파일된 패턴 객체는 다음과 같은 4가지 메서드를 제공한다. -match() : 문자열의 처음부터 정규식과 매치되는지 조사 -search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사 -findall() : 정규식과 매치되는 모든 문자열(substring)을 .. 2021. 7. 8.