Python과 머신러닝/웹 데이터 추출(12)
-
[Python.Web] BeautifulSoup과 wget 으로 웹크롤링, 데이터 스크레이핑
이전 포스트 2020/11/13 - [Python과 머신러닝/웹 데이터 추출] - [Python.Web] 정규표현식을 이용한 웹 데이터 파싱 - urllib, regular expression 2020/11/17 - [Python과 머신러닝/웹 데이터 추출] - [Python.Web] wget으로 웹 데이터 다운로드 및 파싱 - wget.download 2020/11/18 - [Python과 머신러닝/웹 데이터 추출] - [Python.Web] 실시간 금융 데이터 파싱하기 추출 2020/11/20 - [Python과 머신러닝/웹 데이터 추출] - [Python.Web] BeautifulSoup으로 하는 웹크롤링, 데이터 스크레이핑 [Python.Web] 정규표현식을 이용한 웹 데이터 파싱 - urllib..
2020.11.23 -
[Python.Web] BeautifulSoup으로 하는 웹크롤링, 데이터 스크레이핑
요약 XML이란 eXtensible Markup Language의 약자로 데이터의 구조와 의미를 설명하기 위해 Tag(Markup)를 사용하는 언어이다. HTML과 비슷하게 데이터가 정형화되어 있어 분석이 편리하고, 이를 더욱 쉽게 Parsing 하는 BeautifulSoup을 사용해보려 한다. 2020/11/13 - [Python과 머신러닝/웹 데이터 추출] - [Python.Web] 정규표현식을 이용한 웹 데이터 파싱 - urllib, regular expression 2020/11/17 - [Python과 머신러닝/웹 데이터 추출] - [Python.Web] wget으로 웹 데이터 다운로드 및 파싱 - wget.download 2020/11/18 - [Python과 머신러닝/웹 데이터 추출] - [..
2020.11.20 -
[Python.Web] 실시간 금융 데이터 파싱하기 추출
요약 URL로부터 정보를 뽑아오는 3번째 예제이다 (앞의 예제를 못 봤다면 참고해야 이해가 될 것이다) Python으로 웹사이트에서 데이터 추출하기 (urllib, regular expression) 웹사이트에서 원하는 형태의 데이터를 긁어오는 방법을 알아보자. 요약 1. 원하는 URL을 정한다. 2. URL로부터 모든 text를 string으로 읽어온다. 3. 내가 찾고자 하는 string을 regular expression 형태로 정 coding-grandpa.tistory.com 이번에도 비슷한 예제이지만, 조금은 더 실용적인 네이버 금융에서 금융정보를 뽑아오는 예제를 볼 것이다. 정답부터 보자면 다음과 같다 import re from urllib import request url = "https:..
2020.11.18 -
[Python.Web] wget으로 웹 데이터 다운로드 및 파싱 - wget.download
요약 2020/11/13 - [Python과 머신러닝/웹 데이터 추출] - [Python.Web] 정규표현식을 이용한 웹 데이터 파싱 - urllib, regular expression 한 웹사이트에서 여러 가지의 파일을 다운로드하고 싶을 때에, wget을 사용하여 한번에 다운 받는 프로그램을 짤 수 있다 이전에 정리한 내용에 이어서, 정규식을 사용하여 원하는 파일을 다운 받을 URL을 추출한 뒤, wget함수로 다운로드한다. 오늘의 예제는 이 링크를 기반으로 진행할 예정이다. 이 페이지는 미국의 특허 관련 문서들을 zip 파일로 정리해 두었는데, 이걸 하나하나 다운로드하지 않고 python 프로그램을 통해서 다운로드 해보자. 성격 급한 분들을 위한 선 정답 공개, 후 설명 [Python.Web] 정규표..
2020.11.17 -
[Python.Web] 정규표현식을 이용한 웹 데이터 파싱 - urllib, regular expression
웹사이트에서 원하는 형태의 데이터를 긁어오는 방법을 알아보자. 0. 요약 1. 원하는 URL을 정한다. 2. URL로부터 모든 text를 string으로 읽어온다. 3. 내가 찾고자 하는 string을 regular expression 형태로 정의한다. 4. re 라이브러리를 사용해서 원하는 text 부분들을 모두 추출한다. import re from urllib import request url="http://www.itemmania.com/notice/view.html?pub=PORTAL&type=all&nowPage=1&id=1542" html_str=str(request.urlopen(url).read()) #print(html_str) results = re.findall(r"\w+\*{3}",..
2020.11.13 -
보일러 플레이트(Boiler Plate) 이해하기
요약 BoilerPlate 코드란 모든 코드를 작성하기 위해 항상 필요한 부분을 의미한다. BoilerPlate는 다음 4가지로 구성되어 있다. Import : 필요한 코드를 불러들이는 부분 Component : 현 페이지를 구현하는 코드 StyleSheet : 페이지의 객체를 꾸미기 위한 style Export : 현 Javascript 코드를 타 Javascript에서 접근하기 위한 부분 용어 정의 코딩을 배우는 방법이 여러 가지 있겠지만, 그중 가장 쉽고 빠르게 결과를 만들 수 있는 방법은 바로 모방일 것이다. 간혹 전문서적을 보며 공부하시는 분들도 봤지만, 대부분의 경우는 블로그, 유튜브, 스펙 문서 등을 참고하여 '무작정' 짜다 보면 많은 부분을 이해하지 못하더라도 내가 원하는 대로 동작하게 만..
2020.10.31