2018-01-24 TIL WPS 13.웹 크롤링 보충

HTTP에서 가장 많이 쓰는 메소드

Get, Post, Delete, Put

response = requests.get(“https://www.melon.com/) print(response)

결과 : Response [200]

제대로 된 응답이 왔을 때 200의 숫자를 받는다

response = requests.get(“https://www.melon12341234.com/)

결과 : Response [404]

  • List of HTTP status codes
codes status
1xx Infrormational responses
2xx Success
3xx Redirection
4xx Client errors
5xx Server errors

각 response와 request에는 헤더와 바디가 존재하는데 헤더에는 통신을 주고받기 위한 정보들이 들어있고 실제로 주고 받는 내용은 바디에 담겨져있다.

response.content : 바디의 내용을 바이트 형태로 받는다. 공백 문자들까지 \t, \n 등으로 표시 response.text : 바디의 내용을 스트링 형태로 받는다.

re.S = re.DOTALL : 공백 문자를 포함한 모든 것을 다 반환시킴.

match는 처음부터 다 글자가 맞아야 찾아지고 search는 그냥 중간부터 글자가 맞아도 찾는다.

정규표현식 연습하기 사이트 https://regexone.com

Comments