Portfolio/인증과 크롤링
웹 소켓으로 주고받는 데이터 크롤링하기(In GOPAX Notice)
Foo
2019. 2. 21. 23:17
728x90
얼마전 블로그 방명록에서
본인이 크롤링을 하고 있는데, https://www.gopax.co.kr/notice 에서 크롤링을 실패했다
는 글이 있었습니다.
해당 페이지에 가서 확인해보니 최초 응답으로 받은 웹 페이지에서도 데이터를 찾을 수 없었고,
개발자 도구의 네트워크 탭에서 API로 요청하는 부분도 바로 찾을 수 없었습니다.
GOPAX 페이지가 깔끔하게 만들어져 있고, 웹 소켓을 썼을 것 같은 느낌이 들어서
요청을 하나씩 확인해 보다가 웹 소켓을 이용해 데이터를 주고받는 부분을 발견했습니다.
그래서 해당 요청을 분석해서 필요한 데이터에 접근할 수 있었습니다.
이 과정을 영상으로 만들어 보았습니다.
물론 영상은 분석 후 크롤링에 성공한 상태에서 제작하였습니다.
확인해본 결과 유튜브에는 영문, 국문 포함해서
웹 소켓에 대한 크롤링을 분석한 영상은 없는 것 같습니다.