-
웹 소켓으로 주고받는 데이터 크롤링하기(In GOPAX Notice)Portfolio/인증과 크롤링 2019. 2. 21. 23:17728x90
얼마전 블로그 방명록에서
본인이 크롤링을 하고 있는데, https://www.gopax.co.kr/notice 에서 크롤링을 실패했다
는 글이 있었습니다.
해당 페이지에 가서 확인해보니 최초 응답으로 받은 웹 페이지에서도 데이터를 찾을 수 없었고,
개발자 도구의 네트워크 탭에서 API로 요청하는 부분도 바로 찾을 수 없었습니다.
GOPAX 페이지가 깔끔하게 만들어져 있고, 웹 소켓을 썼을 것 같은 느낌이 들어서
요청을 하나씩 확인해 보다가 웹 소켓을 이용해 데이터를 주고받는 부분을 발견했습니다.
그래서 해당 요청을 분석해서 필요한 데이터에 접근할 수 있었습니다.
이 과정을 영상으로 만들어 보았습니다.
물론 영상은 분석 후 크롤링에 성공한 상태에서 제작하였습니다.
확인해본 결과 유튜브에는 영문, 국문 포함해서
웹 소켓에 대한 크롤링을 분석한 영상은 없는 것 같습니다.
'Portfolio > 인증과 크롤링' 카테고리의 다른 글
Facebook 쿠키를 이용해 로그인하면 2단계 인증이 우회된다. (21) 2019.01.07 Facebook 쿠키 분석 (c_user, xs) (22) 2019.01.06 Daum 쿠키 분석 (HM_CU, HTS, PROF, TS, LSID) (0) 2018.12.31 Youtube 쿠키 분석 (HSID, SID, SSID) (0) 2018.12.25 NID_AUT와 NID_SES 쿠키를 이용한 네이버 로그인 처리 (4) 2018.12.21 Referer를 이용한 네이버 웹툰 크롤링 (0) 2018.12.18