1. 셀레니움 만으로 로그인하기 2. 장고 템플릿을 통해 입력받아 로그인하기 3. 로그인 결과창에 맞는 정보 크롤링 그래서 왜 셀레니움인가? 잘 알려진 크롤링, 스크래핑 관련 웹 드라이버는 beautifulSoup4와 셀레니움이 있다. 내가 느낀 이 둘의 큰 특징은 beautifulSoup4: 아주 상당한 속도!! 하지만 오직 정적 데이터(html 등 데이터가 정적으로 유지되는)만 크롤링 가능. selenium: 아주 느린 속도... 하지만 자바스크립트 등 휙휙 변하는 동적 데이터도 크롤링이 가능하다! 그래서 로그인만 bs4를 사용하고 그 이후의 크롤링은 selenium으로 이용할 수 없을까 생각도 해 보았으나, 그러한 예시는 어디에도 없었다. 때문에 어쩔 수 없이 selenium을 사용하게 됐다. 로그..
1. 웹스크래핑 이란 웹에서 원하는 데이터를 뽑아내는 것이다. 예를 들어, 페이스북 댓글 이벤트를 진행한다고 하자. 그렇다면 해당 페이스북 댓글창이 보이는 상태에서 이름에 해당하는 부분만 스크랩하는 것이다. 이는, html의 특정 태그, 아이디, 클래스를 선택함으로 가능하다. 2. 준비물 파이썬, BeautifulSoup, 구글 크롬 3. 방법 바로 실습으로 알아보자. (원래 예제로 네이버 실시간 검색어 순위를 스크래핑 하려 했으나 2020년 1월 17일 부로 네이버가 ajax 방식으로 변경했기 때문에, 본문에서 원하는 방식의 스크래핑은 불가하다는 것. 대신 다른 형식으로 json을 불러와 읽을 수 있다. 해당 코드는 아래 링크에 참고.) 201108 수정) beautifulsoup로 크롤링 하는 방식은..
- Total
- Today
- Yesterday
- vscode venv
- nextjs 스크롤
- 파이썬 정렬
- bs4 크롤링
- 카페음료테스트
- 파이썬 flask
- 움직이는 글래스모피즘
- 글래스모피즘 구현
- getserversideprops redirect
- 화이팅
- 글래스모피즘 애니메이션 구현
- next.js 리다이렉트
- 백준 10989 파이썬
- react router
- dvd 효과
- 10989 파이썬
- css marquee
- 리액트
- nextjs 파라미터 넘기기
- Til
- 리액트 스크롤
- nuxt 공식문서
- NextJS
- css 글래스모피즘
- 리액트 컴포넌트
- 리액트 라우터
- 자바스크립트
- 리액트 파라미터 넘기기
- nuxt 공식문서 한글
- 파이썬 크롤링
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |