네이버 카페 크롤링 서버 구축(폐기) | Notion

크롤링 대상 : 네이터 카페의 자동차 관련 커뮤니티들

사용 언어: 파이썬

🛠 기술 스택

python or java
selenium(crowling)

⚙️ 기능

특정 시간마다 크롤링
1. 크롤링할 사이트는 DB에서 불러와서 사용
2. 빠른 크롤링을 위해서 해당 작업을 병렬로 수행되도록 구현(안되면 싱글 스레드로 구현)
3. 크롤링을 할 때 혹시 모를 상황에 대비하여 예외처리를 최대한 보수적으로 해야함.
자연어 처리를 이용한 학습 모델로 유사도 검사 및 RO 정보 매칭
1. One To Many relaction을 만들어서 좀 더 다양한 기능을 구현하는 것도 또 하나의 대안
2. 저장된 데이터는 분리된 게시판 서버도 사용하기 때문에 DB 아키텍처에 대한 공부가 필요해보임

Entity

Crawl

카페 이름
게시판(Optional)

Post

제목
작성자
작성일자
작성 카페 + 게시판
내용(only text)
유사도

step

(Crowl data로 DB에 저장되어 있는) 선정된 카페들로부터 Data를 크롤링

(모두 크롤링,단 하루 분량 게시글만 가져오기)
자연어 처리 → 유사도 분석을 통해 RO정보 매칭
특정 기준(ex. 유사도 퍼센트)에 부합한 게시글만 Post 객체로 DB에 저장