크롤링 대상 : 네이터 카페의 자동차 관련 커뮤니티들

사용 언어: 파이썬

🛠 기술 스택

⚙️ 기능

  1. 특정 시간마다 크롤링
    1. 크롤링할 사이트는 DB에서 불러와서 사용
    2. 빠른 크롤링을 위해서 해당 작업을 병렬로 수행되도록 구현(안되면 싱글 스레드로 구현)
    3. 크롤링을 할 때 혹시 모를 상황에 대비하여 예외처리를 최대한 보수적으로 해야함.
  2. 자연어 처리를 이용한 학습 모델로 유사도 검사 및 RO 정보 매칭
    1. One To Many relaction을 만들어서 좀 더 다양한 기능을 구현하는 것도 또 하나의 대안
    2. 저장된 데이터는 분리된 게시판 서버도 사용하기 때문에 DB 아키텍처에 대한 공부가 필요해보임

Entity

Crawl

Post

step

  1. (Crowl data로 DB에 저장되어 있는) 선정된 카페들로부터 Data를 크롤링

    (모두 크롤링,단 하루 분량 게시글만 가져오기)

  2. 자연어 처리 → 유사도 분석을 통해 RO정보 매칭

  3. 특정 기준(ex. 유사도 퍼센트)에 부합한 게시글만 Post 객체로 DB에 저장