[21.04.01] node 크롤링

2021. 4. 1. 23:14오늘의 정리

반응형

사전 지식: request모듈, cheerio모듈 

(request모듈: 해당 페이지의 html을 모두 가져온다. cheeio모듈: 가져온 html에서 파싱을 해주는 기능을 해준다.)

 

위키백과에서 '자전거' 를 검색하고 관련 내용을 크롤링 하려고 한다.

 

const request = require("request");
const cheerio = require("cheerio");

const arr = {
  explanation: "",
};

const main = () => {
  request(
    `https://ko.wikipedia.org/wiki/%EC%9E%90%EC%A0%84%EA%B1%B0`,
    (err, res, body) => {
    // body 는 위 주소에서 가져오는 html의 정보들이다.
      const $ = cheerio.load(body);
      const crawling = $("div.mw-parser-output");
    // $("이 부분은 가져오고 싶은 사이트에 가서 개발자도구를 열어서 class 값을 찾아서 넣는다.")
      arr["explanation"] = crawling.find("p").text();
    // find()함수는 위에서 가져오고 싶은 class 값 하위에 있는 태그들을 찾는 기능을 한다.
      console.log("arr: ", arr);
    }
  );
};

main();

 

 

반응형

'오늘의 정리' 카테고리의 다른 글

[21.04.26] EIP 추가 하는 방법  (0) 2021.04.26
[21.04.08] aws cli  (0) 2021.04.08
[21.03.25] code-server 설정/ vi 에디터 문자열 치환  (0) 2021.03.25
[21.03.24] 포트  (0) 2021.03.24
[21.03.23] 리눅스 명령어  (0) 2021.03.23