구글시트 IMPORTHTML 함수: 테이블과 목록 웹 스크래핑

구글시트 IMPORTHTML 함수: 테이블과 목록 웹 스크래핑

구글시트의 IMPORTHTML 함수는 웹 페이지의 테이블과 목록 데이터를 스크래핑하여 구글시트에 가져오는 기능을 제공합니다. 별도의 웹 스크래핑 도구나 복잡한 코드 없이도 간편하게 웹 데이터를 시트에 가져올 수 있습니다.

IMPORTHTML 함수의 개요

IMPORTHTML 함수는 웹 페이지의 테이블 또는 목록 형태의 데이터를 구글시트로 가져오는 함수입니다. 특히, 데이터 분석이나 주기적인 웹 데이터 모니터링에 유용하게 사용됩니다.

=IMPORTHTML(URL, 검색어, 색인, 언어)

함수 설명

  1. URL: 검토할 페이지의 URL을 입력합니다. (프로토콜(예: http://) 포함)
  2. 검색어: 원하는 데이터를 포함하는 구조의 유형을 입력합니다. “목록” 또는 “표” 중에서 선택합니다.
  3. 색인: 반환되어야 하는 HTML 소스에 정의된 표 또는 목록을 확인하는 색인 번호를 입력합니다. 색인 번호는 ‘1’에서 시작합니다.
  4. 언어: 데이터를 파싱할 때 사용할 언어 및 지역 언어 코드를 입력합니다. 지정하지 않으면 문서 언어가 기본으로 사용됩니다.

IMPORTHTML 함수 사용 예제

네이버 증권 웹 페이지로부터 코스피 지수 정보 가져오기

네이버 증권 웹 페이지를 활용하여 코스피 지수의 테이블 정보를 가져오는 과정을 설명하겠습니다.

1. 먼저, 네이버 증권의 코스피 지수 정보 웹 페이지를 엽니다.

2. 웹 페이지 내에서 개발자 도구(F12)를 연 후, 찾기(Ctrl + F)를 활용하여 “<table”을 검색하여 원하는 테이블을 위치시킵니다.

3. 해당 테이블이 전체 페이지 내에서 몇 번째 table에 해당하는지 확인합니다. (이 예제에서는 2번째 table이 원하는 정보를 담고 있습니다.)

네이버 증권 웹 페이지의 코스피 지수 테이블 위치


4. 위에서 확인한 테이블 번호를 기반으로 IMPORTHTML 함수를 활용하여 정보를 가져옵니다.

=IMPORTHTML("https://finance.naver.com/sise/sise_quant.naver", "table", 2)
IMPORTHTML 함수를 통해 가져온 코스피 지수 테이블


참고: 이 함수를 사용하여 웹 데이터를 구글시트에 가져온 후, 다양한 분석 및 시각화 작업을 진행할 수 있습니다. 다만, 웹사이트의 구조 변경이나 접근 제한에 따라 동작하지 않을 수 있으므로 주기적인 확인이 필요합니다.

관련 이전 게시글


구글시트의 IMPORTHTML 함수는 웹 데이터의 스크래핑을 간단하게 해주며, 다양한 웹 데이터 분석 작업에 활용될 수 있습니다. 다음 글에서는 또 다른 유용한 함수에 대해 알아보겠습니다. 이 글이 도움이 되셨다면 공유 부탁드립니다!

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

위로 스크롤