파이썬 마법 학교 48강: 보물 찾기 집게! ‘뷰티풀수프’로 정보 쏙쏙 뽑기

안녕하세요! 가족과 함께하는 스마트 라이프입니다. 지난 시간에 웹사이트 성문에 도착해 문을 여는 법을 배웠죠? 그런데 성안에 들어가 보니 코드가 너무 복잡해서 어디에 보물이 있는지 찾기가 힘들 거예요. 그래서 오늘은 마법 돋보기와 강력한 집게를 준비했습니다. 바로 ‘뷰티풀수프(BeautifulSoup)’ 마법입니다!

1. 뷰티풀수프는 ‘마법 돋보기’예요

웹사이트의 설계도인 HTML은 마치 아주 복잡한 미로와 같아요. 글자들이 빽빽하게 적혀 있죠. 이때 뷰티풀수프 요정을 부르면, 이 요정은 돋보기를 들고 우리가 원하는 태그(이름표)를 순식간에 찾아내요. “여기 <title>이라고 적힌 상자에 제목이 들어있어!”라고 알려주는 것이죠.

2. 보물을 집어 올리는 주문: find와 select

원하는 정보를 찾았다면 이제 집게로 집어 올려야겠죠? 뷰티풀수프에는 두 가지 강력한 집게 주문이 있어요.

soup.find(“h1”): “h1이라는 이름표를 단 상자 중 가장 첫 번째 걸 가져와!”
soup.select(“.title”): “제목(title)이라는 딱지가 붙은 모든 보석을 다 담아줘!”

3. 실전 연습: 웹사이트 제목 쏙 뽑아내기

파이썬으로 웹사이트의 제목만 골라내는 마법을 부려볼까요? (beautifulsoup4 설치가 필요해요!)

import requests
from bs4 import BeautifulSoup

# 1. 탐험할 주소로 가서 설계도 가져오기
url = "https://www.google.com"
response = requests.get(url)
html = response.text

# 2. 뷰티풀수프 요정 소환! (설계도 분석 시작)
soup = BeautifulSoup(html, 'html.parser')

# 3. '제목' 보물 집어 올리기
title_tag = soup.find("title")

# 4. 이름표는 버리고 '알맹이 글자'만 보여주기
print(f"💎 찾은 보물: {title_tag.text}")
print("와! 구글 성의 제목 보석을 획득했습니다!")

4. 크롤링 요정이 똑똑해지는 법

단순한 제목 말고, 더 많은 정보를 가져오려면 ‘주소지(CSS 선택자)’를 잘 알아야 해요. 웹사이트의 모든 글자에는 자기만의 방 주소가 있거든요. 예를 들어 ‘오늘의 뉴스’는 #news_box라는 방에 살고 있을 수도 있죠. 우리가 이 주소만 정확히 알려주면 뷰티풀수프 요정은 절대 길을 잃지 않아요.

5. 가족과 함께하는 ‘웹사이트 숨은 그림 찾기’

아이와 함께 즐겨 찾는 웹사이트(예: 네이버 뉴스, 날씨 사이트)에 접속해서 F12 키를 눌러보세요. 갑자기 나타나는 복잡한 코드 창을 보고 놀랄 수도 있지만, “우리가 가져오고 싶은 글자 위에 마우스를 올리면 어떤 영어 이름표(태그)가 붙어있는지 봐봐!”라고 미션을 주는 거예요. 아이는 화면 뒤에 숨겨진 구조를 관찰하며 ‘세상의 모든 정보가 논리적인 주소로 이루어져 있다’는 것을 배우게 됩니다.

마치며: 정교한 수집가의 탄생

오늘 우리는 복잡한 코드 더미에서 진짜 필요한 알맹이만 쏙 뽑아내는 기술을 익혔습니다. 이제 여러분은 단순히 데이터를 보는 사람이 아니라, 원하는 것만 골라 담는 전문 수집가예요! 다음 시간에는 수집한 정보를 엑셀처럼 예쁘게 정리해서 저장하는 ‘데이터 정리 왕’ 마법을 배워보겠습니다!

1. 뷰티풀수프는 ‘마법 돋보기’예요

2. 보물을 집어 올리는 주문: find와 select

3. 실전 연습: 웹사이트 제목 쏙 뽑아내기

4. 크롤링 요정이 똑똑해지는 법

5. 가족과 함께하는 ‘웹사이트 숨은 그림 찾기’

마치며: 정교한 수집가의 탄생

관련 게시물

파이썬 코딩 학교 챌린지 #72: 뱅글뱅글! ‘화려한 기하학 패턴 그리기’

파이썬 게임 학교 챌린지 #70: 최종 보스! ‘소리까지 완벽한 진짜 게임 완성하기’

파이썬 크롤링 학교 챌린지 #64: 자동 조종 마법! ‘Selenium으로 내 마음대로 웹 제어하기’