안녕하세요! 저번에도 업무자동화 독학 가능하냐고 질문 올렸었는데 많이들 친절하게 알려주셔서 감동먹었었어요..! 감사드려요 ㅎㅎ
지금 도서관에서 사회복무요원으로 복무 중인데 주요 업무 중 하나가 새로 나온 책들 제목, 저자, 출판사 가격 등의 정보를 인터넷에서 엑셀로 복사 붙히기 하는거예요. 이런식으로요!
제목 | 저자 | 출판사 | 표지 | 가격 | ISBN | 출판일 |
The Mamba Mentality: How I Play | Kobe Bryant | Farrar, Straus and Giroux | Hardcover | $35.00 | 9780374201234 | 10/23/2018 |
The Reckoning | John Grisham | Knopf Doubleday Publishing Group | Hardcover | $29.95 | 9780385544153 | 10/23/2018 |
근데 신간들이 한 두권 있는 것도 아니고, 매일 하려니까 하루에 100권도 찾고 손목이랑 눈이 너무 아프더라구요 ㅠㅠ 알아보니까 파이썬으로 웹 크롤링이라는 걸 하면 업무자동화 할 수 있다길래 공부시작했어요. 프로그래밍은 완전 처음이라 완전자동화는 힘들 것 같아서 조언해주신대로 반자동을 목표로 일단 시작을 했어요. 그래도 혼자 하다보니까 막히는 부분이 많더라구요... 그래서 질문 좀 드릴께요! (쌩초보라 질문하는 법도 잘 모르겠네요..)
저는 두가지 코드를 작성했어요. 첫번째는 메인 페이지에서 상세페이지 링크들을 뽑는 코드고, 두번째는 그 링크들을 넣고 돌리면 제가 원하는 책 정보들이 나오는 코드예요. 제가 질문하고싶은 것은 이 두 코드를 하나로 합치는 법이예요. 할 수 있을 것 같은데 어떻게 해야하는지 모르겠어요... ㅠㅠ
여기에 들어가보시면 최근 3개월동안 나온 책들을 잘 팔리는 순서대로 뽑은 목록이 나와요. 저는 아래의 코드(Barnes&Noble_1)로 이 페이지에서 각각의 책들의 상세페이지 링크들을 뽑았어요. 제가 필요한 정보들은 상세페이지 안에 있거든요.
----------------------------------------------Barnes&Noble_1-------------------------------------------------
urls안에 원하는 페이지 수 만큼 주소 넣고 돌리면 링크들이 이렇게 쭉 나와요.
그리고 이 링크들을 복사해서 아래의 코드(Barnes&Noble_2)에 붙여넣고 돌려서 제가 원하는 제목, 저자, 가격 등의 정보를 뽑았어요.
----------------------------------------------Barnes&Noble_1-------------------------------------------------
import requests
import bs4
def get_book_info(url):
result = requests.get(url)
bs_obj = bs4.BeautifulSoup(result.content, "html.parser")
table = bs_obj.find("table", {"class": "plain centered"})
table_detail = table.findAll("td")
contributors = bs_obj.find("span", {"class":"contributors"})
publisher_blank = table_detail[1].text.split("\n")
title = bs_obj.find("h1", {"class":"pdp-header-title"}).text
author = contributors.find("a").text
publisher = publisher_blank[1]
price = bs_obj.find("s", {"class": "old-price"}).text
cover = bs_obj.find("h2", {"id":"pdp-info-format"}).text
isbn = table_detail[0].text
date = table_detail[2].text
return {"제목":title, "저자":author, "출판사":publisher, "정가":price, "표지":cover, "ISBN":isbn, "출판년":date}
urls = ['https://www.barnesandnoble.com/w/the-mamba-mentality-kobe-bryant/1128756303?ean=9780374201234', 'https://www.barnesandnoble.com/w/the-reckoning-john-grisham/1128754609?ean=9780385544153', 'https://www.barnesandnoble.com/w/every-breath-nicholas-sparks/1128233010?ean=9781538715772', 'https://www.barnesandnoble.com/w/ship-of-fools-tucker-carlson/1128709155?ean=9781501183669', 'https://www.barnesandnoble.com/w/the-dubrow-diet-heather-dubrow/1128262978?ean=9781939457714', 'https://www.barnesandnoble.com/w/cook-like-a-pro-ina-garten/1128573617?ean=9780804187046', 'https://www.barnesandnoble.com/w/racing-to-the-finish-dale-earnhardt-jr/1128128133?ean=9780785221609', 'https://www.barnesandnoble.com/w/gmorning-gnight-lin-manuel-miranda/1129098589?ean=9781984854278', 'https://www.barnesandnoble.com/w/the-happy-cookbook-steve-doocy/1128106540?ean=9780062838940', 'https://www.barnesandnoble.com/w/dare-to-lead-bren-brown/1129054835?ean=9780399592522', 'https://www.barnesandnoble.com/w/unsheltered-barbara-kingsolver/1127834367?ean=9780062887047', 'https://www.barnesandnoble.com/w/the-next-person-you-meet-in-heaven-mitch-albom/1128018113?ean=9780062874313', 'https://www.barnesandnoble.com/w/a-spark-of-light-jodi-picoult/1128106313?ean=9781984800671', 'https://www.barnesandnoble.com/w/killing-the-ss-bill-oreilly/1128533650?ean=9781250165541', 'https://www.barnesandnoble.com/w/the-clockmakers-daughter-kate-morton/1128249250?ean=9781982113940', 'https://www.barnesandnoble.com/w/shook-one-charlamagne-tha-god/1128615643?ean=9781501193255', 'https://www.barnesandnoble.com/w/the-laws-of-human-nature-robert-greene/1128233534?ean=9780525428145', 'https://www.barnesandnoble.com/w/the-gift-that-i-can-give-kathie-lee-gifford/1128128162?ean=9781400209248', 'https://www.barnesandnoble.com/w/the-bullet-journal-method-ryder-carroll/1128106231?ean=9780525533337', 'https://www.barnesandnoble.com/w/fear-bob-woodward/1129202161?ean=9781501175510', 'https://www.barnesandnoble.com/w/brief-answers-to-the-big-questions-stephen-hawking/1128751044?ean=9781984817723', 'https://www.barnesandnoble.com/w/the-tattooist-of-auschwitz-heather-morris/1127027624?ean=9780062797155', 'https://www.barnesandnoble.com/w/ambush-james-patterson/1127922385?ean=9780316273985', 'https://www.barnesandnoble.com/w/the-witch-elm-tana-french/1128330704?ean=9780735224629', 'https://www.barnesandnoble.com/w/the-sun-and-her-flowers-kaur-rupi/1129162336?ean=9781449495763', 'https://www.barnesandnoble.com/w/the-whole30-slow-cooker-melissa-hartwig/1128516874?ean=9781328531049', 'https://www.barnesandnoble.com/w/where-the-crawdads-sing-delia-owens/1127681226?ean=9780735219090', 'https://www.barnesandnoble.com/w/them-ben-sasse/1128271920?ean=9781250193681', 'https://www.barnesandnoble.com/w/presidents-of-war-michael-beschloss/1127750846?ean=9780307409607', 'https://www.barnesandnoble.com/w/all-about-cake-christina-tosi/1127834028?ean=9780451499523', 'https://www.barnesandnoble.com/w/lethal-white-robert-galbraith/1129059866?ean=9780316422734', 'https://www.barnesandnoble.com/w/shade-pete-souza/1128829317?ean=9780316421829', 'https://www.barnesandnoble.com/w/leaders-stanley-mcchrystal/1128233494?ean=9780525534372', 'https://www.barnesandnoble.com/w/the-noma-guide-to-fermentation-rene-redzepi/1128830166?ean=9781579657185', 'https://www.barnesandnoble.com/w/holy-ghost-john-sandford/1127901865?ean=9780735217324', 'https://www.barnesandnoble.com/w/not-quite-over-you-susan-mallery/1127630722?ean=9781335474636', 'https://www.barnesandnoble.com/w/in-pieces-sally-field/1127786169?ean=9781538763025', 'https://www.barnesandnoble.com/w/andrew-jackson-and-the-miracle-of-new-orleans-brian-kilmeade/1126048980?ean=9780735213241', 'https://www.barnesandnoble.com/w/desperate-measures-stuart-woods/1127903027?ean=9780735219229', 'https://www.barnesandnoble.com/w/matty-matheson-matty-matheson/1128110558?ean=9781419732454']
for url in urls:
book_info_list = get_book_info(url)
print(book_info_list)
이렇게 딕셔너리 형태로 출력하는 것까지 했으니까, JSON이라는 걸 이용해서 보기 좋게 만든 다음 엑셀에 붙여넣으면 될 것 같아요. (아직 JSON 공부를 시작 안해서 어떨지는 모르겠지만요...)
웹 크롤링 작업할 때 이런식으로 파이썬 파일 여러개 만들어서 하는 것 맞나요? 아니면 그냥 하나의 파이썬 파일로 합칠 수도 있나요? 고수님들이 보시기에 어떤가요? 더 깔끔하게 표현 될 수 있을까요? 아니면 웹 크롤링 말고 더 효율적인 방법이 있을까요? (API라던가... 까마득하네요 휴) 그리고 제가 원하는 자료가 한 번에 엑셀로 저장되게 완전 자동화가 될 수도 있을까요?
긴 글 읽어주셔서 감사합니다!