Mengenal Library Pandas
Hai para pembaca pada kesempatan kali ini kita akan membahas tentang pandas, sebelumnya apa sih library pandas itu?
Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL.
Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah. Untuk lebih memahami apa saja yang ada dalam library Pandas
Pastikan telah menginstall library pandas terlebih dahulu. Jika belum gunakan pip atau conda untuk menginstallnya
pip install pandas
from bs4 import BeautifulSoup
import requests
import pandas as pd
data = []
# quotes di halaman 1 - 10
for page in range(1,11):
if page == 1:
url = "http://quotes.toscrape.com"
else:
url = "http://quotes.toscrape.com/page/"+str(page)
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
quotes = soup.find_all('div', class_='quote')
for q in quotes:
quote = q.find('span', class_='text').text
author = q.find('small', class_='author').text
tags = [tag.text for tag in q.find('div', class_='tags').find_all('a', class_='tag')]
data.append({
'quote': quote,
'author': author,
'tags': tags
})
df = pd.DataFrame(data)
df.to_csv('all_quotes.csv', index=False, encoding="utf-8")
Berikut merupakan hasilnya di Excel
Terimakasih telah membaca artikel berikut sampai akhir, semoga bermanfaat.
Komentar
Posting Komentar