大家好,欢迎来到IT知识分享网。
一、叙述(故事开端)
前某天,学姐约我偷偷的出去玩,说请我看电影emmm。。。。这没什么,那就去呗嘿嘿嘿~

去??
去了我就后悔了,原来是找了一个公园,坐着看手机上的电影
喂着蚊子,流着汗,看着无聊的电影,关键是她不上让我闲着,让我给她扇风赶蚊子(我出来玩了个寂寞???)
看完了还请我吃了个六块钱一碗的麻辣烫,然后然后这是卖身的第一步
吃完饭后,我俩谈话:
学姐 : (面露猥琐的看着我好久) 学弟~硬不硬呀
我 :啊????硬???
学姐 : 哎呀怎么说话呢,我请你看电影,我多好,对不对,我呢,就有一点点点点小事
学姐 : 最近我老师给我安排了一个小任务,分析一下近几年的票房排行,你看你又会爬虫,给我爬点数据下来呗
二、苦逼由此开始
于是我开始了长达20分钟的卖身环节,痛苦卖身之路由此开始。找数据,想的是票房的话,应该是猫眼电影才有排行吧
于是就找到了这个网站:https://piaofang.maoyan.com/mdb/rank
大概的页面是这样:
– 页面分析
– 详情页URL分析
https://piaofang.maoyan.com/mdb/rank/query?type=0&id=0 这个就是单独的,是票房总榜单页
不过我没有爬这个,也没太大的用处
– 用到的模块
requests、csv,pandas、matplotlib
– 重点内容
import requests
import time
import random
import csv
class PiaofangSpider:
def __init__(self):
self.url = 'https://piaofang.maoyan.com/mdb/rank/query?type=0&id={}'
self.f = open('piaofang.csv', 'w', encoding='utf8', newline='')
self.writer = csv.writer(self.f)
# 写入表头行
data_list = ('电影名称', '上映时间', '票房', '平均票价', '场均人数')
self.writer.writerow(data_list)
def get_html(self, url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36',
}
html = requests.get(url=url, headers=headers).json()
self.parse_html(html)
def parse_html(self, html):
# 提取动态加载的数据
result = html['data']['list']
for res in result:
item = {
}
item['movieName'] = res['movieName']
item['releaseInfo'] = res['releaseInfo']
item['boxDesc'] = res['boxDesc']
item['avgViewBoxDesc'] = res['avgViewBoxDesc']
item['avgShowViewDesc'] = res['avgShowViewDesc']
print(item)
self.writer.writerow(item.values())
def run(self):
for i in range(2011, 2022):
url_html = self.url.format(i)
self.get_html(url=url_html)
time.sleep(random.randint(1, 2))
self.f.close()
if __name__ == '__main__':
spider = PiaofangSpider()
spider.run()
我还看了一下,这个网页挺神奇的,也可以正常在html里面抓取内容
用xpath、正则什么的提取数据,爬完我才发现的。。。苦逼哎还分析了很长时间的抓包
数据分析图。。。
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
%matplotlib inline
# 读取文件
data=pd.read_csv('piaofang.csv')
data.head(10)
# 取出年份列year
data['year'] = data['上映时间'].apply(lambda x: int(x[0:4]))
data
# 票房排名前十的电影
data.sort_values(by=['票房'],ascending=False).head(10).plot.bar(x='电影名称',y='票房',title='票房最高排行前10')
# 每年上映电影数量
fig=plt.figure(dpi=120)
groupby_year = data.groupby('year').size()
groupby_year.plot(title = '每年上映电影数量')
plt.show()
# 每年总票房
fig=plt.figure(dpi=120)
sum_money = data.groupby('year')['票房'].sum()
sum_money.plot.bar(title = '每年总票房')
plt.show()
三、我直接原地爆炸
最后最后重磅的一击:
这老娘们竟让背着我接单,我好亏啊,我从头到尾都是帮她在挣钱,自己啥也得不到,巨亏呀~
可能我这辈子就是个打工人~
|
|
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/105947.html




