忍了300多天,终于又等到了春节,即便是年纪又长了一岁,即使亲戚又要“关心”单身的我,也依然是愿意过年的。
因为在过年的时候,我的眼里没有工作,只有酒肉。对,就是这么无情。
今年,对春节对期待还有了加成,因为“春节档”。《疯狂的外星人》《飞驰人生》《流浪地球》《新喜剧之王》集中在春节档,几部电影看来都是暴脾气,春节档的华山论剑是势在必行了,坐看他们拼个你死我活。当然,这样的局面,作为观众的我们是喜闻乐见的。
话说,这几部电影还真的不简单啊,好像都很好看的样子,有人说《疯狂的外星人》要独领风骚,那我自然是不服的,杠精转世的我必然要研究研究。
所以,我网上搜索了一些平台给出的预测数据,此外,我还用我们FineBI中的数据挖掘功能对票房进行了预测。
对不起,我就是这么认真的人。
首先我看了百度百家号尚之潮的预测:2019春节档电影票房预测:外星人和流浪地球争冠军,沈腾成赢家
- 《疯狂的外星人》,预测票房30亿
- 《流浪地球》,预测票房20亿
- 《飞驰人生》,预测票房15亿
- 《新喜剧之王》,预测票房10亿
我又在网上找到了犀牛研究小组的预测数据
来自电影情报处的预测
最后,还有号称贼准的贴吧大佬的预测:2019春节档票房预测分析!_百度贴吧
- 《疯狂的外星人》,预测票房40.5亿
- 《流浪地球》,预测票房14.2亿
- 《飞驰人生》,预测票房28.2亿
- 《新喜剧之王》,预测票房23.5亿
各种预测太多了,用FineBI做了张对比图
果然《疯狂的外星人》是最被外界所看好。
可是我最期待的《流浪地球》怎么会排在倒数第二了呢,这个数据,我表示不信。
因此,抱着怀疑的态度,想到自己磨炼了一年的数据挖掘技能,准备从网上爬数据,对电影票房进行一波预测。
我从网上爬了过去4年所有电影的导演、演员、以及豆瓣评分,在此感谢这个“最没有商业价值”的良心网站---豆瓣。
首先对数据进行离群点检查。如下图,删除掉了一些离群数据,像《战狼2》这种bug级黑马(对不起,虽然你很优秀,但是我不能留你)。
统计发现竟然还有电影票房都不过50万的,哎呀你怎么好意思说自己是电影呢,电费你赚回来了吗。
然后对这些数据进行特征处理,基于原有的特征,将导演、演员等特征进行量化处理,此外对放映时长、放映形式、电影类型等特征进行组合。最终由原始17个特征进行特征工程生成74个特征,提取其中64个特征。
分析发现,相关性最高的特征是导演的量化,其次是演员的量化。
我分别使用了线性回归、Knn回归、随机森林回归、adaboost回归、Bagging回归等多个算法同时预测,最终选择了其中性能最优的模型对这四部电影进行预测。
看这个模型的测试的结果,好像可以上阵了。
但是单纯依据历史数据进行训练的模型来进行预测,还是有点不放心的,谁都不是常青树,冷饭不能年年吃,万一哪个电影滑铁卢了呢。
所以我也关注了这几部电影当前的热度,获取了几部电影的百度指数、微博指数。基于电影月度总票房对春节档做了个时间序列预测,得到总票房后进行换算,再反向分解这四部电影票房。最后得到的两个票房做了加权,得到以下的预测结果:
最终的预测结果是:
- 《疯狂的外星人》,预测票房36.84025亿
- 《流浪地球》,预测票房26.88205亿
- 《飞驰人生》,预测票房29.4453亿
- 《新喜剧之王》,预测票房10.855亿
我们将预测结果和其他的对比起来看下:
果然我最看好《流浪地球》根本没那么差嘛~
这波电影最让我担忧的是周星驰的《新喜剧之王》和《流浪地球》,周星驰的历史票房都不错,但是这部普遍不看好,完全看质量的电影了。《流浪地球》,根据我的模型你是很高,我也很看好你,但是万一你自己不争气,我的脸往哪放。
最后,所有的结果都还只是预测,如果问我这四部电影我会看哪个?
幼稚,小孩子才做选择题,成年人的我,全都看。
flag:如果票房打脸,小编给各位发红包!
PS:大家准备看啥电影,和小编分享下啊,不然我很慌啊~