1. 引言

春节档是中国电影市场的黄金时段,各大影片争相上映,吸引了大量观众前往影院观影。在这个特殊的时间节点,我们选取了一部备受瞩目的电影进行评论分析:《第二十条》。

《第二十条》张艺谋执导的新片在上映后口碑与热度持续上涨。据多方数据显示,截至2024年2月18日19点,影片票房已达13.42亿。

影片将现实主义的精神与浪漫主义的情怀相互融合,在笑中带泪的悲喜剧框架下,为看电影的人上了一堂生动的“二十条”普法课,具有强烈的现实观照意义。

本文通过Python采集了该电影的豆瓣评论数据,并利用pandas、cutecharts进行了分析和可视化展示等内容。

2. 数据采集与预处理

我们使用Python爬虫采集了《第二十条》电影的豆瓣短评数据,对数据进行清洗和预处理,以确保分析的准确性和可靠性。

2.1 原数据展示

数据采集时间截止到2024年2月18日18点,共采集了6157条短评,其中想看评价为1836 条,看过评价为4321 条

_id comment rating sharing_url show_time_tip is_voted uri platforms vote_count create_time status ip_location id
0 4088229895 窝囊废属实是雷佳音的统治区 {‘count’: 1, ‘max’: 5, ‘star_count’: 4, ‘value’: 4} https://www.douban.com/doubanapp/dispatch?uri=/movie/36208094/interest/4088229895 False False douban://douban.com/movie/36208094/interest/4088229895 [] 8862 2024-02-12 10:42:47 done 河南 4088229895
1 4085537171 我就说昨天小品沈腾为啥突然叫李逵了,原来是马丽电影里的初恋叫李逵。案子挺好的,立意也很好,但为啥前一个小时非得给我们看雷佳音马丽夫妻吵架。 {‘count’: 1, ‘max’: 5, ‘star_count’: 4, ‘value’: 4} https://www.douban.com/doubanapp/dispatch?uri=/movie/36208094/interest/4085537171 False False douban://douban.com/movie/36208094/interest/4085537171 [] 7575 2024-02-10 11:27:49 done 上海 4085537171

2.2 数据清洗预处理

  • 将影评评分从嵌套字典中抽取到一个独立字段
  • 删除无用的字段
  • 预处理空值
2.2.1 预处理数据展示
_id comment rating sharing_url show_time_tip is_voted uri platforms vote_count create_time status ip_location id rating_value
0 4088229895 窝囊废属实是雷佳音的统治区 {‘count’: 1, ‘max’: 5, ‘star_count’: 4, ‘value’: 4} https://www.douban.com/doubanapp/dispatch?uri=/movie/36208094/interest/4088229895 False False douban://douban.com/movie/36208094/interest/4088229895 [] 8862 2024-02-12 10:42:47 done 河南 4088229895 4
1 4085537171 我就说昨天小品沈腾为啥突然叫李逵了,原来是马丽电影里的初恋叫李逵。案子挺好的,立意也很好,但为啥前一个小时非得给我们看雷佳音马丽夫妻吵架。 {‘count’: 1, ‘max’: 5, ‘star_count’: 4, ‘value’: 4} https://www.douban.com/doubanapp/dispatch?uri=/movie/36208094/interest/4085537171 False False douban://douban.com/movie/36208094/interest/4085537171 [] 7575 2024-02-10 11:27:49 done 上海 4085537171 4

3. 数据可视化分析

3.1 评论占比分布图

在这里插入图片描述

3.1.1 饼图可视化代码
from cutecharts.charts import Pie
from cutecharts.components import Page

label = ['看过', '想看']

def pie_base() -> Pie:
    chart = Pie("2024-02-18【第二十条】 看过/想看 短评占比图")
    chart.set_options(labels=label)
    chart.add_series(list(pd.value_counts(df['status'])))
    return chart

pie_base().render_notebook()

3.2 评分占比分布图

在这里插入图片描述

3.2.1 数据解释
{5: 2359, 4: 1212, 3: 507, 2: 143, 1: 70, 0: 30}
3.2.2 个人浅薄洞察

高分占比较大:评分为5分和4分的占比相对较高,分别为51.52%和26.57%,可以看出大部分观众对该电影给予了积极的评价。可能是因为电影的制作质量较高、题材新颖,或者口碑宣传效果很好,所以有了好的反馈。

3.3 【看过-评论】提及人物出现频次柱状图

通过对看过该电影的人的评价进行NER(命名实体识别)抽取,我们可以了解到一些人名被提及的次数。

3.3.1 柱状图可视化代码
from cutecharts.charts import Bar
from cutecharts.components import Page


def bar_base() -> Bar:
    chart = Bar("2024-02-18【第二十条】看过 人员出现次数柱状图", width="1000px")
    chart.set_options(labels=list(person.keys()), x_label="I'm xlabel", y_label="I'm ylabel")
    chart.add_series("评论出现次数", list(person.values()))
    return chart

bar_base().render('ner.html')
3.3.2 提及人物出现频次柱状图

在这里插入图片描述

3.3.3 数据解释
{
 '赵丽颖': 687,
 '刘耀文': 560,
 '雷佳音': 477,
 '马丽': 473,
 '张艺谋': 439,
 '郝秀萍': 200,
 '韩明': 137,
 '高叶': 119,
 '韩雨': 80,
 '赵丽': 74,
 '吕玲玲': 57,
 '张译': 54,
 '张贵生': 34,
 '李茂娟': 31,
 '王永强': 23,
 '范伟': 16,
 '罗翔': 13,
 '韩雨辰': 11
 }
3.3.4 个人浅薄洞察:
  1. 主要演员或导演的影响力:出现次数较多的人名有赵丽颖、刘耀文、雷佳音等。他们在电影中的表现应该对观众留下了深刻的印象,所以他们的名字在评论中被频繁提及。

  2. 观众关注点的反映:某些人名的出现次数较少。虽然他们的影响力不如主要演员或导演大,但仍然可以看出观众对于电影中各种角色和元素的关注。

  3. 市场营销效果的评估:通过分析NER抽取结果,电影宣发部门可以了解观众对于不同演员或导演的关注程度。可以帮助他们评估市场营销策略的有效性,指导后续的宣传工作,以提高电影的知名度和观众吸引力。

写在最后

综合分析来看,《第二十条》在观众中引起了较大的关注,大部分观众给予了较高的评分,表明电影在整体上获得了一定程度的认可和喜爱。

通过NER抽取,我们也了解到观众对于电影中的主要演员和导演的关注程度,这有助于我们进一步了解电影的受众群体和市场表现。

接下来,我们将在下一篇博客中继续深入挖掘评论中的好评和差评,以更全面地了解观众对于这部电影的评价。敬请期待!

需要采集数据的可以联系我~

该分析仅供学习交流使用,禁止用于商业用途,不构成任何投资建议。

大数据分析为运营和各行业带来了前所未有的机会,使企业能够更敏锐地洞察市场、优化运营,并更有效地应对竞争和变革。在信息时代,充分利用大数据分析,将成为企业取得竞争优势的不可忽视的关键要素。

本人数据分析领域的从业者,拥有专业背景和能力,可以为您的数据挖掘和分析需求提供支持。期待着能够与您共同探索更多有意义的数据洞见,为您的项目和业务提供数据分析方面的帮助。

创作不易,如果你觉得有帮助,请点个赞支持一下。你的鼓励是我创作的最大动力,期待未来能为大家带来更多有趣的分析文章。感谢大家的阅读和支持!

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐