深入解析:使用Python爬取Bilibili视频

前提声明

  • 爬虫应遵守目标网站的robots.txt协议,尊重版权和用户隐私。
  • 本代码仅供学习和研究使用,不得用于商业用途。
  • 请确保在合法合规的前提下使用本代码。
  • 本代码所爬视频为公开可下载的视频

目录

  1. 前提声明
  2. 引言
  3. 环境准备
  4. 代码解析
  5. 结语
  6. 注意事项
  7. 附录
  8. 总结
  9. 完整代码

引言

Bilibili,作为中国领先的年轻人文化社区,拥有海量的视频资源。对于想要下载Bilibili视频的用户来说,手动下载不仅费时费力,而且效率低下。本文将介绍如何使用Python编写一个脚本,自动化地爬取Bilibili上的视频,并将其保存到本地。

环境准备

在开始之前,请确保你已经安装了以下Python库:

  • requests:用于发送HTTP请求。
  • json:用于解析JSON数据。
  • re:用于正则表达式匹配。
  • os:用于操作系统功能,如文件路径操作。
  • subprocess:用于执行外部命令,如调用ffmpeg。
  • sys:用于访问与Python解释器密切相关的变量和函数。

可以通过以下命令安装所需的库:

pip install requests

代码解析

1. 导入必要的库

import requests
import json
import pprint
import re
import os
import subprocess
import sys

2. 获取URL响应体

定义一个函数getResponse,用于发送GET请求并获取响应体。

def getResponse(url):
    headers = {
        'referer': 'https://www.bilibili.com/', 
        'User-Agent': 'Mozilla/5.0 ...'
    }
    response = requests.get(url=url, headers=headers)
    return response

3. 解析响应体

定义函数parseResponse,用于解析视频页面的响应体,并提取视频和音频的URL。

def parseResponse(url):
    response = getResponse(url)
    html_data = re.findall('<script>window.__playinfo__=(.*?)</script>', response.text)[0]
    jsonData = json.loads(html_data)
    videoTitle = re.findall('<title ...', response.text)[0]
    audioUrl = jsonData['data']['dash']['audio'][0]['baseUrl']
    videoUrl = jsonData['data']['dash']['video'][0]['baseUrl']
    videoInfo = {
        'videoTitle': videoTitle,
        'audioUrl': audioUrl,
        'videoUrl': videoUrl,
    }
    return videoInfo

4. 保存视频和音频

定义函数saveMedia,用于将下载的媒体内容保存到本地文件。

def saveMedia(fileName, content, mediaType):
    os.makedirs('D:\\bilibili', exist_ok=True)
    with open(f'D:\\bilibili\\{fileName}.{mediaType}', 'wb') as f:
        f.write(content)

5. 合并音频和视频

定义函数AvMerge,使用ffmpeg合并音频和视频文件。

def AvMerge(Mp3Name, Mp4Name, savePath):
    subprocess.run(['ffmpeg', '-i', Mp4Name, '-i', Mp3Name, '-c:v', 'copy', ...])

6. 主函数

main函数是脚本的入口点,负责调用上述函数完成整个爬取和保存流程。

def main():
    url = input("请输入B站视频url地址:")
    videoInfo = parseResponse(url)
    # ... 省略部分代码 ...
    AvMerge(Mp3Name, Mp4Name, savePath)

结语

通过上述脚本,我们可以实现自动化下载Bilibili视频的功能。这不仅大大提升了下载效率,也让我们对Python网络编程有了更深入的理解。请注意,爬虫的使用应遵守网站的爬虫政策和法律法规,合理使用爬虫技术。
效果展示

image.png
image.png

注意事项

  • 确保在合法合规的前提下使用爬虫技术。
  • 尊重视频作者的版权,不要用于商业用途。
  • 考虑到Bilibili网站的反爬措施,可能需要更新请求头或使用代理。

附录


总结
在数字化时代,Bilibili作为中国年轻人文化社区的代表,拥有丰富的视频资源。然而,手动下载这些视频不仅耗时而且效率低下。因此,本文介绍了一种使用Python自动化爬取Bilibili视频的方法,旨在提高下载效率并加深对Python网络编程的理解。

首先,我们准备了必要的Python环境,包括requests、json、re、os、subprocess和sys库。这些库分别用于发送HTTP请求、解析JSON数据、正则表达式匹配、操作系统功能、执行外部命令和访问Python解释器变量。

在代码实现部分,我们首先定义了获取URL响应体的函数getResponse,它通过设置合适的请求头来模拟浏览器行为,获取网页内容。接着,parseResponse函数用于解析响应体,提取视频和音频的URL,这是通过正则表达式和JSON解析实现的。此外,saveMedia函数负责将下载的媒体内容保存到本地文件,而AvMerge函数则使用ffmpeg合并音频和视频文件。

主函数main是整个脚本的入口点,它引导用户输入B站视频URL,并调用上述函数完成视频的爬取和保存。这个过程不仅自动化了视频下载,还展示了如何将音频和视频合并为一个文件。

本文强调,在使用爬虫技术时,应遵守网站的爬虫政策和法律法规,尊重视频作者的版权,避免将爬取内容用于商业用途。同时,考虑到Bilibili可能的反爬措施,可能需要更新请求头或使用代理。

总结来说,本文提供的Python脚本为自动化下载Bilibili视频提供了一种有效的方法。这种方法不仅提高了下载效率,还加深了对网络请求、数据处理和文件操作等编程技能的理解。希望读者能够将这些知识应用到更多有趣和有益的项目中去,并在实践中不断提升自己的编程能力。

完整代码

import requests
import json
import pprint
import re
import os
import subprocess
import sys

"""获取url响应体"""
def getResponse(url):
    headers = {
        'referer': 'https://www.bilibili.com/', 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    return response

"""解析响应体"""
def parseResponse(url):
    response = getResponse(url)
    html_data = re.findall('<script>window.__playinfo__=(.*?)</script>', response.text)[0]
    jsonData = json.loads(html_data)
    videoTitle = re.findall('<title data-vue-meta="true">(.*?)</title>', response.text)[0]
    audioUrl = jsonData['data']['dash']['audio'][0]['baseUrl']
    videoUrl = jsonData['data']['dash']['video'][0]['baseUrl']
    videoInfo = {
        'videoTitle': videoTitle,
        'audioUrl': audioUrl,
        'videoUrl': videoUrl,
    }
    print("获取Response信息成功!")
    return videoInfo

"""保存视频和音频"""
def saveMedia(fileName, content, mediaType):
    os.makedirs('D:\\bilibili', exist_ok=True)
    with open(f'D:\\bilibili\\{fileName}.{mediaType}', mode='wb') as f:
        f.write(content)
    print(f"保存{mediaType}成功!")

def AvMerge(Mp3Name, Mp4Name, savePath):
    print("开始合并音频和视频.........")
    print(f"音频文件: {Mp3Name}")
    print(f"视频文件: {Mp4Name}")
    print(f"合并后文件保存路径: {savePath}")

    with open(os.devnull, 'w') as devnull:
        result = subprocess.run(
            ['ffmpeg', '-i', Mp4Name, '-i', Mp3Name, '-c:v', 'copy', '-c:a', 'aac', '-strict', 'experimental', savePath],
            stdout=devnull,
            stderr=devnull
        )

    print("合并成功!")
    os.remove(Mp3Name)
    os.remove(Mp4Name)

def main():
    url = input("请输入B站视频url地址:")
    videoInfo = parseResponse(url)
    fileName = videoInfo['videoTitle']
    audioContent = getResponse(videoInfo['audioUrl']).content
    saveMedia(fileName, audioContent, 'mp3')
    videoContent = getResponse(videoInfo['videoUrl']).content
    saveMedia(fileName, videoContent, 'mp4')

    Mp3Name = f'D:\\bilibili\\{fileName}.mp3'
    Mp4Name = f'D:\\bilibili\\{fileName}.mp4'
    savePath = f'D:\\bilibili\\merge_{fileName}.mp4'
    AvMerge(Mp3Name, Mp4Name, savePath)

if __name__ == '__main__':
    main()

更多推荐