使用AI语音识别为视频生成字幕

从PC 13.3版本开始,弹弹play支持通过AI语音识别技术,为视频生成字幕文件。

功能特点

  • 识别率高,普通(Small)模型即可达到>90%的准确率
  • 由 OpenAI Whisper 驱动,识别将完全在本地处理,无需联网
  • 集成在弹弹play播放器中,即开即用,不需要安装 Python 等其他软件
  • 使用 GPU 加速识别,支持 A/N/I 显卡
  • UI方便简洁,一看即会

使用方法

1. 进入 "AI语音识别" 界面

您可以通过多种方式进入“AI语音识别”界面,例如:

  • 在播放界面中,右键弹出菜单,选择“弹弹play AI - AI语音识别”即可对当前文件进行语音识别

    38d6afbe5c2ec76664d352de800f1130.png

  • 视频播放时,在播放器的【调整】边栏中,点击【AI语音识别】按钮:

    40251017c758e81cbe4317e152553b61.png

  • 播放列表界面中,选中多个视频,点击工具栏上的【AI语音识别】按钮:

    4c92d6fdfee9ae95494d58e6559ee124.png

  • 媒体库中,右键点击视频,在出现的菜单中选择【AI语音识别】:

    944c64298b82db2de5f6940cd140d24f.png

2. 准备必要文件

在开始前,您需要提前下载两个必要的文件,将其放入指定的文件夹中:

  • FFmpeg(弹弹play已自带):约110MB,用来处理音频。 您也可以选择下载最新版的 ffmpeg.exe 手动解压。如果您下载的是zip压缩包,请手动解压其中的 exe 文件到指定文件夹。

  • AI模型文件:用来识别音频内容。 请根据需求选择要使用的模型。我们推荐使用普通(Small)或中等(Medium)模型来识别动画,可以在识别率、识别速度中取得不错的平衡。如果对效果不满意可以再换成别的模型尝试。 模型文件需要自行下载。点击“去下载”链接打开浏览器下载文件,下载到的 .bin 文件请放到指定的文件夹中。

43cf1e37af459a5992f9285ecc0c0304.png

3. 选择语言并开始识别

点击最下方的【开始识别】按钮启动后台语音识别。弹弹play将首先处理视频中的音频轨道,然后加载 AI 模型,之后开始识别其中的内容。

识别出的内容将不断更新在下方列表中,您可以随时查看。点击【中断】按钮可以提前结束识别任务。

转换速度将由您的 GPU 速度、模型大小共同决定。举例来说,在使用 NVIDIA GTX 2060 的笔记本电脑上,选择普通(Small)模型识别一个时长24分钟的TV动画视频,将花费约 2~4 分钟时间。音频中的无人声/环境音部分可能会降低识别速度。

4e83e493962d73162076495e2da07b42.png

4. 生成字幕或导出数据

转换完成后,将根据设置(如果选择了生成字幕选项),自动生成 SRT 格式的字幕文件。

您也可以在识别结果区域右键点击,进行更多高级操作:

  • 如果您正在批量处理视频,识别结果区域将显示选中文件的识别结果。

91f4e7acdd9ab7327aa613acf3fb41b3.png

关于 GPU 加速识别

弹弹play的 AI语音识别 功能强制使用 GPU 加速识别(此选项默认开启,无法关闭),相比旧版本的 CPU 识别,会获得至少 10 倍的速度提升。但开启 GPU 识别功能,对软硬件都有一些要求:

  • 需要一个支持 DirectX 11 的显卡,不是非常旧的显卡一般都可以
  • 操作系统至少为 Windows 10 版本 1803 (10.0.17134.0)
  • 系统中有 VC++ 2022 x64 运行库。如果出现了相关的报错,可以 点击这里在新窗口打开 下载安装

已知问题

  1. 如需处理音频文件,请在播放器界面右键打开菜单,选择“弹弹play AI - AI语音识别”菜单项,此处支持选择音频格式的文件。
  2. 如果系统中只有核芯显卡,没有独立显卡,可能无法使用 GPU 加速识别,此时会自动降级为 CPU 识别模式,识别速度会较慢。
  3. UWP 版本由于商店限制,无法运行语音识别功能。
  4. 目前不支持 Whisper 最新的 Large v3 版本的模型文件,如需使用 大型(Large)模型,请下载文件名中带“v2”的版本。下载后仍将其命名为指定的文件名,如 ggml-large.bin 。
上次更新:
贡献者: kaedei