前言

如果你觉得听译难度太高，或单纯不想在英文字幕上耗费太多时间，那么可以借助 AI 语音识别工具。目前，市面上已涌现出相当数量的优质识别工具：

剪映/CapCut 等剪辑软件：目前创作者最常用的工具，内置的自动识别字幕功能非常方便，非常适合直接用于视频后期剪辑和压制。但可能需要会员。
独立的 Whisper 客户端（如 WhisperDesktop, Buzz）：这些开源工具调用本地显卡算力，识别准确率极高，是提取字幕的利器。但操作较为繁琐，且不够直观。
网易见外/飞书妙记等云端平台：适合处理会议记录或长音频，但往往受限于网络环境、文件大小和时长限制。

而 PotPlayer 作为公认的“最强本地播放器”，在更新中原生接入了 OpenAI 的 Whisper 语音识别模型，且配备了简单易用的可视化操作界面。这意味着，当你播放没有字幕的英文视频时，PotPlayer 可以直接利用你的电脑算力，实时将语音转换为准确的英文字幕。

本文档将手把手教你如何配置和使用该功能。

一、准备工作

在开始之前，请确保你的软硬件环境满足以下条件：

下载/更新 PotPlayer：请前往官网下载并安装最新版本的 PotPlayer（确保是 2024 年之后带 AI 字幕功能的版本）。
硬件要求（重要）：
- 显卡（GPU）：强烈推荐使用搭载 NVIDIA 显卡（30系及以上最佳） 的电脑，AI 模型使用 CUDA 核心运算速度极快。
- 处理器（CPU）：如果没有独立显卡，纯靠 CPU 也可以运行，但识别速度会较慢，建议选择较小的模型。

打开视频：在 PotPlayer 中打开任意一个没有字幕的英文视频。
进入设置路径：
- 在视频画面上 鼠标右键 点击/单击左上方 主菜单
- 依次选择 字幕 -> 生成有声字幕 -> 点击 生成有声字幕（进入设置面板）。
参数配置：在弹出的设置窗口中，按照以下推荐进行设置：
- 转换引擎：下拉选择 Faster-Whisper-XXL。这是目前公认速度最快、效率最高的优化版本。
- 型号（模型选择）：
  - 低配电脑/轻薄本：选择 base.en 或 small.en（带有 .en 后缀代表专门针对英语优化，速度极快）。
  - 中高配电脑（有 N 卡）：推荐选择 medium.en 或 large-v3-turbo（识别精准度极高，几乎没有错词）。
- 语言：选择 English 或 Auto。
- 保存设置：强烈建议勾选 “尽可能将字幕保存在视频同目录中”。这样看过的视频会自动生成一个 .srt 字幕文件，下次播放时直接加载，无需重新消耗算力。

注意：第一次选择模型时，PotPlayer 会在后台自动下载对应的模型文件，这需要一点时间（取决于你的网速）。请耐心等待下载完成。

配置完成后，点击 开始。

此时继续播放视频，稍等片刻（等待模型加载），你就会看到画面下方开始实时滚动准确的英文字幕了！

问题 1：视频播放卡顿，或者字幕出得非常慢怎么办？
- 解决：这是因为你的显卡/CPU 算力不足以支撑当前的模型。请回到设置中，将型号降级为 small.en 或 tiny.en。
问题 2：字幕出现“幻觉”（一直重复同一句话或胡言乱语）怎么办？
- 解决：Whisper 模型在遇到长段无声的背景音时容易出现此问题。如果引擎支持高级参数，可以尝试勾选 启用 VAD 过滤器，这能大幅减少“幻觉”。