Speechify推出原生Windows应用以本地AI模型驱动听写与转录

语音 AI 公司 Speechify 日前推出原生 Windows 应用，依托本地存储的 AI 模型，在系统层面支持跨应用语音听写，并可朗读网页、文档和 PDF 等内容。该公司此举正面竞争 Wispr Flow、Willow、Superwhisper 等同类跨平台听写与转录应用。

Speechify 表示，这款 Windows 应用在 Copilot+ PC（搭载 AMD、英特尔和高通 NPU 的机型）上，以及配备英特尔或 AMD GPU 的其他 Windows 11 电脑上，均可实现完全本地的语音处理，无需将音频上传云端。应用在本地同时运行三类模型：用于朗读的神经网络文本转语音模型、用于实时检测用户是否在说话的语音活动检测模型，以及基于 Whisper 的转录模型。用户也可以在设置中切换为云端模型，或在使用过程中按需切换本地与云端处理模式。

根据公司披露的数据，Speechify 在全球拥有超过 5000 万用户。其中，VITS Neural 模型可在七档不同语速下生成音频，方便用户按个人习惯调节朗读速度，用于听网页、文档或其他文本内容。在语音活动检测方面，Speechify 采用 Silero 开源模型，以识别用户何时开始或停止说话，从而提升实时听写和转录的流畅度与准确性。

Speechify 创始人兼首席执行官 Cliff Weitzman 在声明中表示，全球有超过 10 亿人使用 Windows，随着这款 Windows 应用上线，公司希望确保“阅读，乃至写作，不再成为任何人工作的障碍”，无论用户使用何种设备、偏好何种工作方式。他特别强调了企业市场的潜力，称大量职场用户曾经主动要求在 PC 上使用 Speechify，Windows 原生应用将有助于满足这部分需求。

今年 2 月，Speechify 刚刚推出类似 Granola 的会议转录功能，可以在浏览器环境中转录并总结线上会议，但当时该功能仅限于基于浏览器的会议场景。随着其跨平台原生应用的逐步完善，公司预计会将这一会议转录能力迁移到各平台的本地客户端，使用户无论使用哪款会议软件或浏览器窗口，都能直接在系统层面完成会议录音与转录。

在此之前，Speechify 多年间主要专注于文本转语音场景，例如朗读文章和电子邮件，或将文档内容“变成播客”供用户收听。近来，该公司则着力向“全栈语音应用”方向演进，相继上线语音听写、会议转录以及语音助手等功能，尝试覆盖从阅读、输入到智能助理交互的完整语音使用链路。

Speechify推出原生Windows应用 以本地AI模型驱动听写与转录

Speechify推出原生Windows应用以本地AI模型驱动听写与转录