语音 AI 公司 Speechify 日前推出原生 Windows 应用,依托本地存储的 AI 模型,在系统层面支持跨应用语音听写,并可朗读网页、文档和 PDF 等内容。 该公司此举正面竞争 Wispr Flow、Willow、Superwhisper 等同类跨平台听写与转录应用。

Speechify 表示,这款 Windows 应用在 Copilot+ PC(搭载 AMD、英特尔和高通 NPU 的机型)上,以及配备英特尔或 AMD GPU 的其他 Windows 11 电脑上,均可实现完全本地的语音处理,无需将音频上传云端。 应用在本地同时运行三类模型:用于朗读的神经网络文本转语音模型、用于实时检测用户是否在说话的语音活动检测模型,以及基于 Whisper 的转录模型。 用户也可以在设置中切换为云端模型,或在使用过程中按需切换本地与云端处理模式。

根据公司披露的数据,Speechify 在全球拥有超过 5000 万用户。 其中,VITS Neural 模型可在七档不同语速下生成音频,方便用户按个人习惯调节朗读速度,用于听网页、文档或其他文本内容。 在语音活动检测方面,Speechify 采用 Silero 开源模型,以识别用户何时开始或停止说话,从而提升实时听写和转录的流畅度与准确性。

Speechify 创始人兼首席执行官 Cliff Weitzman 在声明中表示,全球有超过 10 亿人使用 Windows,随着这款 Windows 应用上线,公司希望确保“阅读,乃至写作,不再成为任何人工作的障碍”,无论用户使用何种设备、偏好何种工作方式。 他特别强调了企业市场的潜力,称大量职场用户曾经主动要求在 PC 上使用 Speechify,Windows 原生应用将有助于满足这部分需求。

今年 2 月,Speechify 刚刚推出类似 Granola 的会议转录功能,可以在浏览器环境中转录并总结线上会议,但当时该功能仅限于基于浏览器的会议场景。 随着其跨平台原生应用的逐步完善,公司预计会将这一会议转录能力迁移到各平台的本地客户端,使用户无论使用哪款会议软件或浏览器窗口,都能直接在系统层面完成会议录音与转录。

在此之前,Speechify 多年间主要专注于文本转语音场景,例如朗读文章和电子邮件,或将文档内容“变成播客”供用户收听。 近来,该公司则着力向“全栈语音应用”方向演进,相继上线语音听写、会议转录以及语音助手等功能,尝试覆盖从阅读、输入到智能助理交互的完整语音使用链路。

了解更多:

https://apps.microsoft.com/detail/9n58gbx6x3vj?cid=DevShareMCLPCS&hl=zh-CN