作者心声
可能有人会问制作这款软件的动机。本文试着解答。
缘起
年初(2024年),家夫人单位业务拓展到美国,工作内容上了强度,需要与美国人沟通。中文环境下能说会道,用英语说就犯了难,最大的问题是听力差。
听不懂,看得懂就行。知道问题所在,就开始找“药方”,找同传软件。找到一款国内大厂出品的软件,花了 ¥98,效果呢,非常一般,没法开展工作的。
OpenAI Whisper 语音转文字模型
说到语音识别,常被称作语音转文字,我在想为什么不用 OpenAI Whisper 模型呢?Whisper 模型是 OpenAI 为数不多的开源模型,2023 年初就已开源,它的英文识别准确率真的强,我还曾用过它生成的字幕学英语生词。
开始在应用商店找基于 Whisper 模型的语音识别软件,无一例外的,这些软件只支持先录音再转文字。这就完全无法满足开会,这种要求实时的场景了。
技术上来说,Whisper 模型不是一个实时模型,可能这是制约了很多开发商不做实时语音转文字的一个理由。
让 Whisper 实时
眼馋 Whisper 模型语音转文字的效果之好,开始跟小伙伴一起尝试让 Whisper 模型实时转文字。答案是,确实可行,最终也成为形成了 AI Hear 这款软件。可行的基础,我想有这么几个:
- 自 2020 年起,苹果公司在 Mac 上全面使用 Apple Silicon 处理器。相比起之前的架构,这些芯片在机器学习方面有更强的性能。
- Georgi Gerganov 大神使用 C++ 重写了一遍 Whisper 模型的推理代码,应该是在 macOS 效率最高的 Whisper 推理实现了。
AI Hear 产品
现在的 AI Hear 支持:
- 录音,支持后续导出。
- 基于 Whisper 的语音转文字。
- 支持 Ollama 本地翻译、及其他翻译引擎。
- 导出文字、字幕。
理想情况下,不依赖网络,一台电脑在本地就可以做到实时语音转文字 + 翻译。
我们的目标是让这款软件成为一款好用的、可以被买断的产品,安静躺在电脑里,想用就用,不需要再为云厂商缴纳月费了。
尾声
软件本身还有很多需要优化和改进的地方,欢迎指正。