作者心声

可能有人会问制作这款软件的动机。本文试着解答。

缘起

年初（2024年），家夫人单位业务拓展到美国，工作内容上了强度，需要与美国人沟通。中文环境下能说会道，用英语说就犯了难，最大的问题是听力差。

听不懂，看得懂就行。知道问题所在，就开始找“药方”，找同传软件。找到一款国内大厂出品的软件，花了 ¥98，效果呢，非常一般，没法开展工作的。

说到语音识别，常被称作语音转文字，我在想为什么不用 OpenAI Whisper 模型呢？Whisper 模型是 OpenAI 为数不多的开源模型，2023 年初就已开源，它的英文识别准确率真的强，我还曾用过它生成的字幕学英语生词。

开始在应用商店找基于 Whisper 模型的语音识别软件，无一例外的，这些软件只支持先录音再转文字。这就完全无法满足开会，这种要求实时的场景了。

技术上来说，Whisper 模型不是一个实时模型，可能这是制约了很多开发商不做实时语音转文字的一个理由。

眼馋 Whisper 模型语音转文字的效果之好，开始跟小伙伴一起尝试让 Whisper 模型实时转文字。答案是，确实可行，最终也成为形成了 AI Hear 这款软件。可行的基础，我想有这么几个：

现在的 AI Hear 支持：

理想情况下，不依赖网络，一台电脑在本地就可以做到实时语音转文字 + 翻译。

我们的目标是让这款软件成为一款好用的、可以被买断的产品，安静躺在电脑里，想用就用，不需要再为云厂商缴纳月费了。

软件本身还有很多需要优化和改进的地方，欢迎指正。