5 阿飞哥 3天前 190次点击
大家好,我是飞言TTS的站长阿飞哥。
今天是3月29日,我正式调整了飞言TTS开发团队的业务方向。
2026年开年的时候,我给大家画过一个大饼:宣布年内会自行部署满血版的B站声音复刻功能。但计划很美好,现实却很骨感。先给大家看一下我们平台3月1日到3月29日的运营数据:总用户数704人,日均活跃用户仅16人,全月总使用次数962次。
看着这么惨淡的数据,团队的小伙伴最先问我:我们还要硬着头皮部署满血版的B站声音复刻吗?
毕竟自己部署模型和调用第三方API完全是两回事:调用别人的接口,用户不使用就不会产生费用;但自己部署满血版的B站声音复刻模型,哪怕没有一个用户用,服务器、算力的钱也得天天烧,停都停不下来。所以再三权衡之后,我们正式决定:转型做电脑端的语音输入法。
为什么要做电脑端的语音输入法?有三个核心原因。
第一个原因,也是最现实的原因:在我看来,飞言TTS这个项目,大家似乎只把它当个新鲜玩具玩,既没有真正解决大家的刚需,我们也没赚到钱。这也是我们放弃部署满血版B站声音复刻的核心原因——我实在不想看到,我们砸了大量人力物力把满血版功能做出来端上桌,最后却没人来用。难过是小事,钱白烧了、开发同学的心血白费了,才是最可惜的。也是在团队小伙伴的劝说下,我才下定决心换个方向。
第二个原因,来自我自己的刚需。众所周知,我本身不会打字,平时哪怕用电脑写文档,都得先用手机上的讯飞输入法语音转文字,再发到电脑上粘贴,办公的时候没少被人调侃:“你都用电脑了还不会打字?还用手机写文档,干脆直接用手机得了。”好吧,他们说的也没错。中途我也试过不少电脑端的语音输入法:比如之多云,它的无障碍适配做得特别好,按一下左Ctrl就能呼出语音输入,体验非常丝滑,但它的语音识别实在一言难尽——我们扒了一下代码,它用的居然还是10年前讯飞提供的识别引擎,效果还不如手机端的讯飞输入法。后来我也试了豆包电脑端的语音输入,识别准确率确实没话说,但无障碍适配做得特别拉胯,识别出来的内容得先复制到剪贴板,我才能手动粘贴到输入框里,完全没法用。既然豆包的语音识别模型这么能打,那不如我们自己来做一款好用的。
第三个原因,是我观察到的行业现状。像保益悦听、争渡读屏、天坦读屏这些主流的读屏厂商,就算做AI语音输入法,也全都是针对手机端的,电脑端几乎被他们彻底放弃了。可能在他们,甚至很多盲圈电脑用户的认知里:你都能用上电脑了,肯定会打字啊,还要什么语音输入法?用语音输入的都是不会打字的新手,不会打字你用什么电脑?但我偏不信这个理,既然没人愿意做,那我们就来打破这个僵局,自己做。
这款输入法名字就叫「阿飞输入法」,核心用的是豆包语音识别大模型,开发框架选用.NET,是Windows桌面端应用程序,不是系统级输入法,不会和大家现有的输入法、读屏软件起冲突。
给大家说一下最简单的使用流程:你只要打开阿飞输入法,软件就会自动挂在后台运行;需要打字的时候,长按左Ctrl键开始录音说话,说完松开Ctrl键就会停止录音,后端会把你的音频传给豆包语音识别模型处理,识别完成后,文本会自动插入到你当前光标停留的输入框里。说了这么多可能大家觉得复杂,总结成一句话就是:它的使用逻辑和之多云一模一样,上手零门槛。
至于大家最关心的收费问题,我们直接沿用飞言TTS的计费模式,服务配额体系和用户体系,和飞言TTS完全打通。也就是说,你只要是飞言TTS的用户,就能直接用阿飞输入法,每一次语音识别都会扣除对应的飞言TTS服务配额;配额用完了,直接在飞言TTS平台购买就能继续用,不用额外注册、额外付费,非常方便。
这个项目今天才正式立项,整体开发成本预计1500元,预计会在2026年暑假和大家正式见面。
能打盲文键盘的吗?
要是能用盲文输入的话,我那我要一个吧。
不是说了吗?我这个项目是纯语音输入法。盲文输入法我们也想做啊,但可惜没有现成的框架给我们用,我们不可能从头开始做吧。
你还是开发课程吧。
具体的费用的话,到时候得等我们把产品端上桌,我们才能定啊,不过肯定会比智慧人生便宜,不过现在嘛,我自己连成品我都还没摸到呢。
毕竟智慧人生它是一个综合性软件,语音输入只是它的一个附加功能。
其实,手机版更有市场
手机版开发难度也更大。毕竟手机端我们得面对一堆厂商魔改过的安卓系统。电脑端就不用担心这个烦恼了,只需把它挂在后台,让他监听ctrl键有没有被触发就可以了。