用ai做了个离线语音识别引擎

20 迷壶博士 2天前 599次点击

自从

讯飞语记收紧第三方app对自家语音输入引擎的调用

之后,我一直在思考,还有什么好用的语音输入引擎可用呢

从过去到现在。大家听说的文本转语音(tts)引擎一定很多,像很早的讯飞语音加、google文本转语音、vocalizer系列,到现在的TTS server、multitts、广荣tts,它们都在让我们的语音库多一份选择,。可是语音转文本(stt)的本地引擎确很少被提及。于是那时我就下决心:我一定要试着自己做出个能用的语音转文本引擎出来

随着考试的结束,以及我对ai的研究,在顺利完成几个“作品”后,我再一次想起了我这小小的“心愿”那么说做就做吧,这少有的让我这个懒癌晚期患者突然有了动力。

刚开始想做在线语音识别接口的。让大家能够免费薅到大厂的高品质羊毛,但我测试过讯飞家的在线引擎与字节火山提供的在线引擎。前者对个人来说绝对够用,但注册成本极高,需要注册开发者平台账号与实名认证,每隔一段时间还要去开发者平台领取权益。况且个人提供一个自己的接口,那绝对顶不住很多人每天高频次的调用。后者的效果好,但提供的免费额度有限,真的支撑不住。多方考虑之下,准备做离线。

选型挺让人头疼的想选一个好点的,但又照顾到手机对ai模型参差不齐的适配,我认真考虑,最终选择openaiwhisper作为首个可用模型,一是支持的语言多(近100种),纯离线,识别准确率也可以,适配有多种规格的模型,低端到高端都基本能用。二是目前安卓环境有直接可使用的

whisperCPP安卓酷

使得手机上使用这个模型成为可能

软件名字是星空语音识别引擎,星空:取自我写的一个小剧本的名字。也是我美好的一个愿望,希望可以奔赴到一片属于自己的承载着自己梦想的星空

废话不多说,一路构建下来,我的软件在与我与ai数次对话中完成了。并且可用

App主页面概览 图片

打开软件后,提示专为旧版Android运行,不要管,这是正常的。因为调高一点目标sdk版本,语音输入就不能用。为了语音输入引擎顺利在高版本安卓上运行,只能拉低。请大家理解

在软件刚启动的时候,就会向您申请必要的权限,直接允许即可,软件不会上传任何数据到云端,除非将来有云端识别模型,建议稍后也将自启动与关联启动设置上,以保证软件能够正常运行

主页面十分简单。包含了权限与服务状态,软件设置,模型管理与关于

为了照顾到存储空间,我们没有内置任何模型,所以首先需要在模型管理内下载一个模型

模型管理页面概览,显示了前面几个小模型 图片
模型管理页面概览二,展示了large系列模型 图片

进入模型管理页面,点击下载按钮,即可开始下载模型,普通低端机推荐用tiny或者base系列,低端机可运行 ,速度较快。剩下的small ,medium和large推荐下载量化版本。模型随体积不断优化效果,但需要的内存也越高

点击下载按钮后,模型开始自动下载。可以看到下载的实时进度条,下载完成后,点击模型名称就可以启用它,此时你会收到气泡通知,已启用模型

我的建议,一般情况下使用base模型就可以,不用一位去追求高配置高参数。base的识别效果已经很不错了而且速度也可以

软件设置页面 图片

软件设置的构造也非常简单,点击识别语言可以切换让模型识别你说的是哪个语言?软件支持whisper可识别的所有语言,用户可按需调整。推理线程可选择模型推理时占用手机的进程数,推荐设置4~8可以对比速度,尝试效果 。进入系统辅助应用的设置,则可让您直接跳转至辅助应用和语音输入界面(部分系统阉割了此功能),可以将星空语音识别引擎设置为默认语音识别。打开应用信息,则可让您直接进入应用信息的设置,对应用的数据进行删除,或是对权限进行设置

注意:模型默认存储在手机根目录的asr的models文件夹内。可以通过软件来删除,也可以手动删除

语音识别引擎是离线的,不向云端上传任何数据,一切计算都在本地完成。识别结果仅供参考

如何将星空语音识别引擎设置成输入法调用的语音呢。这里以天坦输入法为例

首先点击语音输入设置,将语音输入引擎设置为ASR,再在星空引擎设置好要使用的模型,就能畅快的语音输入啦。最重要的是离线哦

随着AI的发展,它正从一问一答的聊天模式,转向直接输出真正可用的成品,逐渐向生产力与执行性推进,,最终真正帮人类解决实际问题。就像“星空”,和AI无数次对话之后,它最终交到我手里的不是一个答案,而是一个能跑起来的语音识别引擎。聊天模式就是这样悄悄退场,甚至,死亡

点击下载星空语音识别引擎1.0

在文章的最后,也来给大家推荐一下我和我的朋友们用ai做的小软件

梦仔伴唱,今梦同学开发的看词学歌软件,从此k歌再也不怕忘词啦
You mother tts ,浅念同学开发的超好听的语音库
星空tts,老牌超清晰语音由我开发
缺德语音,我开发的全新语音库,不来试试

-end-

共 61 条评论
迷壶博士 [楼主] 2天前
0 

2.0更新计划

1.增加在线语音转写模块,上传音频,通过手机本地算力进行语音转写

2.支持这两个开源仓库的全部语音识别模型https://github.com/k2-fsa/sherpa-onnx,https://github.com/k2-fsa/sherpa-ncnn

很好。我准备去试试。
小牛 2天前
0 
好东西啊支持一下。
0 
问一下?这个软件是哪里的?就是会自动写软件的。我用手写个软件程序都要搞了好几天,打字手酸胀。了。
0 
如果AI可以帮我们写软件的话,那就更好。我在电脑上写了一个光探测器写了十多天了。现在手酸胀的不得了。要是可以帮我五分钟完成一个任务。那就好了。
郭靖 2天前
0 

它上面显示网页服务器错误下载失败啊

迷壶博士 [楼主] 2天前
0 

哪个软件的链接错误,我去看看

0 

用Via这个浏览器下载没有问题。

0 
这是好东西支持大佬
能否开发一个语音转文字的软件呢,也是离线的这种,就是把这个离线语音识别引擎利用到最大化
迷壶博士 [楼主] 2天前
0 

之前是有过这个想法的,但得等我找到更好的模型了,这模型的速度还是有点慢,如果你能忍受长期挂在前台的话也不是不能做其实现在就能做出来

长期挂在前台应该是可以的,我能接受,不过这模型还真的有点慢,用来键盘上语音输入还是不行
迷壶博士 [楼主] 2天前
0 

我骁龙8 g516g运存效果还可以的

0 
我就是想问一下,你这个软件是什么AI写的。
小牛 2天前
0 
好像这些语音都是讯飞的,我看那几款软件。不过功能也挺全的了,有加倍语速音量调节这些。
0 
挺好用的
0 
我这个很米酒还可以使用但是太慢了
0 
還是有點時別錯誤
0 
太慢了
迷壶博士 [楼主] 2天前
0 

咳咳note9啊,确实有点老,但能用也算奇迹了,用tiny吧

0 
我想要一个可以自动写程序打包的软件。用手编程的话,实在是太累了。
迷壶博士 [楼主] 2天前
0 

Operate ai

0 
非常感谢。这是手机版的,还是电脑版的?
迷壶博士 [楼主] 2天前
0 

手机

小牛 2天前
0 
这个国内能用吗?不知道跟我搜出来是不是同一个东西。
0 
为什么我这里下载了用不了,是不是下载错需要用什么东西?为什么无法使用密钥?
0 
我写四五天的时间写了首酸。都写不了这么好。

楼主的语音输入我没去用,因为我用的是QQ输入法,好像只能用腾讯自家语音引擎。然后你这些tts我都下了一遍。还是挺不错的

然后这个纯英文的这个语音合成感觉似曾相识

我去,你这个星空tts,这,hhh,楼主挺厉害的

TEKMAN 2天前
0 

还是做在线的吧,自己注册大模型账号获取个 API key又不是很难

迷壶博士 [楼主] 2天前
0 

可用性并不高。模型免费20小时,随后就要求付费

迷壶博士 [楼主] 2天前
0 

当然如果要是你考虑赞助的话,我可以让所有人都用我的大模型账号,连注册都免了

⁦⁩ 2天前
0 
楼主加油干,期待你后续发布的版本。
日和酱 2天前
0 
感谢楼主分享
浅念 2天前
0 
You mother tts大家也尝试用一下,很好用的。
迷壶博士 [楼主] 2天前
0 

Hh开发者

0 
我这会出现语音混乱的情况,比如我说:测试语音输入,它说测试语言输,还有我说,这是一段语音测试,它说:這是一段一道
迷壶博士 [楼主] 2天前
0 

模型有点小

0 
哦,也能理解
迷壶博士 [楼主] 2天前
0 

下个版本做个小体积的模型,但识别效果惊人

0 
叶落 2天前
0 
我的怎么不行呢?我把他输入的语言默认成你那个之后,点击识别的时候识别不出来
迷壶博士 [楼主] 2天前
0 

什么手机?系统版本是多少。啥模型

叶落 2天前
0 
设备型号 REDMI K80 Ultra 处理器 天玑9400+ 八核 最高 3.73GHz OS版本 3.0.302.0.WONCNXM.C09 Android 版本 16 | Android 安全更新:2026-05-01我用的是保益输入法加入的,你的那个语音输入模式
迷壶博士 [楼主] 2天前
0 

可以先试试small,也有一些量化板模型可供选择

叶落 2天前
0 
我不知道这个版本在哪里复制,我一个个地复制,看看是不是你说的这个型号
叶落 2天前
0 
以后你这个模型,如果好用的话,那又多一个语音输入模式,太感谢了
迷壶博士 [楼主] 2天前
0 

星空tts和you mothertts已更新

0 
那个英文的语音能优化一下遇到数字跟别的东西之后数字读英文的问题吗
坦友fj 2天前
0 

星空TTS的英文语音单独调语速就好了,那个英文的语音库感觉没有星空TTS的语音库清晰。

叶落 2天前
0 
哦那我去看看

点击启用,large-v3 多语言 原版,最高准确率,约3.1GB,手机需较大内存,文件 ggml-large-v3.bin咱来看看咱那骁龙8至尊能不能玩一玩。

迷壶博士 [楼主] 2天前
0 

你你你疯了,我都玩不了这个

迷壶博士 [楼主] 2天前
0 

主要我这个半天不出结果hh,期待你的结果

没有结果。

小牛 2天前
0 
Operit AI这个倒是能用的,我印象中配置了以后可以自动点击,还可以有环境之类的。

用不了。

迷壶博士 [楼主] 2天前
0 

据说这得用到电脑显或服务器,我就等着真的能出结果,试试那个500多m的large能用吗

迷壶博士 [楼主] 2天前
0 

对了,之后要不要测试我新模型?我私发你安装包

添加一条新评论

登录后可以发表评论 去登录