20 迷壶博士 2天前 599次点击
自从
讯飞语记收紧第三方app对自家语音输入引擎的调用之后,我一直在思考,还有什么好用的语音输入引擎可用呢
从过去到现在。大家听说的文本转语音(tts)引擎一定很多,像很早的讯飞语音加、google文本转语音、vocalizer系列,到现在的TTS server、multitts、广荣tts,它们都在让我们的语音库多一份选择,。可是语音转文本(stt)的本地引擎确很少被提及。于是那时我就下决心:我一定要试着自己做出个能用的语音转文本引擎出来
随着考试的结束,以及我对ai的研究,在顺利完成几个“作品”后,我再一次想起了我这小小的“心愿”那么说做就做吧,这少有的让我这个懒癌晚期患者突然有了动力。
刚开始想做在线语音识别接口的。让大家能够免费薅到大厂的高品质羊毛,但我测试过讯飞家的在线引擎与字节火山提供的在线引擎。前者对个人来说绝对够用,但注册成本极高,需要注册开发者平台账号与实名认证,每隔一段时间还要去开发者平台领取权益。况且个人提供一个自己的接口,那绝对顶不住很多人每天高频次的调用。后者的效果好,但提供的免费额度有限,真的支撑不住。多方考虑之下,准备做离线。
选型挺让人头疼的想选一个好点的,但又照顾到手机对ai模型参差不齐的适配,我认真考虑,最终选择openaiwhisper作为首个可用模型,一是支持的语言多(近100种),纯离线,识别准确率也可以,适配有多种规格的模型,低端到高端都基本能用。二是目前安卓环境有直接可使用的
whisperCPP安卓酷使得手机上使用这个模型成为可能
软件名字是星空语音识别引擎,星空:取自我写的一个小剧本的名字。也是我美好的一个愿望,希望可以奔赴到一片属于自己的承载着自己梦想的星空
废话不多说,一路构建下来,我的软件在与我与ai数次对话中完成了。并且可用

打开软件后,提示专为旧版Android运行,不要管,这是正常的。因为调高一点目标sdk版本,语音输入就不能用。为了语音输入引擎顺利在高版本安卓上运行,只能拉低。请大家理解
在软件刚启动的时候,就会向您申请必要的权限,直接允许即可,软件不会上传任何数据到云端,除非将来有云端识别模型,建议稍后也将自启动与关联启动设置上,以保证软件能够正常运行
主页面十分简单。包含了权限与服务状态,软件设置,模型管理与关于
为了照顾到存储空间,我们没有内置任何模型,所以首先需要在模型管理内下载一个模型


进入模型管理页面,点击下载按钮,即可开始下载模型,普通低端机推荐用tiny或者base系列,低端机可运行 ,速度较快。剩下的small ,medium和large推荐下载量化版本。模型随体积不断优化效果,但需要的内存也越高
点击下载按钮后,模型开始自动下载。可以看到下载的实时进度条,下载完成后,点击模型名称就可以启用它,此时你会收到气泡通知,已启用模型
我的建议,一般情况下使用base模型就可以,不用一位去追求高配置高参数。base的识别效果已经很不错了而且速度也可以

软件设置的构造也非常简单,点击识别语言可以切换让模型识别你说的是哪个语言?软件支持whisper可识别的所有语言,用户可按需调整。推理线程可选择模型推理时占用手机的进程数,推荐设置4~8可以对比速度,尝试效果 。进入系统辅助应用的设置,则可让您直接跳转至辅助应用和语音输入界面(部分系统阉割了此功能),可以将星空语音识别引擎设置为默认语音识别。打开应用信息,则可让您直接进入应用信息的设置,对应用的数据进行删除,或是对权限进行设置
注意:模型默认存储在手机根目录的asr的models文件夹内。可以通过软件来删除,也可以手动删除
语音识别引擎是离线的,不向云端上传任何数据,一切计算都在本地完成。识别结果仅供参考
如何将星空语音识别引擎设置成输入法调用的语音呢。这里以天坦输入法为例
首先点击语音输入设置,将语音输入引擎设置为ASR,再在星空引擎设置好要使用的模型,就能畅快的语音输入啦。最重要的是离线哦
随着AI的发展,它正从一问一答的聊天模式,转向直接输出真正可用的成品,逐渐向生产力与执行性推进,,最终真正帮人类解决实际问题。就像“星空”,和AI无数次对话之后,它最终交到我手里的不是一个答案,而是一个能跑起来的语音识别引擎。聊天模式就是这样悄悄退场,甚至,死亡
。
点击下载星空语音识别引擎1.0在文章的最后,也来给大家推荐一下我和我的朋友们用ai做的小软件
梦仔伴唱,今梦同学开发的看词学歌软件,从此k歌再也不怕忘词啦-end-
它上面显示网页服务器错误下载失败啊
哪个软件的链接错误,我去看看
用Via这个浏览器下载没有问题。
之前是有过这个想法的,但得等我找到更好的模型了,这模型的速度还是有点慢,如果你能忍受长期挂在前台的话也不是不能做其实现在就能做出来
我骁龙8 g516g运存效果还可以的
咳咳note9啊,确实有点老,但能用也算奇迹了,用tiny吧
Operate ai
手机
楼主的语音输入我没去用,因为我用的是QQ输入法,好像只能用腾讯自家语音引擎。然后你这些tts我都下了一遍。还是挺不错的
然后这个纯英文的这个语音合成感觉似曾相识
我去,你这个星空tts,这,hhh,楼主挺厉害的
还是做在线的吧,自己注册大模型账号获取个 API key又不是很难
可用性并不高。模型免费20小时,随后就要求付费
当然如果要是你考虑赞助的话,我可以让所有人都用我的大模型账号,连注册都免了
Hh开发者
模型有点小
下个版本做个小体积的模型,但识别效果惊人
什么手机?系统版本是多少。啥模型
可以先试试small,也有一些量化板模型可供选择
星空tts和you mothertts已更新
星空TTS的英文语音单独调语速就好了,那个英文的语音库感觉没有星空TTS的语音库清晰。
点击启用,large-v3 多语言 原版,最高准确率,约3.1GB,手机需较大内存,文件 ggml-large-v3.bin咱来看看咱那骁龙8至尊能不能玩一玩。
你你你疯了,我都玩不了这个
主要我这个半天不出结果hh,期待你的结果
没有结果。
用不了。
据说这得用到电脑显或服务器,我就等着真的能出结果,试试那个500多m的large能用吗
对了,之后要不要测试我新模型?我私发你安装包
2.0更新计划
1.增加在线语音转写模块,上传音频,通过手机本地算力进行语音转写
2.支持这两个开源仓库的全部语音识别模型https://github.com/k2-fsa/sherpa-onnx,https://github.com/k2-fsa/sherpa-ncnn