0 阿飞哥 4小时前 120次点击
大家好,我是。飞言 TTS的站长阿飞哥,
在上一篇帖子,我官宣,我要开发阿飞输入法,那篇帖子的评论区收到了很多用户的建议,大家的统一观点都是,让我们不要开发阿飞输入法,理由是用电脑的视障用户,本来就是会打字的,不会打字,需要语音输入的视障用户,非常的小众,我想着大家说的也对,所以我打算往阿飞输入法里面塞,以下功能,那就是录音纪要,当然,录音纪要不会让阿飞输入法独占,我们也会在,飞言 TTS平台当中进行上线,以下是我们新产品会用到的模型信息,希望大家能给出建议。除了录音纪要和输入法,我们还可以用该模型做什么对大家有用的产品,模型信息,Doubao-语音识别
火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑。
Doubao-录音文件识别2.0
录音文件识别2.0模型依托 Seed 混合专家大语言模型架构构建,在延续 1.0 版本中 20 亿参数高性能音频编码器优势的基础上,重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行优化升级,并凭借更强的上下文推理能力,实现多模态信息理解、混合语言精准识别与音频深度解析能力。
豆包流式语音识别大模型 标题 1
通用ASR有以下几个难点
在噪音环境下,模型性能显著下降;
面对同音字词,时常无法正正确区分;
对专有名词(如地名,行业术语)无法正确识别。
很难保保证上下文的一致性,如人名,代词他她它等。
基于上述问题和挑战,火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑。
产品优势
超高的准确率:相比小模型识别错误率降低30%,在音乐,科技,教育,医疗等垂直领域识别错误率降低50%以上。
复杂场景识别效果提升:支持多语种多方言语音识别,口音错误率降低60%,噪声和背景人声下降30%-50%
应用场景
语音交互: 为人机交互提供语音输入渠道,通过实时将语音转成文字作为输入,达到和设备/硬件/应用快速&便捷交互的目的。
会议访谈转写:将会议、访谈音频实时识别为文字,自动切分有语音部分识别,降本增效;同时自动分段,有效提升会议内容记录效率。
游戏语音输入:针对游戏语音输入、手机输入法场景,支持用户“边说边出文字”的效果,极大降低用户文字沟通费力度、提升沟通效率。
这功能新一点的手机系统都自带了吧,算是端侧AI里最容易实现的功能之一了,第三方也有替代品
那视频生成你们需要吗?刚好豆包的视频生成模型2.0开放了。
我认为对于视障用户这也是个小众需求,要用的话肯定也是直接用豆包的app。建议还是关注文本转语音和语音转文本这方面吧,比如你可以做一个安卓端的语音转文本引擎,做成可以让天坦输入法调用的形式,之前那个 TTS 不知道是不是还是浏览器套壳,如果做成 TTS 引擎能直接让阅读这样的 APP 调用那可玩性会高很多,纯个人看法仅供参考。
做成语音库是吧?那行,回头我鼓捣鼓捣。
那做游戏输入法,那不更没人用了。
我需要豆包tts1.0和2.0当读平音库
语音转文本引擎真的强推荐
那行,我们研究一下怎么弄,不过做出来之后不好用,不要骂我们哈。具体哪里不好用呢?一,非常的烧钱,二,速度特别的慢,可能你滑一下焦点,你可能得等个几秒,读屏才会有声音。
如果语音转文本,其实那延迟是能接受的,文本转语音双向流式api也能用
要不语音引擎交给我,我来帮你
好的,没问题,我的qq号码,2767964115
微信手机同号,16782075245
我们,飞言 TTS而本质上就是一个ai聚合平台,将豆包,声音复刻等模型通通整合在一起供大家调用。根本没有办法做离线语音库啊,我们根本没有豆包的离线语音包。
啊哈,楼主是否有重启光明论坛的计划