| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家想不想调用豆包的音色来朗读小说? |
|
这个旁白是人家博主本人的声音啊。 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家想不想调用豆包的音色来朗读小说? |
|
做语音库的话,我会担心会出事啊。一旦我们这边的豆包资源包用完了,你们的读屏没声音了,那不就坏事了。 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家想不想调用豆包的音色来朗读小说? |
|
做读屏语音库有风险啊,万一我这边的额度用完了,字节跳动拒绝了我的请求,那不就歇菜了,小说就不同了,额度用完了,大不了他就不出声了呗,你们的读屏还是能正常操作啊。 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家想不想调用豆包的音色来朗读小说? |
|
用脚本,字节跳动会封你服务啊。普通用户哪有能力天天跟字节跳动玩猫鼠游戏? |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家想不想调用豆包的音色来朗读小说? |
|
不过虽然项目是别人的,但思路是可行的, |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家想不想调用豆包的音色来朗读小说? |
|
唉,有没有一种可能这个就是人家B站的视频呢?我们就是借鉴别人的思路嘛,是音频里面的项目,他们得让用户自己去抓包,自己部署服务,我们直接将这个步骤省了。用户要使用的时候,直接在我们,飞言 TTS里头获取我们提供的密钥,再粘贴到开源阅读里面就可以用了 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家想不想调用豆包的音色来朗读小说? |
|
那我们肯定会尽量精简步骤啊。 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家需不需要能创建录音纪要的工具? |
|
我们,飞言 TTS而本质上就是一个ai聚合平台,将豆包,声音复刻等模型通通整合在一起供大家调用。根本没有办法做离线语音库啊,我们根本没有豆包的离线语音包。 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家需不需要能创建录音纪要的工具? |
|
好的,没问题,我的qq号码,2767964115 微信手机同号,16782075245 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家需不需要能创建录音纪要的工具? |
|
那行,我们研究一下怎么弄,不过做出来之后不好用,不要骂我们哈。具体哪里不好用呢?一,非常的烧钱,二,速度特别的慢,可能你滑一下焦点,你可能得等个几秒,读屏才会有声音。 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家需不需要能创建录音纪要的工具? |
|
做成语音库是吧?那行,回头我鼓捣鼓捣。 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家需不需要能创建录音纪要的工具? |
|
那做游戏输入法,那不更没人用了。 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家需不需要能创建录音纪要的工具? |
|
那视频生成你们需要吗?刚好豆包的视频生成模型2.0开放了。 |
| 阿飞哥 1周前 评论了 阿飞哥 创建的话题 › 大家需不需要能创建录音纪要的工具? |
|
阿飞输入法 开发文档(V2.0)
一、项目概述(先讲明白我们要做个啥) 我们要做的阿飞输入法,本质是一个Windows后台常驻的语音辅助工具,不是传统的系统级输入法,核心定位就像一个「时时刻刻待命的助理」——平时安静挂在后台不打扰,用户。按快捷键就立刻响应,帮你把语音转成文字,还能搞定会议纪要这类长语音需求。 核心目标用户是视障群体,完美兼容争渡读屏、NVDA等主流读屏软件,同时拓展了长语音识别能力,不局限于单纯的打字输入,要做能覆盖日常聊天、开会记录全场景的实用工具。 核心功能清单 1. 核心语音输入:按Ctrl键开始录音,再按一次Ctrl键停止录音,识别完成的文字自动插入到当前光标停留的输入框,全系统所有软件(微信、浏览器、Word等)通用
二、核心业务全链路(一步看懂完整流程) 整个业务逻辑非常清晰,从触发到出结果,全程就这几步: 1. 软件启动后,自动最小化到系统托盘,后台静默运行,不占用前台窗口,只监听我们设定的全局快捷键
三、技术选型(主推.NET WinForms方案,讲清为什么选它) 我们最终确定的核心技术栈是 .NET 8 + WinForms,完全对标争渡之多云的成熟技术路线,也是最适配我们需求、对大家最友好的方案,核心优势非常明确: 为什么选.NET WinForms? 1. 对熟悉Web开发的同学极度友好,几乎零学习成本
各模块对应技术选型(全是现成工具,不用从零写) 表格 功能模块 选用工具/库 直白说明 备选方案补充 如果大家完全不想接触新语言,还是想用熟悉的HTML/CSS/JS技术栈,可以选Tauri 2.0方案,零前端学习成本,内存占用也只有Electron的1/10,但无障碍兼容性和原生性不如.NET WinForms,所以优先推荐.NET方案。
四、核心功能实现逻辑(只讲逻辑,不堆专业术语)
五、多端适配说明 我们的能力不局限于PC端的阿飞输入法,同时覆盖移动端用户需求: 1. PC端:就是本次开发的阿飞输入法,主打Windows系统全局语音输入、会议纪要,满足电脑端用户的核心需求
六、开发难度&周期预估(给大家吃定心丸) 针对熟悉Web开发的同学,所有模块都有现成的开源库和示例代码,几乎没有技术门槛,开发周期非常可控: 表格 模块 难度等级 预估开发时间 备注 整体预估:核心功能1周即可完成开发,再用1周做兼容性测试、读屏适配、bug修复,总计2周左右就能产出可上线的版本。
七、兼容性与安全规范
|
| 阿飞哥 1周前 评论了 TooTo 创建的话题 › 兄弟们,豆包又多了一个功能。 |
|
这不很正常吗?豆包对接了抖音电商的生态,我甚至还能在豆包里面买东西呢,毕竟豆包自己砸那么多钱去做,肯定不可能就是单纯给我们拿来聊天用的嘛。 |
| 阿飞哥 2周前 评论了 阿飞哥 创建的话题 › 大家需不需要电脑端的语音输入法? |
|
手机版开发难度也更大。毕竟手机端我们得面对一堆厂商魔改过的安卓系统。电脑端就不用担心这个烦恼了,只需把它挂在后台,让他监听ctrl键有没有被触发就可以了。 |
| 阿飞哥 2周前 评论了 阿飞哥 创建的话题 › 大家需不需要电脑端的语音输入法? |
|
不是说了吗?我这个项目是纯语音输入法。盲文输入法我们也想做啊,但可惜没有现成的框架给我们用,我们不可能从头开始做吧。 |
| 阿飞哥 2周前 评论了 阿飞哥 创建的话题 › 大家需不需要电脑端的语音输入法? |
|
毕竟智慧人生它是一个综合性软件,语音输入只是它的一个附加功能。 |
| 阿飞哥 2周前 评论了 阿飞哥 创建的话题 › 大家需不需要电脑端的语音输入法? |
|
具体的费用的话,到时候得等我们把产品端上桌,我们才能定啊,不过肯定会比智慧人生便宜,不过现在嘛,我自己连成品我都还没摸到呢。 |
| 阿飞哥 2周前 评论了 阿飞哥 创建的话题 › 视障人群能不能看外语电影?这篇文章给你想要的答案。 |
|
天坛的字幕识别只能识别你手机播放的电影,我看的电影是在电影院看的电影,能一样吗?一个是你手机本身播放的,一个是荧幕上播放的。 |