大家需不需要能创建录音纪要的工具？

3 阿飞哥 3个月前 326次点击

大家好，我是。飞言 TTS的站长阿飞哥，

在上一篇帖子，我官宣，我要开发阿飞输入法，那篇帖子的评论区收到了很多用户的建议，大家的统一观点都是，让我们不要开发阿飞输入法，理由是用电脑的视障用户，本来就是会打字的，不会打字，需要语音输入的视障用户，非常的小众，我想着大家说的也对，所以我打算往阿飞输入法里面塞，以下功能，那就是录音纪要，当然，录音纪要不会让阿飞输入法独占，我们也会在，飞言 TTS平台当中进行上线，以下是我们新产品会用到的模型信息，希望大家能给出建议。除了录音纪要和输入法，我们还可以用该模型做什么对大家有用的产品，模型信息，Doubao-语音识别

火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势，语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑。

Doubao-录音文件识别2.0

录音文件识别2.0模型依托 Seed 混合专家大语言模型架构构建，在延续 1.0 版本中 20 亿参数高性能音频编码器优势的基础上，重点针对专有名词、人名、地名、品牌名称及易混淆多音字等复杂场景进行优化升级，并凭借更强的上下文推理能力，实现多模态信息理解、混合语言精准识别与音频深度解析能力。

豆包流式语音识别大模型标题 1

通用ASR有以下几个难点

在噪音环境下,模型性能显著下降;

面对同音字词,时常无法正正确区分;

对专有名词(如地名,行业术语)无法正确识别。

很难保保证上下文的一致性,如人名,代词他她它等。

基于上述问题和挑战,火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势，语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑。

产品优势

超高的准确率：相比小模型识别错误率降低30%，在音乐，科技，教育，医疗等垂直领域识别错误率降低50%以上。

复杂场景识别效果提升：支持多语种多方言语音识别，口音错误率降低60%，噪声和背景人声下降30%-50%

应用场景

语音交互：为人机交互提供语音输入渠道，通过实时将语音转成文字作为输入，达到和设备/硬件/应用快速&便捷交互的目的。

会议访谈转写：将会议、访谈音频实时识别为文字，自动切分有语音部分识别，降本增效；同时自动分段，有效提升会议内容记录效率。

游戏语音输入：针对游戏语音输入、手机输入法场景，支持用户“边说边出文字”的效果，极大降低用户文字沟通费力度、提升沟通效率。

天坦茶馆·有料闲聊

共 21 条评论

阿飞哥 [楼主] 3个月前

阿飞输入法开发文档（V2.0）一、项目概述（先讲明白我们要做个啥）我们要做的阿飞输入法，本质是一个Windows后台常驻的语音辅助工具，不是传统的系统级输入法，核心定位就像一个「时时刻刻待命的助理」——平时安静挂在后台不打扰，用户。按快捷键就立刻响应，帮你把语音转成文字，还能搞定会议纪要这类长语音需求。核心目标用户是视障群体，完美兼容争渡读屏、NVDA等主流读屏软件，同时拓展了长语音识别能力，不局限于单纯的打字输入，要做能覆盖日常聊天、开会记录全场景的实用工具。核心功能清单 1. 核心语音输入：按Ctrl键开始录音，再按一次Ctrl键停止录音，识别完成的文字自动插入到当前光标停留的输入框，全系统所有软件（微信、浏览器、Word等）通用 2. 双识别模式（菜单可切换）： - 实时流式识别：默认模式，边录边上传，低延迟，适合日常打字聊天 - 长语音/会议纪要模式：适合开会、讲课场景，全程录音结束后一次性识别，对接豆包大模型生成结构化纪要，支持重点提炼 3. 全局快捷键： - Ctrl ：启动/停止录音 - Alt+P ：一键呼出阿飞输入法主菜单 - Alt+Q ：一键退出软件 4. 基础菜单功能：主菜单包含个人中心（对接飞言TTS账号）、识别模式切换、基础设置、关于我们 5. 账号与风控：完全复用飞言TTS现有的账号体系、权限、计费和风控规则，无需重复开发 6. 无障碍全适配：所有操作都有语音反馈，界面全兼容读屏软件，全程支持键盘操作，无需鼠标 7. 多端联动：PC端是阿飞输入法，同时在飞言TTS网页端（含安卓端）集成同款录音识别能力，安卓用户只需安装APP，打开网页就能使用二、核心业务全链路（一步看懂完整流程）整个业务逻辑非常清晰，从触发到出结果，全程就这几步： 1. 软件启动后，自动最小化到系统托盘，后台静默运行，不占用前台窗口，只监听我们设定的全局快捷键 2. 按下快捷键触发对应操作： - 按 Ctrl ：当前没在录音就启动录音，同步播放“开始录音”语音提示；正在录音就停止录音，播放“正在识别”提示 - 按 Alt+P ：直接呼出软件主菜单界面 - 按 Alt+Q ：直接关闭退出软件 3. 录音停止后，根据用户选择的识别模式，调用对应的豆包语音识别接口： - 实时模式：录音过程中已分片上传音频，停止后直接获取最终识别文本 - 纪要模式：把完整录音文件传给豆包录音文件识别接口，同时调用大模型生成结构化会议纪要识别完成的内容统一放在我的纪要列表下。同时以弹窗的形式告诉用户，你的纪要创建好了，既要可以支持用户进行复制、保存等操作。网页端和移动端创建的录录音纪要可以进行下载成txt进行保存。 4 Pc端的阿飞输入法普通模式识别成功之后，服务端返回的结果。. 拿到识别结果后，通过Windows系统原生接口，把文字模拟成手动打字的动作，自动插入到用户当前光标停留的输入框中，同时读屏软件会自动朗读输入的内容 5. 全流程同步对接飞言TTS账号体系，完成权限校验、调用量统计、风控拦截，全部复用现有能力，无需额外开发三、技术选型（主推.NET WinForms方案，讲清为什么选它）我们最终确定的核心技术栈是 .NET 8 + WinForms，完全对标争渡之多云的成熟技术路线，也是最适配我们需求、对大家最友好的方案，核心优势非常明确：为什么选.NET WinForms？ 1. 对熟悉Web开发的同学极度友好，几乎零学习成本 - C#的核心语法和JavaScript/TypeScript高度相似，async/await异步写法、事件监听、类这些大家天天用的逻辑，C#里几乎一模一样，1-2天就能上手写核心代码 - 开发逻辑和Web里「写DOM+绑定事件」完全一致，就是「拖拽控件+绑定事件」，没有额外的思维门槛 - 所有功能都有成熟的开源库和现成示例，不用从零造轮子，直接拿来就能用 2. 彻底解决内存占用问题，性能拉满 - 后台常驻内存仅8-15MB，和之多云的占用几乎一致，哪怕录音识别的峰值内存也不会超过50MB，老旧电脑也完全不卡顿 - 无需打包浏览器内核，安装包体积极小，用户下载安装都很方便 3. 兼容性无敌，尤其适配视障用户需求 - 纯Windows原生应用，直接调用系统底层接口，和所有Windows软件、现有输入法都不会冲突 - 所有控件原生支持Windows无障碍接口，和争渡读屏、NVDA的兼容性是所有方案里最好的，不用额外折腾适配 4. **微软官方长期维护，生态稳定，坑少，出问题有海量中文教程和解决方案各模块对应技术选型（全是现成工具，不用从零写）表格功能模块选用工具/库直白说明核心框架 .NET 8 + WinForms 微软官方原生Windows开发框架，轻量稳定，上手快全局快捷键监听 MouseKeyHook 开源库几行代码就能实现Ctrl、Alt+P、Alt+Q的全局按键监听，完美适配我们的交互需求音频采集处理 NAudio 开源库 .NET生态最成熟的音频库，直接就能录制符合豆包ASR要求的音频，还能做降噪、静音检测接口对接原生HttpClient/WebSocket 对接豆包ASR、飞言TTS接口，和Web里调用后端接口的逻辑完全一致文本插入光标 Windows原生SendInput接口模拟真实手动打字，和用户自己敲键盘完全一致，所有软件都兼容，读屏能正常朗读无障碍适配 WinForms原生控件所有控件自带无障碍属性，加个描述文本就能完美适配读屏软件备选方案补充如果大家完全不想接触新语言，还是想用熟悉的HTML/CSS/JS技术栈，可以选Tauri 2.0方案，零前端学习成本，内存占用也只有Electron的1/10，但无障碍兼容性和原生性不如.NET WinForms，所以优先推荐.NET方案。四、核心功能实现逻辑（只讲逻辑，不堆专业术语） 1. 全局快捷键监听模块 - 软件启动就注册全局键盘监听，只关注我们设定的三个快捷键操作，过滤其他无关按键 - 做防抖和状态锁：比如按Ctrl时，先判断当前有没有在录音，没在录就启动录音，正在录就停止，避免重复触发 - 不抢占读屏软件的全局快捷键，完全不干扰读屏软件的正常运行 2. 音频采集与处理模块 - 严格按照豆包ASR的要求录制音频：16kHz采样率、16bit位深、单声道PCM编码，保证识别准确率 - 实时模式下，每200ms录制一个音频分片，实时上传给豆包ASR，最大程度降低延迟 - 自带降噪和静音检测，过滤掉无语音的空白音频，提升识别准确率，减少无效流量 3. 豆包语音识别对接模块 - 核心对接两个豆包官方接口： - 双向流式ASR接口：给实时输入模式用，边录边传，首字延迟低，适合日常打字场景 - 录音文件识别接口：给会议纪要模式用，支持长音频识别，同时对接豆包大模型做纪要结构化提炼 - 内置鉴权、断网重连、超时重试、错误提示机制，保证运行稳定 - 调用逻辑和Web里对接后端接口完全一致，就是发送请求、接收结果，没有额外学习成本 4. 文本插入核心模块 - 用Windows系统原生的SendInput接口，把识别出来的文字，模拟成用户手动敲键盘的动作，输入到当前光标处 - 核心优势：不用管用户当前在哪个软件、哪个输入框，系统会自动把文字插到光标停留的位置，和真实手动打字完全一致，100%兼容所有软件，读屏软件也能正常捕获输入内容并自动朗读 5. 界面与菜单模块 - 软件默认后台运行，只有按Alt+P才会呼出主界面，不占用前台窗口 - 主界面菜单极简：个人中心（登录飞言TTS账号、查看调用额度）、识别模式切换、基础设置、关于我们 - 所有界面元素都添加无障碍标签，读屏软件能正常识别朗读，全程支持键盘操作，无需鼠标 6. 账号与风控模块 - 完全复用飞言TTS现有的接口能力，包括用户登录、权限校验、调用量统计、风控拦截 - 每次调用识别接口前，先校验用户是否有可用额度、是否触发风控拦截，校验通过才会放行 - 无需重新开发后端体系，直接对接现有能力，大幅减少开发量 7. 无障碍适配模块 - 操作全程有语音反馈：按下Ctrl启动录音播“开始录音”，停止录音播“正在识别”，识别成功/失败都有对应提示 - 所有界面控件都有正确的无障碍属性，读屏软件能正常识别和朗读 - 输入逻辑和真实打字完全一致，读屏软件能正常捕获并朗读输入的文本内容，不干扰读屏软件的正常运行五、多端适配说明我们的能力不局限于PC端的阿飞输入法，同时覆盖移动端用户需求： 1. PC端：就是本次开发的阿飞输入法，主打Windows系统全局语音输入、会议纪要，满足电脑端用户的核心需求 2. 网页/安卓端：在现有的飞言TTS网页中，集成豆包录音文件识别能力，安卓用户无需单独下载APP，打开手机浏览器进入飞言TTS网页，就能使用录音转文字、纪要生成的功能，满足移动端的使用需求六、开发难度&周期预估（给大家吃定心丸）针对熟悉Web开发的同学，所有模块都有现成的开源库和示例代码，几乎没有技术门槛，开发周期非常可控：表格模块难度等级预估开发时间备注项目搭建与基础界面极低半天 Visual Studio一键创建项目，拖拽控件即可完成界面搭建全局快捷键监听极低半天直接用MouseKeyHook库，现成示例直接套用音频采集与处理低 1天 NAudio有成熟示例，直接按豆包要求配置参数即可豆包ASR+飞言接口对接低 1-2天和Web里调用后端接口逻辑完全一致，无学习成本文本插入核心功能低 1天有现成的封装代码，直接套用即可菜单界面与无障碍适配极低半天原生控件自带无障碍能力，补充描述文本即可打包与部署极低半天 Visual Studio一键打包成exe安装包整体预估：核心功能1周即可完成开发，再用1周做兼容性测试、读屏适配、bug修复，总计2周左右就能产出可上线的版本。七、兼容性与安全规范 1. 兼容性说明 - 支持Windows 10 1903及以上版本、Windows 11全版本，兼容32位/64位系统 - 兼容所有主流Windows输入法，不会产生冲突 - 完美适配争渡读屏、NVDA、Windows讲述人等所有主流读屏软件 2. 安全与隐私规范 - 音频数据仅在录音期间临时存储在内存中，识别完成后立即销毁，不本地保存用户录音文件 - 所有音频、文本数据传输均采用加密协议，保证数据传输安全 - 严格遵循飞言TTS的风控规则，对违规内容进行拦截，不存储、不传播用户的识别内容 - 应用仅申请必要的系统权限（麦克风、网络访问），无需管理员权限即可正常运行

夜舞倾城 3个月前

都是电脑的

小毛毛与水厚 3个月前

豆包这款软件里面也支持上传音频进行录音纪要啊，那你开发的这个工具优势在哪里呢？

TEKMAN 3个月前

这功能新一点的手机系统都自带了吧，算是端侧AI里最容易实现的功能之一了，第三方也有替代品

阿飞哥 [楼主] 3个月前

那视频生成你们需要吗？刚好豆包的视频生成模型2.0开放了。

TEKMAN 3个月前

我认为对于视障用户这也是个小众需求，要用的话肯定也是直接用豆包的app。建议还是关注文本转语音和语音转文本这方面吧，比如你可以做一个安卓端的语音转文本引擎，做成可以让天坦输入法调用的形式，之前那个 TTS 不知道是不是还是浏览器套壳，如果做成 TTS 引擎能直接让阅读这样的 APP 调用那可玩性会高很多，纯个人看法仅供参考。

阿飞哥 [楼主] 3个月前

做成语音库是吧？那行，回头我鼓捣鼓捣。

通通通通仨呼噜 3个月前

游戏语音转文字还挺不错的。让用户在游戏中直接动嘴就能够在对话框中输入文字，这样他就不需要右手离开鼠标了，这倒是挺不错。这个功能可能就更加偏向正常视力的用户了，因为眼神不好的朋友们很少用鼠标。这样的话还是要嵌入到一款输入法里面去。所以做一款游戏输入法吧

阿飞哥 [楼主] 3个月前

那做游戏输入法，那不更没人用了。

通通通通仨呼噜 3个月前

会有人用的。电脑输入法切换那么容易，如果这个输入法适合在游戏中用，那么玩家在游戏中就切换到这个输入法就行了。只是面临两个问题一是没有护城河，别的输入法很容易做出同样的功能。第二没法变现。

迷壶博士 3个月前

我需要豆包tts1.0和2.0当读平音库

迷壶博士 3个月前

语音转文本引擎真的强推荐