Claude Code 硬核上线语音功能!
Anthropic 官方宣布 Claude Code 语音模式灰度推送,AI 编程进入“口喷时代”,语音转录 Token 完全免费。
语音编程:效率革命
很多时候阻碍我们写代码的不是逻辑不够清晰,而是打字速度远远跟不上脑子的转速。尤其是对于中文用户,还要面临中英切换、选词标点删除等问题。输入和表达成为了 AI 编程的最短那块板。
- 打字极限:约 40 词/分钟
- 说话速度:约 150 词/分钟
三到四倍的效率差,就是语音编程要降维打击的战场。无论是吃东西、手腕酸痛,还是单纯思路枯竭不想敲击键盘,语音输入都是解放生产力的绝对刚需。
Claude Code 语音模式详解
目前处于灰度推送阶段,更新到最新版本后:
- 输入斜杠命令
/voice - 按住空格键开始说话
- 松开空格,语音瞬间变成文字,精准插入光标所在位置
所有语音转录的 Token 消耗完全免费,不计入调用额度——对 typeless 这类收费语音工具来说,堪称致命一击。
不过,官方 Claude Code 目前只支持少部分语言,不包含中文。
语音输入的未来与个人实践
语音输入在今年会成为各家的必争之地,进一步提升 AI 编程的人机交互自然度。其实也不只是编程——我本人使用语音输入已成为常态,大部分你现在看到的文章不是写出来的,而是说出来的。
编辑和发布微信文章使用豆包输入法,电脑上则用 Speakly 这类收费软件。但线上转录软件仍有痛点:
- 延时掉包:Speakly 经常需要重复说几次
- 私密性风险:所有对话传到云端,中间环节越多,泄露风险越大
- 隔离环境限制:很多开发场景需要离线环境
基于 Qwen ASR 的离线方案
正好前一段时间,千问推出了 ASR 模型,效果非常好,我在此基础上封装打包了一个语音输入桌面应用 ASRO:
- 完全离线,0 延时
- 模型使用 Qwen3-ASR 0.6B,语音识别转录速度极其高效准确,尤其擅长中文处理
- 支持后置优化处理,纯本地部署 ollama 和 qwen 模型,可处理口头禅、修复标点符号
- 后期将加入 Agent 模式、语句联想、截屏场景等功能
相较于市面上的语音输入应用,ASRO 延时更低,私密性更好。
文章转载至互联网