
Alibaba Tongyi Bailing upgraded again, allowing seamless switching between languages, dialects, and emotions in 3 seconds of recording
阿里 (09988.HK) 旗下通義大模型公佈,通義百聆再升級,只需 3 秒錄音,就能讓你的聲音無縫切換語種、方言與情緒——中、粵、日、英、開心、憤怒,幷包含 9 種通用語言及 18 種方言。一段嘈雜環境下的會議錄音,AI 也能毫秒級輸出文字,繞口令、RAP、背景音樂干擾。
當中,Fun-CosyVoice3 模型升級,首包延遲降低 50%,中英混字準確率翻倍,支援 9 語種 18 方言口音;Fun-CosyVoice3 (0.5B) 正式開源,提供 zero-shot 音色克隆能力,支援本地部署與二次開發;Fun-ASR 模型能力增強,噪聲場景準確率 93%、支援歌詞與説唱識別、31 語種自由混説、方言口音覆蓋,並將流式識別模型的首字降低到 160ms;Fun-ASR-Nano (0.8B) 開源,Fun-ASR 的輕量化版本,推理成本更低,模型開源,支援本地部署與定製化微調。
