Google开源扬声器Diarization AI技术声称准确度达到92%

最近Google开源扬声器Diarization AI技术声称准确度达到92%这个话题,相信很多小伙伴都是非常有兴趣了解的吧,一段好的故事可以给读者带来很多值得深思的新东西,甚至还可以在一定程度上让读者的视野在瞬间扩大,那么既然现在大家都想要知道此类的信息,今日小编将给带来关于Google开源扬声器Diarization AI技术声称准确度达到92%的资讯!

Google在最近的博客文章中宣布,他们已经开放了他们的扬声器二值化技术的来源,该技术能够以较高的准确率区分人的声音。Google可以通过将包括多个参与者的音频流划分为每个参与者同质的片段来做到这一点。

将语音划分为同类片段具有许多应用。Google的研究科学家Chong Wang解释道:

通过解决“谁在何时说话”的问题,说话者区分在许多重要场景中都得到了应用,例如了解医疗对话,视频字幕等等。

能够准确地划分对话,可以提高在线和离线数字化系统的质量。最新的《Annals家庭医学杂志》报道说,这种好处在医疗保健行业具有许多实际好处。

医生通常会在11小时的工作日中,在电子健康记录(EHR)中花费约6个小时来记录文档。因此,一项研究发现,超过一半的接受调查的医生报告至少有一种倦怠症状。

从历史上看,使用监督学习方法来训练语音听写系统向来是一项挑战。王解释原因:

使用监督学习方法来训练这些系统是具有挑战性的-与标准监督分类任务不同,一个强大的区分模型需要能够将新人与未参与训练的不同语音段相关联。重要的是,这限制了在线和离线数字化系统的质量。

在流音频输入上使用在线扬声器二值化可以检测到不同的扬声器,如下图所示,其底轴颜色不同。

(0)
上一篇 2022年7月10日
下一篇 2022年7月10日

相关推荐