OpenAI 正面临着一个巨大的难题。它已经创建了一个强大的语音克隆人工智能模型,然而,它的表现如此出色,以至于该公司担心其被滥用的巨大潜力。
这就是为什么 OpenAI 迟迟不肯向公众公布该模型的原因。但是,该公司只提供了一个预览版,展示了一个名为 "语音引擎"(Voice Engine)的模型的能力。它的确令人印象深刻。
基于人工智能的语音克隆技术的要点非常简单。该模型只需要两样东西:原始声音的音频样本和合成声音要朗读的文本。向该工具提供足够多的样本,结果就有望听起来足够逼真。
这就是事情变得有趣和有点可怕的地方。与其他已经公开的模型不同,语音引擎只需要 15 秒的原始说话者音频,然后生成的语音表情却无比逼真。
这也正是 OpenAI 以致力于开发安全、广泛受益的人工智能为由,慢慢决定下一步行动的原因。如此强大的工具可能会成为恶意行为者手中的有力武器,尤其是作为虚假信息宣传活动的一部分。
语音引擎最早开发于 2022 年底。从那时起,它就被用于支持文本到语音 API 中的预设语音,以及 ChatGPT Voice 和 Read Aloud。去年年底,OpenAI 开始与一小群值得信赖的合作伙伴私下测试其语音克隆能力。该公司表示,他们开发的应用程序给公司留下了深刻印象。
这些测试的目的之一是弄清人们和各行各业如何从中受益。另一个原因是确定其被滥用的可能性,并决定采取什么措施:
与此同时,由于合成语音有可能被滥用,我们正在采取谨慎和知情的方式进行更广泛的发布。我们希望就如何负责任地使用合成语音以及社会如何适应这些新功能展开对话。基于这些对话和这些小规模测试的结果,我们将就是否以及如何大规模部署这项技术做出更明智的决定。
OpenAI 认为,在更广泛地发布这项技术的同时,还应该制定相关政策和应对措施,以防止其被滥用。例如,原始发言人应该在知情的情况下将自己的声音添加到服务中,而服务应该能够验证这一事实。此外,这些服务还应该有一个 "禁入名单",禁止名人、政客和其他知名人士的声音再创作。
语音引擎的演示应引发公众讨论。该公司鼓励采取以下措施来减少可能出现的问题:
- 逐步停止将语音验证作为访问银行账户和其他敏感信息的安全措施
- 探索在人工智能中保护个人声音使用的政策
- 教育公众了解人工智能技术的能力和局限性,包括人工智能欺骗性内容的可能性
- 加快开发和采用追踪视听内容来源的技术,让人们始终清楚自己是在与真人还是在与人工智能互动
值得一提的是,OpenAI 的模型并不是唯一公开可用的语音克隆工具。目前,最流行的是 ElevenLabs。不过,即使有足够的音频样本,结果也不一定令人信服。
看来,无论是在易用性还是克隆语音的质量方面,语音引擎都将向前迈进一大步。