人工智能語音技術的三大挑戰(zhàn)
人工智能從業(yè)者在談到語音對語音技術時通常會遇到常見的三個障礙。
人工智能(AI)能夠生成類似人類的數據的前景已經被談論了幾十年。然而,數據科學家已經解決了這個問題,但收效甚微。精確確定創(chuàng)建此類系統(tǒng)的有效策略帶來了從技術到倫理以及兩者之間的各個方面的挑戰(zhàn)。然而,生成式人工智能已經成為值得關注的亮點。
在最基本的情況下,生成式人工智能使機器能夠使用音頻文件、文本和圖像等元素生成從語音到寫作到藝術的內容??萍纪顿Y公司SequoiaCapita公司表示:"生成式人工智能不僅會變得更快、更便宜,在某些情況下還會比人類手工創(chuàng)造的人工智能更好。"
特別是基于生成語音的機器學習技術,最近的進展已經取得了巨大的進步,但人們仍然有很長的路要走。事實上,語音壓縮出現在人們非常依賴的應用程序中,比如Zoom和Teams,這仍然是基于上世紀80年代和90年代的技術。雖然語音對語音技術有無限的潛力,但評估生成式人工智能發(fā)展障礙的挑戰(zhàn)和缺點至關重要。
以下是人工智能從業(yè)者在談到語音對語音技術時常見的三個障礙。
1.音質
可以說,最佳對話最重要的部分是它是可以理解的。在語音對語音技術的情況下,目標是聽起來像人。例如,Siri和Alexa的機器人語調就像機器一樣,并不總是清晰。這很難通過人工智能實現,有幾個原因,但人類語言的細微差別起了很大作用。
梅拉比安法則可以幫助解釋這一點。人類的對話可以分為三部分:55%的面部表情,38%的語氣,以及僅僅7%的文字。機器理解依賴于文字或內容來操作。只有在自然語言處理(NLP)方面取得了最近的進展,才有可能根據情緒、情緒、音色和其他重要(但不一定是口語)的語言方面來訓練AI模型。如果你只處理音頻,而不是視覺,這就更有挑戰(zhàn)性了,因為沒有超過一半的理解來自面部表情。
2.延遲
人工智能綜合分析可能需要時間,但在語音對語音通信中,實時是唯一重要的時間。語音轉換必須在說話時立即發(fā)生。它還必須是準確的,你可以想象,這對一臺機器來說不是一件容易的事。
實時的必要性因行業(yè)而異。例如,一個做播客的內容創(chuàng)造者可能更關心音質而不是實時語音轉換。但對于客戶服務這樣的行業(yè),時間是至關重要的。如果呼叫中心代理使用語音輔助人工智能來響應來電者,他們可能會在質量上做出一些犧牲。盡管如此,時間對于提供積極的體驗還是至關重要的。
3.規(guī)模
為了讓語音對語音技術發(fā)揮其潛力,它必須支持各種口音、語言和方言,并且對每個人都可用——而不僅僅是特定的地區(qū)或市場。這需要掌握技術的特定應用程序,并進行大量的調優(yōu)和培訓,以便有效地擴展。
新興的技術解決方案并不是萬能的;對于給定的解決方案,所有用戶都需要通過數千個體系結構來支持這種AI基礎設施。用戶還應該期望對模型進行一致的測試。這并不新鮮:機器學習的所有經典挑戰(zhàn)也適用于生成式AI領域。
那么,人們如何開始解決這些問題,從而開始意識到語音對語音技術的價值呢?幸運的是,當你逐步分解它時,它就不那么可怕了。首先,你必須掌握這個問題。前面我舉了一個呼叫中心和內容創(chuàng)建者的例子。確保你考慮了用例和期望的結果,并從那里開始。
第二,確保您的組織擁有正確的體系結構和算法。但在此之前,要確保企業(yè)有正確的數據。數據質量很重要,特別是在考慮人類語言和語音這樣敏感的東西時。最后,如果您的應用程序需要實時語音轉換,請確保該功能得到支持。最終,沒人想和機器人說話。
雖然關于生成人工智能深度造假、同意和適當披露的倫理擔憂現在逐漸浮出水面,但重要的是首先要理解和解決基本問題。語音對語音技術有可能徹底改變我們理解彼此的方式,為將人們團結起來的創(chuàng)新創(chuàng)造機會。但為了實現這一目標,必須首先面對主要挑戰(zhàn)。?