2023年,以ChatGPT為代表的認知大模型初步實現了向通用人工智能演進的“智慧涌現”,被公認為是人工智能發展史上一次重大技術階躍。高盛預測基于大模型的生成式AI將推動未來10年全球GDP增長7%,約合近7萬億美元。
OpenAI推出GPT-4o
北京時間5月14日凌晨,OpenAI推出新旗艦模型GPT-4o,可以實時對音頻、視覺和文本進行推理。”據介紹,新模型使ChatGPT能夠處理50種不同的語言。
據了解,GPT-4o支持文本、音頻和圖像的任意組合輸入,并生成文本、音頻和圖像的任意組合輸出。GPT-4o對音頻輸入的響應時間最短為232毫秒,平均為320毫秒,這與人類在對話中的響應時間相似。在錄播視頻中,兩位高管還做出了演示:機器人能夠從急促的喘氣聲中理解“緊張”的含義,并且指導他進行深呼吸,還可以根據用戶要求變換語調。
目前,GPT-4o的文本和圖像功能開始在ChatGPT中免費推出,Plus用戶可以享受到5倍的調用額度。
近兩日,谷歌即將召開年度I/O大會,也將發布其新的語音助手等AI新產品。
根據中研普華產業研究院發布的《2023-2028年中國智能語音行業競爭分析及發展前景預測報告》顯示:
智能語音是指通過人工智能技術和語音識別技術,使計算機能夠理解和處理人類語音的能力。它涉及語音識別、自然語言處理和語音合成等技術,旨在實現與計算機進行自然對話和交互的能力。
作為新一代信息技術和人工智能產業的重要組成部分,智能語音不斷實現關鍵技術突破,精度、速度與智能化水平正在逐年提升。在實際應用環境的匹配度方面,相關技術產品已經可以滿足“混合語種”“復雜環境”“多人交互”等更為高端的任務需求。
智能語音技術具有以下技術特點:
自然語言處理:智能語音識別系統可以處理自然語言,即自然而然地表達的語言,不需要特定的語法和格式,可以更好地滿足用戶的需求。
高準確率:智能語音識別系統采用了深度學習等人工智能技術,可以識別多種語音信號,包括口音、語調、語速等,具有較高的準確率。
實時性:智能語音識別系統可以實時地處理語音信號,即用戶說話時,系統可以實時地進行識別和處理,提高用戶的使用體驗。
多語言支持:智能語音識別系統可以支持多種語言的識別和處理,包括中文、英語、日語、韓語等,具有較強的國際化能力。
個性化服務:智能語音識別系統可以通過學習用戶的使用習慣和特點,提供個性化的語音服務,例如推薦用戶喜歡的音樂、電影等。
新一輪科技浪潮的推動下,人工智能產業正以蓬勃之姿飛速發展。今年全國兩會期間,“人工智能”被首次寫入《政府工作報告》。報告提出,要深化大數據、人工智能等研發應用,開展“人工智能+”行動。
工業和信息化部賽迪研究院數據顯示,2023年,我國生成式人工智能的企業采用率已達15%,市場規模約為14.4萬億元。專家預測,2035年生成式人工智能有望為全球貢獻近90萬億元的經濟價值,其中我國將突破30萬億元。人工智能時代,自主可控的AI技術尤為重要。以正處于黃金期的智能語音技術為例,據國際數據公司IDC分析,2030年,全球智能語音服務市場規模將達約731.6 億美元,復合增長率27%。
目前,我國已有超過19個大語言模型研發廠商,其中15家廠商的模型產品已經通過工信部備案,包括百度、阿里、商湯、昆侖萬維、字節跳動、華為、騰訊、科大訊飛、同花順、京東、小米、360、瀾舟科技、出門問問、復旦大學 MOSS、智譜 AI。
AI技術持續突破及其巨大的成長空間將會為整個產業鏈提供良好的發展動力,逐步從作為行業發展有益補充,轉變為產業數字化智能化轉型的真正核心競爭力。
在激烈的市場競爭中,企業及投資者能否做出適時有效的市場決策是制勝的關鍵。報告準確把握行業未被滿足的市場需求和趨勢,有效規避行業投資風險,更有效率地鞏固或者拓展相應的戰略性目標市場,牢牢把握行業競爭的主動權。
更多行業詳情請點擊中研普華產業研究院發布的《2023-2028年中國智能語音行業競爭分析及發展前景預測報告》。