根據《2024年版智能手機產業規劃專項研究報告》分析,從2023年底至2024年一季度,新一代旗艦智能手機陸續發布,越來越多的基于生成式AI能力的功能開始出現在這些產品中。無論是手機廠商還是其生態伙伴,在主動擁抱生成式AI趨勢的同時,也在積極探索各種可能性,著力打造對用戶有價值的高頻使用場景,而這一探索將貫穿整個2024年。Counterpoint認為2024年會是生成式AI手機的元年。
大約在二十多年前,以諾基亞塞班為代表的操作系統,第一次允許用戶自行下載APP,并將其作為入口,訪問服務和數字內容,這種模式一直持續到今天。也正是這種變化,使得全球的開發者可以加入到智能手機產業中來,為手機用戶提供豐富多樣的應用選擇,促成了之后移動互聯網生態的蓬勃發展,手機也逐漸發展為人們休閑娛樂、通信社交、健康和出行服務、消費購物,以及移動辦公的重要載體,早已不可或缺。2007年,iPhone的問世顛覆了傳統的手機設計理念,物理鍵盤逐漸被淘汰,觸控屏幕成為人機交互的核心。然而隨著時間的推移,在一些場景下,觸控輸入的方式變得越來越低效,常常需要多次的用戶干預,才能到達最終的服務界面。在此背景下,出現了包括智能語音助手,手勢、眼球追蹤在內的新的交互方式,致力于打造更流暢、高效,更加用戶友好的交互體驗。通過AI技術賦能智能手機的嘗試最早可以追溯至2017年,彼時蘋果剛剛發布了首款后置雙攝手機iPhone7Plus,而安卓陣營也開始在其SoC平臺中加入獨立的AI計算單元,用于運行和影像增強相關的深度學習模型。在這之后,AI技術逐漸被手機廠商用于更多方面,如強化安全、優化續航、提升網絡性能等,但計算攝影一直是其最主要的應用領域,直到LLM被裝進智能手機,手機AI應用從中小模型時代跨越至大模型時代。得益于AI大模型的賦能,智能手機將迎來新一輪的革新。首先在人機交互層面,有了LLM的加持,新的多模態交互將取代傳統的、單一的觸控屏交互,逐漸實現從圖形用戶界面GUI到語音用戶界面VUI的跨越式轉變,用戶可以以更直觀、更自然的方式與手機溝通。其次,多模態輸入和輸出能力相結合,可以極大強化智能手機的生產力工具屬性:既可以基于多種形式的輸入信息,生成用戶需要的圖表、文本、音樂、圖片甚至是視頻,也可以對輸入的圖片、視頻進行編輯。最后,隨著融合的深入,生成式AI技術將在智能手機上孕育出一個甚至多個智能生命體(AIAgent)。智能生命體以用戶為中心,不斷學習用戶的行為習慣,能夠智能識別用戶意圖,適時向用戶推薦個性化的內容和服務。Counterpoint認為智能體將會成為專屬于每個用戶的應用入口,但預計在很長一段時間里,智能體仍將會和APP共存。
圖片:智能手機演進路徑
Counterpoint認為生成式AI與智能手機的融合無疑將引發一場深刻的變革。參照過往每一次技術革新,在初期探索階段,新的功能和特性將首先被賦予算力資源更加充裕的旗艦和次旗艦產品,并迅速成為重要的差異化賣點。而隨著時間的推移,生成式AI能力將加速下沉,從而能夠在全球范圍內,惠及更廣大的消費者群體。基于上述判斷,Counterpoint提出了生成式AI手機的概念,并結合現階段生成式AI應用的現狀,以及對生成式AI手機未來發展與演進的預判,給出了如下定義:
圖片:AI手機定義
生成式AI手機是利用大規模、預訓練的生成式AI模型,實現多模態內容生成、情境感知,并具備不斷增強的類人能力。生成式AI手機開啟了智能手機發展的新周期,長遠看,智能手機會發展為移動智能體。Counterpoint認為,生成式AI手機需要具備如下必要特征:支持大模型的本地部署,或是通過云端協同的方式執行復雜的生成式AI任務。生成式AI手機本身具備強大的AI算力,無須完全依賴云端服務器。具備多模態能力,即可以處理文本、圖像、語音等多種形式的內容輸入,以生成各種形式的輸出,典型用例如翻譯、圖像生成和視頻生成等。確保流暢、無縫的用戶體驗,設備能夠以自然而直觀的交互方式,快速響應用戶的請求。擁有實現上述特征的硬件規格,包括但不限于基于領先工藝和先進架構設計的移動計算平臺,擁有集成或者獨立的神經網絡運算單元(如APU/NPU/TPU),大容量和高帶寬的內存,以及穩定和高速的連接,硬件級和系統級的安全防御。
2024年是生成式AI手機爆發的元年,在產業鏈的配合下,頭部安卓廠商已經成功實現了70億參數大模型的本地部署。在此基礎上,一些基礎能力被開放給開發者,其中比較有代表性是:基于Diffusion大模型的圖片和視頻生成(本地用例多為低分辨率,如480p);基于LLM的自然語言處理,包括語音轉文本,文本轉語音,任務型對話,實時翻譯和信息問答等,以及基于sLLM模型(輕量型語言模型)的文字校對和文本生成、改寫和總結。
相對于手機端有限的計算和存儲資源,云端無疑擁有更充足的算力,從而能夠支持更大規模的AI模型部署和訓練,當前一些復雜的生成式AI任務主要是通過云側大模型來實現的。從長遠看,Counterpoint認為端云結合會是生成式AI在手機端側部署的主流模式。一方面,在未來幾年,本地大模型無論是規模還是效率都將保持增長,這意味著用戶可以從本地獲得多數基于生成式AI的服務,本地大模型還將為需要云端介入的任務提供數據脫敏、壓縮等預處理,以保護用戶隱私。另一方面,云側AI大模型可以為用戶帶來更有價值的服務,比如提供更高品質的內容輸出,如影視、動畫制作等,或是專為云辦公場景打造智能協同平臺,可以打破物理空間的邊界,允許海量人群參與到同一個項目中。總之,要用發展的眼光看待生成式AI手機這一新現象,目前展示的生成式AI用例只是冰山一角。無論發展到哪個階段,端云協同在滿足產業各方需求的同時,也能最大化利用分布在端云兩側的算力資源。在端側,移動計算平臺的每一次迭代和升級,都意味著手機AI算力的大幅突破,相應的,消費者可以期待更加流暢、也更加豐富的生成式AI體驗。同時,生成式AI手機的端側多模態能力也將獲得進一步的強化,Counterpoint認為,多模態能力,包括多模態輸入和輸出,是生成式AI手機愿景得以實現的關鍵之一,也是實現多元化交互的基礎。