123,123

　阿里云優(yōu)惠券先領(lǐng)券再下單

2025年，是AI硬件的全面爆發(fā)之年：AI手機(jī)、AIPC、AI陪伴、AI眼鏡、AI智慧座艙……然而，云端大模型主導(dǎo)的AI硬件正在顯露隱憂：高昂的 API 調(diào)用成本讓中小企業(yè)望而卻步，隱私數(shù)據(jù)上傳云端的安全風(fēng)險(xiǎn)如影隨形，網(wǎng)絡(luò)延遲與垂域適配不足更是制約著端側(cè)的場(chǎng)景創(chuàng)新

開(kāi)源端側(cè)小模型崛起正在改寫(xiě)游戲規(guī)則：英偉達(dá)也在論文《Small Language Models are the Future of Agentic AI》宣告：小模型才是Agentic AI的未來(lái)。

1. 部署難、表現(xiàn)差？端側(cè)AI發(fā)展仍面臨痛點(diǎn)

當(dāng)開(kāi)發(fā)者們摩拳擦掌，想要用先進(jìn)小模型打造創(chuàng)新應(yīng)用時(shí)，現(xiàn)實(shí)又澆了一盆冷水：

部署門(mén)檻高：端側(cè)平臺(tái)的推理框架并不像云端那樣容易適配：工具鏈有CUDA、 QNN、ANE、ROCm、Openvino, openCL, metal, vulkan等等五花八門(mén)……耗費(fèi)數(shù)月踩坑仍難跑通最新模型；

性能表現(xiàn)差：即使順利通過(guò)部署，由于推理引擎適配不當(dāng)導(dǎo)致精度下降、輸出緩慢、能耗飆升，讓端側(cè)應(yīng)用體驗(yàn)大打折扣

跨平臺(tái)噩夢(mèng)：不同硬件（PC，手機(jī)，車(chē)機(jī)，IoT）、芯片（高通、Intel、AMD、蘋(píng)果）間的適配壁壘，讓跨設(shè)備應(yīng)用開(kāi)發(fā)重復(fù) “踩坑”，效率極低。例如可以在高通PC上運(yùn)行的多模態(tài)模型無(wú)法自動(dòng)移植到高通車(chē)載端。

最新的模型支持差：NPU上普遍只能跑1年以前發(fā)布的模型，無(wú)法使用最新的模型（如Mistral3, Qwen3-VL），模型需要等待非常久的時(shí)間才能得到支持。

2. 端側(cè)AI部署的新思路

最近美國(guó)硅谷明星端側(cè)AI Startup Nexa AI公司在github上發(fā)布的Nexa SDK，為全球開(kāi)發(fā)者帶來(lái)了破局新思路。這個(gè)項(xiàng)目致力于解決長(zhǎng)期存在于端側(cè)模型部署中的共性問(wèn)題，讓 AI 模型在手機(jī)、PC、汽車(chē)、IoT 等邊緣設(shè)備上的落地變得前所未有的簡(jiǎn)單。

github可搜索：nexa-sdk （如果認(rèn)為對(duì)您工作有幫助，歡迎為開(kāi)源作者star）

Nexa SDK 構(gòu)建了4大核心優(yōu)勢(shì)，解決端側(cè) AI 部署的核心痛點(diǎn)：

跨平臺(tái)統(tǒng)一推理框架：NexaSDK 由 NexaML 引擎提供支持，該引擎是從芯片Kernel層打造的跨硬件平臺(tái)統(tǒng)一推理引擎（支持電腦，手機(jī)，車(chē)，IoT，機(jī)器人，以及AR眼鏡等設(shè)備），并支持三種端側(cè)模型格式：GGUF 格式、MLX 格式以及 Nexa AI 自主研發(fā)的 .nexa 格式。

NPU, GPU, CPU深度適配：NexaSDK 可在多種算力平臺(tái)的NPU、GPU、CPU上本地運(yùn)行各類(lèi)人工智能模型 —— 它不僅使用簡(jiǎn)單、靈活性高，而且性能佳。特別是支持各大算力平臺(tái)的NPU芯片（覆蓋高通Hexagon NPU, 蘋(píng)果NPU，AMD Ryzen AI NPU，以及Intel NPU），充分利用NPU性能，可以解決過(guò)往端側(cè)模型在CPU/GPU上運(yùn)行帶來(lái)的輸出速度慢、能耗高的問(wèn)題，能效比是CPU和GPU的9倍以上。

任意多模態(tài)模型Day-0支持：面對(duì)快速更新的開(kāi)源模型市場(chǎng)，Nexa SDK能夠做到在新模型推出的第一時(shí)間適配各個(gè)硬件后端（NPU, GPU, CPU），并且支持多種模態(tài) Vision, Text, Audio, 以及 CV模型；

低代碼極致易用：使用一行代碼即可調(diào)用本地模型，OpenAI API 兼容設(shè)計(jì)讓開(kāi)發(fā)者無(wú)縫銜接代碼，大大降低了端側(cè)AI的應(yīng)用門(mén)檻。

Nexa SDK與其他端側(cè)SDK的比較優(yōu)勢(shì)：

NEXA SDK一經(jīng)發(fā)布也獲得了包括AMD/高通的諸多行業(yè)認(rèn)可：

3. 快速上手：快速解鎖端側(cè)AI能力

根據(jù)使用方式和平臺(tái)，Nexa SDK提供不同的工具包：

Nexa CLI：可在MacOS/Windows/Linux 使用命令行終端速測(cè)試模型及運(yùn)行本地服務(wù)器；同時(shí)支持在Linux 系統(tǒng)的容器化環(huán)境中運(yùn)行 AI 模型；

Nexa SDK Python開(kāi)發(fā)工具：可在MacOS/Windows/Linux平臺(tái)使用Python完整運(yùn)行SDK

Nexa SDK Android/iOS開(kāi)發(fā)工具: 支持在移動(dòng)端設(shè)備跨NPU/GPU/CPU推理的安卓/iOS開(kāi)發(fā)工具包

Nexa SDK實(shí)現(xiàn)了全平臺(tái)支持，全球首次統(tǒng)一支持蘋(píng)果NPU、Intel NPU、AMD NPU、高通 NPU 等4類(lèi)NPU推理加速芯片，讓端側(cè)模型邊緣推理?yè)碛辛烁鼜V泛的實(shí)現(xiàn)和應(yīng)用場(chǎng)景。

3.1 Nexa SDK CLI快速體驗(yàn)

下載路徑：

可以從Nexa AI官網(wǎng)或者github nexa-sdk項(xiàng)目下載Nexa CLI。

一行代碼運(yùn)行模型

Nexa SDK支持LLM、多模態(tài)、音頻（ASR\TTS）、CV、生圖等多種端側(cè)模型。例如：

多模態(tài)模型

NexaSDK在Qwen3VL發(fā)布當(dāng)天 Day-0跨平臺(tái)支持，領(lǐng)先 llama.cpp/ollama 三周，并得到Qwen官方認(rèn)可

車(chē)載多模態(tài)模型（適配高通SA8295P芯片NPU）

相比于其他框架，NexaSDK對(duì)于新模型的支持速度還是非常迅速，可以訪問(wèn)Nexa AI官網(wǎng)和Nexa AI huggingface官方模型倉(cāng)庫(kù)查看使用更多精選的模型。

目前Nexa CLI支持 MacOS、Windows、Linux（并支持Docker運(yùn)行），同時(shí)提供Python API, IOS Swift API、Android Kotlin/JAVA API開(kāi)發(fā)工具包。

兼容OpenAI API

NEXA CLI還提供 OpenAI 兼容的 REST API ，一行命令即可訪問(wèn)服務(wù)接口，無(wú)縫覆蓋對(duì)話生成、文本嵌入、文檔重排序、圖像生成等核心場(chǎng)景，滿足多樣化開(kāi)發(fā)需求。

/v1/chat/completions - 用于 LLM 和 VLM 的對(duì)話生成

/v1/embeddings - 為文本生成向量嵌入

/v1/reranking - 根據(jù)查詢相關(guān)性對(duì)文檔重新排序

/v1/images/generations - 根據(jù)提示生成圖像

更多命令可以查看官方文檔

3.2 Nexa SDK Python 開(kāi)發(fā)工具包

Nexa SDK Python工具包，適配 MacOS、Windows、Linux等全平臺(tái)優(yōu)化后端，無(wú)論是本地開(kāi)發(fā)還是企業(yè)級(jí)應(yīng)用，都能使用Python更高效落地。可以使用Python API一鍵運(yùn)行LLM、VLM、OCR、ASR、TTS、圖像生成、說(shuō)話人分離、鍵值緩存、采樣配置、對(duì)話模板以及錯(cuò)誤處理等。

3.3 Nexa SDK Android/iOS開(kāi)發(fā)工具包

下載地址：

Nexa SDK Android工具包:可直接從 Maven 中央倉(cāng)庫(kù)獲取，或訪問(wèn)github nexa-sdk項(xiàng)目

Nexa SDK iOS工具包可以從github nexasdk-mobile-iOS-framework項(xiàng)目獲取。

Android 設(shè)備上支持直接運(yùn)行的包括LLM、VLM、Embedding模型、OCR模型、CV模型、ASR模型、rerank模型以及生圖模型，且支持通過(guò) NPU、GPU和 CPU進(jìn)行推理。通過(guò) Kotlin/Java API 輕松集成，性能提升 2 倍，能效比優(yōu)化 9 倍，重塑移動(dòng)智能體驗(yàn)。

使用簡(jiǎn)潔的 Swift API，開(kāi)發(fā)者可在 iOS/macOS 設(shè)備上直接運(yùn)行LLM、VLM、Embedding模型、ASR模型以及rerank模型。目前，ASR模型與Embedding模型已支持蘋(píng)果神經(jīng)網(wǎng)絡(luò)引擎（ANE）加速，其他模型則基于圖形處理器（GPU）與中央處理器（CPU）運(yùn)行，同時(shí)可以達(dá)到性能提升 2 倍，能效比優(yōu)化 9 倍的驚艷體驗(yàn)。

4. 為開(kāi)發(fā)者帶來(lái)絲滑體驗(yàn)：創(chuàng)意無(wú)需妥協(xié)

一行命令跑通：nexa infer 極簡(jiǎn)操作，告別復(fù)雜配置；

OpenAI API 無(wú)縫兼容：現(xiàn)有代碼零修改，直接遷移端側(cè)運(yùn)行；

95% NPU 利用率：性能優(yōu)于 Qualcomm GENIE，極致發(fā)揮硬件潛力；

首發(fā)支持前沿模型： Qwen3、Granite、Liquid、Gemma 3n、Parakeet等最新模型快速適配；

結(jié)構(gòu)化輸出：天然適配 AI Agent 工作流，加速應(yīng)用創(chuàng)新；

持續(xù)更新的前沿端側(cè)模型庫(kù)：Nexa Model Hub不斷擴(kuò)充，讓最先進(jìn)端側(cè)小模型觸手可及。

5. 結(jié)束語(yǔ)：從個(gè)人到產(chǎn)業(yè) —— 端側(cè)AI想象力不再設(shè)限

當(dāng)部署不再是難題，當(dāng)性能不再妥協(xié)，端側(cè) AI 的革命，正在每一個(gè)場(chǎng)景悄然發(fā)生：

手機(jī)：離線助手，日程提醒、生活助理……

PC：文件管理、個(gè)人知識(shí)庫(kù)構(gòu)建、Agent協(xié)作……

汽車(chē)：車(chē)內(nèi) AI 助手，實(shí)時(shí)路況提醒，安全監(jiān)測(cè)……

IoT & 機(jī)器人：工廠巡檢、缺陷檢測(cè)……

端側(cè) AI 的低成本、高隱私、低延遲特性，正在重構(gòu)產(chǎn)品形態(tài)，催生全新商業(yè)模式。

希望今天分享的Nexa SDK能讓每一位熱愛(ài)端側(cè)AI的人都能參與到端側(cè) AI 的浪潮中，無(wú)需復(fù)雜的工具鏈，消解沉重的技術(shù)壁壘，賦能每一位開(kāi)發(fā)者，解鎖端側(cè)AI落地的無(wú)限可能！

github項(xiàng)目：nexa-sdk （如果認(rèn)為對(duì)您工作有幫助，歡迎為開(kāi)源作者star）

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁(yè) > 科技 > IT業(yè)界 > 正文

硅谷人工智能公司Nexa AI發(fā)布端側(cè)AI部署新思路

相關(guān)文章

熱門(mén)排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門(mén)標(biāo)簽