当OpenClaw等开源项目掀起“龙虾热”,Ollama下载量飙升时,一个现象引发行业关注:用户对搭建个人AI助手的需求与现有硬件产品之间存在明显断层。Tiiny AI Pocket Lab的众筹成功,正是抓住了这一市场缝隙——这款售价1399美元起的外接设备,上线5小时即突破百万美元众筹额,成为Kickstarter平台近四年来的现象级产品。
这款设备瞄准的并非普通消费者,而是金融、法律、科研等领域的专业用户。他们面临两难困境:云端API虽便捷,但长期成本高昂且存在数据隐私风险;现有AI PC虽能运行大模型,却会占用大量内存和算力,影响日常办公效率;树莓派等开发板算力不足,NVIDIA Jetson系列价格又过于昂贵。Tiiny AI的解决方案是:不做通用计算,专注100B级别模型的本地推理,通过外接形式为现有设备提供专用算力支持。
技术实现上,该设备采用异构计算架构,将模型参数分为“热激活”和“冷激活”两类。核心参数由专为Transformer架构设计的160TOPS dNPU处理,特定领域参数则交给30TOPS的SoC处理。这种设计使设备在120B模型下实现300 tokens/s的预填充速度和20 tokens/s的解码速度,性能接近高端AI工作站,而功耗仅30W。为解决散热问题,团队定制了1.0mm超薄VC均热板配合双风扇系统,确保设备在被动散热条件下表面温度可控。
产品形态上,Tiiny AI彻底摒弃传统操作系统,系统架构完全围绕AI推理优化。用户只需将设备通过USB-C接口连接电脑,下载客户端即可一键部署主流开源模型。这种“即插即用”的设计大幅降低了使用门槛——无论用户使用的是Mac、Windows电脑还是自组台式机,都能快速获得本地化AI能力。实测显示,该设备甚至能让2011年生产的老旧电脑运行120B参数模型。
面对行业质疑,团队回应称内存带宽问题被高估。以GPT-OSS-120B模型为例,每次跨PCIe传输的数据量仅5.625KB,远低于Gen4 x4接口8GB/s的带宽上限。关于算力宣传,190TOPS指标虽为理论峰值总和,但实际使用中不同计算单元可并行工作,不会出现算力闲置。对于交付延迟问题,团队解释称量产前需完成FCC、CE等国际认证,预计6月底前可获得全部合规资质,8月正式发货。
这款产品的成功,折射出AI硬件市场的新趋势:当云端方案面临成本与隐私挑战时,端侧专用设备正成为专业用户的新选择。Tiiny AI通过软件优化弥补硬件短板的做法,为行业提供了新思路——在算力增长放缓的当下,如何通过智能调度实现资源最大化利用,或许比单纯堆砌硬件参数更具现实意义。