谷歌开源EmbeddingGemma:3.08亿参数端侧AI模型,离线可运行且性能卓越

AI快讯1天前更新 wuaiai
5 00

9月5日,谷歌开源全新开放式嵌入模型EmbeddingGemma,这款专为端侧AI设计的模型,以3.08亿参数的小体量展现出强大性能,不仅能在断网时正常运行,还在性能上直追尺寸翻倍的同类模型,有望推动端侧智能发展。

EmbeddingGemma的特点与优势
EmbeddingGemma专为端侧AI设计,拥有3.08亿个参数。其一大特征是能生成隐私性良好的高质量嵌入向量,即使断网也可正常运作,性能直追尺寸翻倍的Qwen-Embedding-0.6B。据谷歌介绍,该模型还有以下亮点:一是同类最佳,在海量文本嵌入基准(MTEB)上,于500M以下的开放式多语言文本嵌入模型中排名最高,它基于Gemma 3架构打造,经100多种语言训练,量化后不到200MB内存即可运行;二是专为灵活离线工作设计,具备小巧、快速、高效的特点,提供可自定义输出尺寸与2K令牌上下文窗口,可在手机、笔记本电脑等日常设备上运行,还能与Gemma 3n配合解锁新用例;三是与流行工具集成,已可与sentence-transformers、llama.cpp等众多用户喜爱的工具一同使用。

EmbeddingGemma对端侧应用的支持
在构建RAG流程中,EmbeddingGemma作用关键。它生成的嵌入向量可将文本转换为数值向量以表征文本语义,其质量高低影响检索及答案生成的准确性。高质量嵌入向量能确保检索到相关文档,进而生成准确答案,为精准、可靠的端侧应用提供核心支持。此外,EmbeddingGemma在多语言嵌入生成方面性能强大,在检索、分类和聚类等任务表现出色,全面赶超同等尺寸的gte – multilingual – base模型,测试成绩接近尺寸两倍于它的Qwen – Embedding – 0.6B。同时,该模型通过Matryoshka表征学习(MRL)提供多种嵌入大小选择,利用量化感知训练(QAT)在保持模型质量的同时显著降低RAM使用量至200MB以下,在EdgeTPU上缩短嵌入推理时间,实现实时响应。

EmbeddingGemma助力端侧智能发展
EmbeddingGemma支持开发者构建灵活且注重隐私的设备端应用,直接在设备硬件生成文档嵌入保障用户数据安全。它使用与Gemma 3n相同分词器减少RAG应用内存占用,用户借此可解锁新功能,如离线搜索个人文件等。其交互式演示可将文本嵌入在三维空间可视化,且模型完全在设备上运行。EmbeddingGemma的推出是谷歌在小型化、多语言和端侧AI上的新突破,随着RAG、语义搜索等应用向个人设备下沉,它或将成为推动端侧智能普及的重要基石。

© 版权声明

相关文章