Youtu-Tip 端侧AI助手
Tip 是一个主动式端侧 AI 助手,一键调用,智能理解当前工作内容。离线可用,保护隐私。
目前仅支持 Apple Silicon (M 系列芯片)
按下热键或选中文本,Tip 随时待命。打造更智能的 Spotlight,带来极致便捷体验。
内置 Youtu-llm 模型,完全离线运行。所有数据仅在本地处理,安全无忧。
模拟键鼠操作、接入 MCP 服务器。在本地运行一个真正的多功能智能体。
「技能」机制允许 Tip 学习你教它的方法。定制化属于你的桌面自动化技能。
1.96B 参数,128K 上下文。专为 STEM、代码与智能体任务设计。
在轻量级模型中重新定义 SOTA。
从词表构建到课程学习,一切以提升 STEM 能力和智能体能力为出发点。
128K 长上下文训练 + Agentic Mid-training,轻松应对多轮复杂端侧任务。
基于 dense MLA 架构,超越传统 GQA/MHA 范式,轻松集成现有生态。
| Benchmark | Qwen3-1.7B | SmoLM3-3B | Gemma3-4B | Qwen3-4B | Llama3.1-8B | Youtu-LLM-2B |
|---|---|---|---|---|---|---|
| MMLU-Pro (Commonsense) | 34.9% | 35.3% | 29.4% | 46.1% | 36.2% | 48.4% |
| GSM8K (STEM) | 68.2% | 67.3% | 38.5% | 80.8% | 47.8% | 77.6% |
| MBPP+ (Coding) | 71.0% | 66.1% | 61.9% | 80.8% | 62.7% | 81.8% |
| HumanEval (Coding) | 49.9% | 34.8% | 36.6% | 57.6% | 36.0% | 64.6% |
| LiveCodeBench v6 | 5.1% | 2.9% | 2.9% | 6.9% | 3.4% | 9.7% |
| SWE-Bench-Verified (Agent) | 0.6% | 7.2% | 5.7% | - | - | 17.7% |
* 部分数据摘录,查看 README 获取完整复现代码。
| Benchmark | Qwen3-1.7B | SmoLM3-3B | Qwen3-4B | Youtu-LLM-2B |
|---|---|---|---|---|
| GAIA (Agent) | 11.4% | 11.7% | 25.5% | 33.9% |
| xbench (Agent) | 11.7% | 13.9% | 18.4% | 19.5% |
| SWE-Bench-Verified | 0.6% | 7.2% | 5.7% | 17.7% |
| EnConda-Bench | 10.8% | 3.5% | 16.1% | 21.5% |
| τ²-Bench (Tool) | 2.6% | 9.7% | 10.9% | 15.0% |
* 对比同级别指令模型表现。
基于 Youtu-LLM 构建的 4B 参数视觉语言模型。首创 VLUAS 范式,
标准 VLM 架构实现视觉任务,无需额外模块。
视觉-语言统一自回归监督,将视觉信号转化为自回归目标。联合重建视觉与文本 token,保留密集视觉信息的同时增强多模态理解。
标准 VLM 架构原生支持视觉任务:分割、深度估计、定位、检测。单一模型,灵活应对各种视觉-语言需求。
| Benchmark | Qwen3-VL 4B | InternVL-3.5 4B | UFO 8B | Youtu-VL 4B |
|---|---|---|---|---|
| Visual Grounding | ||||
| RefCOCO val | 90.7% | 92.5% | 91.8% | 93.6% |
| RefCOCO testA | 92.2% | 94.3% | 94.3% | 95.2% |
| RefCOCO+ val | 82.9% | 87.6% | 86.9% | 90.1% |
| RefCOCOg test | 87.7% | 89.3% | 88.6% | 92.9% |
| Semantic Segmentation | ||||
| ADE20k | × | × | 54.5% | 54.2% |
| Cityscapes | × | × | - | 70.4% |
| VOC20 | × | × | - | 92.5% |
| Referring Segmentation | ||||
| RefCOCO val | × | × | 80.0% | 80.7% |
| RefCOCO testA | × | × | 81.6% | 82.0% |
| Depth Estimation | ||||
| NYUv2 (δ1) | × | × | 93.6% | 90.4% |
| Cityscapes | × | × | - | 92.7% |
| Object Counting | ||||
| TallyQA-Simple | 79.0% | 77.6% | × | 85.1% |
| CountBench | 78.4% | 79.4% | × | 88.6% |
* × 表示模型不支持该任务。
| Benchmark | Qwen3-VL 8B | InternVL-3.5 4B | Qwen3-VL 4B | Youtu-VL 4B |
|---|---|---|---|---|
| General VQA | ||||
| MMBench_EN | 84.5% | 80.3% | 83.9% | 83.9% |
| MMStar | 70.9% | 65.0% | 69.8% | 71.1% |
| MME (/2800) | - | 2272 | 2309 | 2384 |
| ScienceQA_val | - | - | 94.7% | 97.0% |
| Multimodal Reasoning | ||||
| VisuLogic | 22.5% | - | 19.0% | 25.7% |
| MathVista_mini | 77.2% | 77.1% | 73.7% | 76.5% |
| MathVerse_mini | 62.1% | 45.8% | 46.8% | 56.5% |
| VLMsAreBlind | 74.0% | - | 71.9% | 88.9% |
| OCR & Document | ||||
| AI2D_test | 85.7% | 82.6% | 84.1% | 85.6% |
| DocVQA_val | 96.1% | 92.4% | 95.3% | 94.4% |
| ChartQA_test | 89.6% | 86.0% | 84.6% | 85.3% |
| GUI Agent | ||||
| ScreenSpot Pro | 54.6% | - | 59.5% | 59.6% |
| OSWorld | 33.9% | - | 26.2% | 38.8% |
| Real-World | ||||
| RealWorldQA | 71.5% | 66.3% | 70.9% | 74.6% |
* 对比同级别 VLM 指令模型表现。
Youtu-Tip 的强大动力源泉。一个灵活、高性能的智能体构建框架。支持自动化生成、混合策略优化,助你轻松构建 SOTA 级应用。
描述需求,Meta-Agent 自动编写工具代码与配置。
独创 Training-Free GRPO,低成本积累经验,越用越强。
WebWalkerQA (71.47%) 与 GAIA (72.8%) 领跑者。