Youtu-Tip 端侧AI助手

Tip 是一个主动式端侧 AI 助手,一键调用,智能理解当前工作内容。离线可用,保护隐私。

下载 macOS 版(M 系列)

目前仅支持 Apple Silicon (M 系列芯片)

一个按键
AI 超级入口

按下热键或选中文本,Tip 随时待命。打造更智能的 Spotlight,带来极致便捷体验。

端侧模型
百分百隐私

内置 Youtu-llm 模型,完全离线运行。所有数据仅在本地处理,安全无忧。

读文件、看网页
全能助手

模拟键鼠操作、接入 MCP 服务器。在本地运行一个真正的多功能智能体。

桌面新技能
一学就掌握

「技能」机制允许 Tip 学习你教它的方法。定制化属于你的桌面自动化技能。

Interaction Privacy Agent Skill
The Engine Inside

Youtu-LLM
小巧身躯,强悍性能

1.96B 参数,128K 上下文。专为 STEM、代码与智能体任务设计。
在轻量级模型中重新定义 SOTA。

🔬

STEM 优先设计

从词表构建到课程学习,一切以提升 STEM 能力和智能体能力为出发点。

🤖

原生智能体能力

128K 长上下文训练 + Agentic Mid-training,轻松应对多轮复杂端侧任务。

🚀

SOTA 性能 (MLA)

基于 dense MLA 架构,超越传统 GQA/MHA 范式,轻松集成现有生态。

性能基准测试

Benchmark Qwen3-1.7B SmoLM3-3B Gemma3-4B Qwen3-4B Llama3.1-8B Youtu-LLM-2B
MMLU-Pro (Commonsense)34.9%35.3%29.4%46.1%36.2%48.4%
GSM8K (STEM)68.2%67.3%38.5%80.8%47.8%77.6%
MBPP+ (Coding)71.0%66.1%61.9%80.8%62.7%81.8%
HumanEval (Coding)49.9%34.8%36.6%57.6%36.0%64.6%
LiveCodeBench v65.1%2.9%2.9%6.9%3.4%9.7%
SWE-Bench-Verified (Agent)0.6%7.2%5.7%--17.7%

* 部分数据摘录,查看 README 获取完整复现代码。

Benchmark Qwen3-1.7B SmoLM3-3B Qwen3-4B Youtu-LLM-2B
GAIA (Agent)11.4%11.7%25.5%33.9%
xbench (Agent)11.7%13.9%18.4%19.5%
SWE-Bench-Verified0.6%7.2%5.7%17.7%
EnConda-Bench10.8%3.5%16.1%21.5%
τ²-Bench (Tool)2.6%9.7%10.9%15.0%

* 对比同级别指令模型表现。

Vision-Language Model

Youtu-VL
视觉语言,统一智能

基于 Youtu-LLM 构建的 4B 参数视觉语言模型。首创 VLUAS 范式,
标准 VLM 架构实现视觉任务,无需额外模块。

🔗

VLUAS 统一监督

视觉-语言统一自回归监督,将视觉信号转化为自回归目标。联合重建视觉与文本 token,保留密集视觉信息的同时增强多模态理解。

👁️

无需额外模块

标准 VLM 架构原生支持视觉任务:分割、深度估计、定位、检测。单一模型,灵活应对各种视觉-语言需求。

性能基准测试

Benchmark Qwen3-VL 4B InternVL-3.5 4B UFO 8B Youtu-VL 4B
Visual Grounding
RefCOCO val90.7%92.5%91.8%93.6%
RefCOCO testA92.2%94.3%94.3%95.2%
RefCOCO+ val82.9%87.6%86.9%90.1%
RefCOCOg test87.7%89.3%88.6%92.9%
Semantic Segmentation
ADE20k××54.5%54.2%
Cityscapes××-70.4%
VOC20××-92.5%
Referring Segmentation
RefCOCO val××80.0%80.7%
RefCOCO testA××81.6%82.0%
Depth Estimation
NYUv2 (δ1)××93.6%90.4%
Cityscapes××-92.7%
Object Counting
TallyQA-Simple79.0%77.6%×85.1%
CountBench78.4%79.4%×88.6%

* × 表示模型不支持该任务。

Benchmark Qwen3-VL 8B InternVL-3.5 4B Qwen3-VL 4B Youtu-VL 4B
General VQA
MMBench_EN84.5%80.3%83.9%83.9%
MMStar70.9%65.0%69.8%71.1%
MME (/2800)-227223092384
ScienceQA_val--94.7%97.0%
Multimodal Reasoning
VisuLogic22.5%-19.0%25.7%
MathVista_mini77.2%77.1%73.7%76.5%
MathVerse_mini62.1%45.8%46.8%56.5%
VLMsAreBlind74.0%-71.9%88.9%
OCR & Document
AI2D_test85.7%82.6%84.1%85.6%
DocVQA_val96.1%92.4%95.3%94.4%
ChartQA_test89.6%86.0%84.6%85.3%
GUI Agent
ScreenSpot Pro54.6%-59.5%59.6%
OSWorld33.9%-26.2%38.8%
Real-World
RealWorldQA71.5%66.3%70.9%74.6%

* 对比同级别 VLM 指令模型表现。

Open Source Framework

Build with
Youtu-Agent

Youtu-Tip 的强大动力源泉。一个灵活、高性能的智能体构建框架。支持自动化生成、混合策略优化,助你轻松构建 SOTA 级应用。

⚡️

自动化智能体生成

描述需求,Meta-Agent 自动编写工具代码与配置。

🧠

无需训练的持续进化

独创 Training-Free GRPO,低成本积累经验,越用越强。

🏆

SOTA 性能验证

WebWalkerQA (71.47%) 与 GAIA (72.8%) 领跑者。

research_agent.yaml
agent:
name: research_agent
instructions: "You are a helpful research assistant..."
env:
name: e2b
config: {}
context_manager:
name: base
config: {}
toolkits:
search:
activated_tools: ["search", "web_qa"]
python_executor:
activated_tools: ["execute_python_code"]
Sample Configuration