Youtu-Tip 端侧AI助手

The Engine Inside

Youtu-LLM
小巧身躯，强悍性能

1.96B 参数，128K 上下文。专为 STEM、代码与智能体任务设计。
在轻量级模型中重新定义 SOTA。

🔬

STEM 优先设计

从词表构建到课程学习，一切以提升 STEM 能力和智能体能力为出发点。

🤖

原生智能体能力

128K 长上下文训练 + Agentic Mid-training，轻松应对多轮复杂端侧任务。

🚀

SOTA 性能 (MLA)

基于 dense MLA 架构，超越传统 GQA/MHA 范式，轻松集成现有生态。

性能基准测试

Benchmark	Qwen3-1.7B	SmoLM3-3B	Gemma3-4B	Qwen3-4B	Llama3.1-8B	Youtu-LLM-2B
MMLU-Pro (Commonsense)	34.9%	35.3%	29.4%	46.1%	36.2%	48.4%
GSM8K (STEM)	68.2%	67.3%	38.5%	80.8%	47.8%	77.6%
MBPP+ (Coding)	71.0%	66.1%	61.9%	80.8%	62.7%	81.8%
HumanEval (Coding)	49.9%	34.8%	36.6%	57.6%	36.0%	64.6%
LiveCodeBench v6	5.1%	2.9%	2.9%	6.9%	3.4%	9.7%
SWE-Bench-Verified (Agent)	0.6%	7.2%	5.7%	-	-	17.7%

* 部分数据摘录，查看 README 获取完整复现代码。

Benchmark	Qwen3-1.7B	SmoLM3-3B	Qwen3-4B	Youtu-LLM-2B
GAIA (Agent)	11.4%	11.7%	25.5%	33.9%
xbench (Agent)	11.7%	13.9%	18.4%	19.5%
SWE-Bench-Verified	0.6%	7.2%	5.7%	17.7%
EnConda-Bench	10.8%	3.5%	16.1%	21.5%
τ²-Bench (Tool)	2.6%	9.7%	10.9%	15.0%

* 对比同级别指令模型表现。

Vision-Language Model

Youtu-VL
视觉语言，统一智能

基于 Youtu-LLM 构建的 4B 参数视觉语言模型。首创 VLUAS 范式，
标准 VLM 架构实现视觉任务，无需额外模块。

🔗

VLUAS 统一监督

视觉-语言统一自回归监督，将视觉信号转化为自回归目标。联合重建视觉与文本 token，保留密集视觉信息的同时增强多模态理解。

👁️

无需额外模块

标准 VLM 架构原生支持视觉任务：分割、深度估计、定位、检测。单一模型，灵活应对各种视觉-语言需求。

性能基准测试

Benchmark	Qwen3-VL 4B	InternVL-3.5 4B	UFO 8B	Youtu-VL 4B
Visual Grounding
RefCOCO val	90.7%	92.5%	91.8%	93.6%
RefCOCO testA	92.2%	94.3%	94.3%	95.2%
RefCOCO+ val	82.9%	87.6%	86.9%	90.1%
RefCOCOg test	87.7%	89.3%	88.6%	92.9%
Semantic Segmentation
ADE20k	×	×	54.5%	54.2%
Cityscapes	×	×	-	70.4%
VOC20	×	×	-	92.5%
Referring Segmentation
RefCOCO val	×	×	80.0%	80.7%
RefCOCO testA	×	×	81.6%	82.0%
Depth Estimation
NYUv2 (δ1)	×	×	93.6%	90.4%
Cityscapes	×	×	-	92.7%
Object Counting
TallyQA-Simple	79.0%	77.6%	×	85.1%
CountBench	78.4%	79.4%	×	88.6%

* × 表示模型不支持该任务。

Benchmark	Qwen3-VL 8B	InternVL-3.5 4B	Qwen3-VL 4B	Youtu-VL 4B
General VQA
MMBench_EN	84.5%	80.3%	83.9%	83.9%
MMStar	70.9%	65.0%	69.8%	71.1%
MME (/2800)	-	2272	2309	2384
ScienceQA_val	-	-	94.7%	97.0%
Multimodal Reasoning
VisuLogic	22.5%	-	19.0%	25.7%
MathVista_mini	77.2%	77.1%	73.7%	76.5%
MathVerse_mini	62.1%	45.8%	46.8%	56.5%
VLMsAreBlind	74.0%	-	71.9%	88.9%
OCR & Document
AI2D_test	85.7%	82.6%	84.1%	85.6%
DocVQA_val	96.1%	92.4%	95.3%	94.4%
ChartQA_test	89.6%	86.0%	84.6%	85.3%
GUI Agent
ScreenSpot Pro	54.6%	-	59.5%	59.6%
OSWorld	33.9%	-	26.2%	38.8%
Real-World
RealWorldQA	71.5%	66.3%	70.9%	74.6%

* 对比同级别 VLM 指令模型表现。

Open Source Framework

Build with
Youtu-Agent

Youtu-Tip 的强大动力源泉。一个灵活、高性能的智能体构建框架。支持自动化生成、混合策略优化，助你轻松构建 SOTA 级应用。

⚡️

自动化智能体生成

描述需求，Meta-Agent 自动编写工具代码与配置。

🧠

无需训练的持续进化

独创 Training-Free GRPO，低成本积累经验，越用越强。

🏆

SOTA 性能验证

WebWalkerQA (71.47%) 与 GAIA (72.8%) 领跑者。

View on GitHub →

research_agent.yaml

agent:

instructions: "You are a helpful research assistant..."

env:

config: {}

context_manager:

config: {}

toolkits:

search:

activated_tools: ["search", "web_qa"]

python_executor:

activated_tools: ["execute_python_code"]

Sample Configuration

Youtu-Tip 端侧AI助手

一个按键
AI 超级入口

端侧模型
百分百隐私

读文件、看网页
全能助手

桌面新技能
一学就掌握

Youtu-LLM
小巧身躯，强悍性能

STEM 优先设计

原生智能体能力

SOTA 性能 (MLA)

性能基准测试

Youtu-VL
视觉语言，统一智能

VLUAS 统一监督

无需额外模块

性能基准测试

Build with
Youtu-Agent

自动化智能体生成

无需训练的持续进化

SOTA 性能验证

一个按键AI 超级入口

端侧模型百分百隐私

读文件、看网页全能助手

桌面新技能一学就掌握

Youtu-LLM 小巧身躯，强悍性能

STEM 优先设计

原生智能体能力

SOTA 性能 (MLA)

性能基准测试

Youtu-VL 视觉语言，统一智能

VLUAS 统一监督

无需额外模块

性能基准测试

Build with Youtu-Agent

自动化智能体生成

无需训练的持续进化

SOTA 性能验证

一个按键
AI 超级入口

端侧模型
百分百隐私

读文件、看网页
全能助手

桌面新技能
一学就掌握

Youtu-LLM
小巧身躯，强悍性能

Youtu-VL
视觉语言，统一智能

Build with
Youtu-Agent