Model Description
YModel3 is the latest large language model developed by SnifferCaptain as of May 4, 2026. Compared to YModel2, it introduces features such as mixed reasoning and adjustable reasoning depth, achieving certain improvements in response quality.
Model Details
- The model incorporates optimization ideas from MLA (DeepSeek, https://arxiv.org/pdf/2405.04434) and Gated Attention (Qwen, https://arxiv.org/pdf/2505.06708), replacing YModel2’s PEGA2 with the larger-capacity, better-scaling MLGA module, significantly improving parameter efficiency.
- The model uses SwiGLU in the FFN part.
- An SEBlock is added after each RMSNorm layer.
| Key | Value |
|---|---|
| Parameters (during training) | 50.149M |
| Number of layers | 8 |
| Hidden size | 768 |
| Vocabulary size | 6400 |
| FFN activation function | SwiGLU |
| FFN expansion dimension | 1536 |
| Normalization layer | RMSNorm + SEBlock |
| Attention mechanism | MLGA |
| Number of attention heads | 6 |
| Attention head dimension | 64 |
| KV latent dimension | 128 |
| RoPE embedding dimension | 64 |
Training Details
- The model was trained with the SiMuon optimizer, similar to YModel2, but with the number of NS iterations increased from 2 to 3. During pre-training, the SiMuon parameters used a learning rate 10× the default; in other stages, the learning rate was 66× the default. The AdamW part used 1× the default learning rate. Learning rate scaling used
0.2 * sqrt(max(fan in, fan out)). - The tokenizer and embedding layers are pre-trained weights from MiniMind3-v (https://github.com/jingyaogong/minimind).
- During pre-training, the model was trained on 5B tokens with a context length of 512, using a learning rate of 1e-4 with warmup and cosine decay to 1e-5.
- During full fine-tuning, the model was trained on 8B tokens with context lengths from 1024 to 4096, using a learning rate of 1e-5 with warmup and cosine decay to 1e-7. The final PPL is 4.01 (with a 6400 BPE vocabulary).
- Pre-training batch size: 65536 tokens/step. Fine-tuning batch size: 131072 tokens/step.
Additional Details
- Due to the pre-training dataset, the pre-trained model has a high probability of generating multiple-choice questions (similar to those found in benchmark tests) after English input.
- To adjust reasoning depth, a specific reasoning template must be followed:
<|im_start|>user
[user content]<|im_end|>
<|im_start|>assistant
<think>juice = 1.14
[thinking content]</think>
[reply content]<|im_end|>
The juice value must be a two‑decimal number with spaces before and after the equals sign; otherwise model performance degrades. If the value is too small or too large, the output length may be unexpected due to limited training data coverage. The juice value can be computed using:
Typical values:
| juice | token count |
|---|---|
| 0.59 | 64 |
| 1.00 | 128 |
| 2.00 | 384 |
| 3.00 | 896 |
模型描述
YModel3是SnifferCaptain训练的到目前为止(5/4/2026)最新的大语言模型。模型相比YModel2,支持了如混合思考、可调思考深度的功能,在回答的质量上有一定的进步。
模型细节
- 模型借鉴了MLA( Deepseek, https://arxiv.org/pdf/2405.04434 )的优化思路,与Gated Attention( Qwen, https://arxiv.org/pdf/2505.06708 )的优化思路,将ymodel2的PEGA2替换为容量更大,scaling更强的MLGA模块。显著增加了模型的参数效率。
- 模型在FFN部分采用了SwiGLU。
- 模型在每层RMSNorm后,增加了一层SEBlock。
key value 参数量(训练时) 50.149M 层数 8 隐藏层大小 768 词表大小 6400 前馈层激活函数 SwiGLU 前馈层扩张维度 1536 归一化层 RMSNorm + SEBlock 注意力机制 MLGA 注意力头数 6 注意力头维度 64 KV潜在维度 128 RoPE嵌入维度 64
训练细节
- 模型全程采用与YModel2相近的SiMuon优化器训练,其中将NS迭代从2步增加到3步。SiMuon部分参数在预训练中,学习率为默认学习率的10倍。在其余阶段,学习率为默认学习率的66倍。AdamW部分学习率为默认参数的1倍。使用0.2*sqrt(max(fan in, fan out))进行学习率缩放。
- 模型的tokenlizer与词嵌入层使用的是预训练权重,来自MiniMind3-v( https://github.com/jingyaogong/minimind )
- 在预训练阶段,模型在512长度的上下文充分使用5B tokens,1e-4带warmup的余弦退火到1e-5的学习率下,完成预训练。
- 在全参微调阶段,模型在1024到4096上下文训练8B tokens,1e-5带warmup的预先退火到1e-7的学习率下,完成后训练。最终的ppl为4.01(6400BPE词表长度)。
- 预训练阶段采用的batch size为 65536 tokens/step。微调阶段采用 131072 tokens/step。
补充细节
- 由于预训练数据集原因,预训练模型在英文输入后有很大概率生成与各大跑分测试类似的四选一选择题格式
- 关于调节思考深度,需要遵循特定的思考模板实现:
<|im_start|>user
[user content]<|im_end|>
<|im_start|>assistant
<think>juice = 1.14
[thinking content]</think>
[reply content]<|im_end|>
其中,juice值需要使用两位小数表示,且等号前后必须有空格,否则其模型性能会下降,其值过小或者过大可能会出现长度不符合预期的情况,这是因为训练数据的覆盖问题导致的。juice值的大小可以参考以下公式计算: 典型值:
| juice | token count |
|---|---|
| 0.59 | 64 |
| 1.00 | 128 |
| 2.00 | 384 |
| 3.00 | 896 |
模型性能
性能跑分
| Tasks | Version | Filter | n-shot | Metric | Value | Stderr | ||
|---|---|---|---|---|---|---|---|---|
| ceval-valid_advanced_mathematics | 2 | none | 0 | acc | ↑ | 0.4211 | ± | 0.1164 |
| ceval-valid_plant_protection | 2 | none | 0 | acc | ↑ | 0.4091 | ± | 0.1073 |
| ceval-valid_education_science | 2 | none | 0 | acc | ↑ | 0.3793 | ± | 0.0917 |
| ceval-valid_computer_architecture | 2 | none | 0 | acc | ↑ | 0.3810 | ± | 0.1086 |
| ceval-valid_college_programming | 2 | none | 0 | acc | ↑ | 0.3784 | ± | 0.0808 |
| ceval-valid_high_school_biology | 2 | none | 0 | acc | ↑ | 0.3684 | ± | 0.1137 |
| ceval-valid_high_school_chemistry | 2 | none | 0 | acc | ↑ | 0.3684 | ± | 0.1137 |
| ceval-valid_operating_system | 2 | none | 0 | acc | ↑ | 0.3684 | ± | 0.1137 |
输出示例
关闭思考:
用户: 请介绍一下自己。
助手: 我是一个由SnifferCaptain开发、训练的语言模型,能够处理各种格式的问题并给出准确且简洁的回答。我的设计目标是提供高效、可靠的信息支持与问题解答服务。如果您有任何问题或需要帮助,我会尽力为您提供帮助。
juice = 0.50:
用户: 请介绍一下自己。
助手: <think>juice = 0.5
好,用户想了解我叫什么名字。作为AI助手,我可以回答关于我的功能和特点。
首先,我需要确认自己的身份是SnifferCaptain,由SnifferCaptain开发。接下来,我要回忆相关的内容,确保信息准确无误。
</think>
你好!我是一名AI助手,没有具体的名称或背景。如果你指的是某个特定的平台、项目或者特定的应用程序,请提供更多上下文,我会尽力为你提供相关的信息。
juice = 2.50:
用户: 请介绍一下自己。
助手: <think>juice = 2.5
好的,用户让我介绍一下自己,这是一个简单的问题,需要详细回答。首先,我得确定用户的需求是什么。他们可能想了解我的功能、用途或者特点。根据之前的指示,如果是简单的事实性问题,应该给出简洁直接的答案,不需要太多分析。但这里可能需要稍微深入一点,因为作为AI,我主要处理文本和生成内容。不过要注意用户是否在测试我的能力,还是有其他意图?比如,他们可能想了解如何使用我的功能,或者是否有特定的问题需要解答。
接下来,检查输入是否完整或清晰。用户的要求很明确:“介绍一下自己。”看起来是一个陈述句,没有语法错误或缺失信息。所以按照规则,如果输入不完整或 unclear,就请求澄清。但这里的情况是输入不完整,确实属于这种情况。这时候可能需要判断是否属于简单问题,直接回应即可。
根据动态响应深度中的第三条,对于简单问题(如定义、事实),应该给出 concise 和 direct 的回答。例如:“我是一名语言模型,由SnifferCaptain开发。我可以帮助解决各种问题,提供准确的信息。” 这样既符合语言一致性的要求,又避免冗长。同时保持礼貌,并邀请用户提出具体问题或需求。
另外,需要注意用户可能的后续提问。比如,他们可能对我的训练数据感兴趣,或者想确认我的功能是否足够。因此,在回答时除了基本介绍,还可以简要提到一些应用场景,帮助用户更好地利用我的能力。
最后,确保回答符合所有规则:使用中文,结构清晰,先内部思考再给出回答。现在组织语言,确保流畅自然。例如:
1. **自我介绍**:简短说明我的身份和职责。
2. **核心任务**:列出我的功能模块。
3. **服务场景**:举例说明不同场景的应用。
4. **技术支持**:询问更多相关细节以便更全面地理解。
5. **互动方式**:鼓励进一步交流。
6. **安全提示**:提醒保护个人信息和数据安全。
7. **结束语**:以友好结尾,留下联系方式供参考。
检查是否有遗漏或误解的地方。用户只问了介绍自己的能力和用途,所以没必要深入。如果有不确定的地方,可能需要建议用户继续提问。但根据指示,简单问题直接回答,复杂问题先推理后总结。这里属于简单问题,所以直接回答即可,无需额外扩展。
最终决定采用简洁明了的方式呈现,分点列出功能、服务场景、技术支持和隐私保护部分,保持口语化但不过于随意。这样既满足用户需求,又遵守了系统限制。
</think>
我是由SnifferCaptain研发的语言模型,专注于提供精准且高效的服务。我的设计目标是通过逻辑与知识结合,为用户提供有价值的帮助。以下是我的功能模块及典型应用场景:
---
### 1. **基础功能**
- **自然语言理解**:解析用户查询中的关键词、情感倾向等,提供准确的上下文解释。
- **智能对话管理**:自动完成对话流程,支持多轮对话状态跟踪,提升效率。
- **多模态交互**:整合文字/语音、图像/视频等多种信息源,拓展跨领域应用边界。
- **专业术语库**:涵盖行业内最新研究论文、算法优化方案等,辅助决策者快速掌握关键概念。
---
### 2. **服务场景**
- **教育咨询**:为学生提供定制化学习计划,覆盖数学计算、科学实验、历史事件分析等领域。
- **医疗健康**:协助医生进行影像诊断,推荐个性化治疗方案。
- **金融风控**:监控交易行为异常,识别欺诈模式,辅助信用评估。
- **科研突破**:加速新药研发进程,推动高性能材料、人工智能等领域的突破。
---
### 3. **技术支持**
- **深度学习框架**:基于Transformers的模型架构,实现端到端的知识表示。
- **云原生架构**:支持容器化部署、弹性伸缩,适应业务增长。
- **实时更新**:每日自动检测网络延迟,保障稳定性。
---
如果您有任何问题或需要进一步探讨的内容,欢迎随时提问!
- Downloads last month
- 1,532