Upload all models and assets for ary (20251201)
Browse files
README.md
CHANGED
|
@@ -36,15 +36,13 @@ generated: 2025-12-27
|
|
| 36 |
# Moroccan Arabic - Wikilangs Models
|
| 37 |
## Comprehensive Research Report & Full Ablation Study
|
| 38 |
|
| 39 |
-
This
|
| 40 |
We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
|
| 41 |
|
| 42 |
## 📋 Repository Contents
|
| 43 |
|
| 44 |
### Models & Assets
|
| 45 |
|
| 46 |
-
```
|
| 47 |
-
models/
|
| 48 |
- Tokenizers (8k, 16k, 32k, 64k)
|
| 49 |
- N-gram models (2, 3, 4-gram)
|
| 50 |
- Markov chains (context of 1, 2, 3 and 4)
|
|
@@ -52,11 +50,9 @@ models/
|
|
| 52 |
- Embeddings in various sizes and dimensions
|
| 53 |
- Language Vocabulary
|
| 54 |
- Language Statistics
|
| 55 |
-
```
|
| 56 |
-
|
| 57 |

|
| 58 |
|
| 59 |
-
###
|
| 60 |
|
| 61 |
- [1. Tokenizer Evaluation](#1-tokenizer-evaluation)
|
| 62 |
- [2. N-gram Model Evaluation](#2-n-gram-model-evaluation)
|
|
@@ -85,41 +81,37 @@ models/
|
|
| 85 |
|
| 86 |
Below are sample sentences tokenized with each vocabulary size:
|
| 87 |
|
| 88 |
-
**Sample 1:**
|
| 89 |
-
لوغة تاولامت
|
| 90 |
-
لوغة تايرت`
|
| 91 |
-
|
| 92 |
-
| Vocab | Tokens | Count |
|
| 93 |
-
|-------|--------|-------|
|
| 94 |
-
| 8k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+6 more)` | 16 |
|
| 95 |
-
| 16k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+6 more)` | 16 |
|
| 96 |
-
| 32k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+5 more)` | 15 |
|
| 97 |
-
| 64k | `▁لوغة ▁تماجق ▁كاتعني ▁إمّا : ▁لوغة ▁تاول امت ▁لوغة ▁تايرت` | 10 |
|
| 98 |
-
|
| 99 |
-
**Sample 2:** `تلاتين (رّمز ف نّماري لغبارية 30) نمرة ؤ عاداد جا مورا 29 ؤ قبل 31.
|
| 100 |
|
| 101 |
مصادر
|
| 102 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 103 |
|
| 104 |
-
|
| 105 |
|
| 106 |
| Vocab | Tokens | Count |
|
| 107 |
|-------|--------|-------|
|
| 108 |
-
| 8k |
|
| 109 |
-
| 16k |
|
| 110 |
-
| 32k |
|
| 111 |
-
| 64k |
|
| 112 |
|
| 113 |
-
**Sample 3:**
|
| 114 |
-
جينكيز خان
|
| 115 |
-
شاه روخ ...`
|
| 116 |
|
| 117 |
| Vocab | Tokens | Count |
|
| 118 |
|-------|--------|-------|
|
| 119 |
-
| 8k |
|
| 120 |
-
| 16k |
|
| 121 |
-
| 32k |
|
| 122 |
-
| 64k |
|
| 123 |
|
| 124 |
|
| 125 |
### Key Findings
|
|
@@ -213,27 +205,27 @@ Below are text samples generated from each Markov chain model:
|
|
| 213 |
|
| 214 |
**Context Size 1:**
|
| 215 |
|
| 216 |
-
1. `.
|
| 217 |
-
2. `،
|
| 218 |
-
3. `ف
|
| 219 |
|
| 220 |
**Context Size 2:**
|
| 221 |
|
| 222 |
-
1. `تصنيف :
|
| 223 |
-
2. `، و
|
| 224 |
-
3. `ن ّ اس
|
| 225 |
|
| 226 |
**Context Size 3:**
|
| 227 |
|
| 228 |
-
1. `مصادر تصنيف :
|
| 229 |
-
2. `تصنيف : مقالات
|
| 230 |
-
3. `ن ّ اس
|
| 231 |
|
| 232 |
**Context Size 4:**
|
| 233 |
|
| 234 |
-
1. `تصنيف : دوار ف
|
| 235 |
-
2. `نسبة ن ّ اس اللي خدامين ف د ّ ولة :
|
| 236 |
-
3. `. مصادر تصنيف :
|
| 237 |
|
| 238 |
|
| 239 |
### Key Findings
|
|
@@ -560,7 +552,8 @@ MIT License - Free for academic and commercial use.
|
|
| 560 |
- 🌐 Website: [wikilangs.org](https://wikilangs.org)
|
| 561 |
- 🤗 Models: [huggingface.co/wikilangs](https://huggingface.co/wikilangs)
|
| 562 |
- 📊 Data: [wikipedia-monthly](https://huggingface.co/datasets/omarkamali/wikipedia-monthly)
|
|
|
|
| 563 |
---
|
| 564 |
*Generated by Wikilangs Models Pipeline*
|
| 565 |
|
| 566 |
-
*Report Date: 2025-12-27 04:
|
|
|
|
| 36 |
# Moroccan Arabic - Wikilangs Models
|
| 37 |
## Comprehensive Research Report & Full Ablation Study
|
| 38 |
|
| 39 |
+
This repository contains NLP models trained and evaluated by Wikilangs, specifically on **Moroccan Arabic** Wikipedia data.
|
| 40 |
We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
|
| 41 |
|
| 42 |
## 📋 Repository Contents
|
| 43 |
|
| 44 |
### Models & Assets
|
| 45 |
|
|
|
|
|
|
|
| 46 |
- Tokenizers (8k, 16k, 32k, 64k)
|
| 47 |
- N-gram models (2, 3, 4-gram)
|
| 48 |
- Markov chains (context of 1, 2, 3 and 4)
|
|
|
|
| 50 |
- Embeddings in various sizes and dimensions
|
| 51 |
- Language Vocabulary
|
| 52 |
- Language Statistics
|
|
|
|
|
|
|
| 53 |

|
| 54 |
|
| 55 |
+
### Analysis and Evaluation
|
| 56 |
|
| 57 |
- [1. Tokenizer Evaluation](#1-tokenizer-evaluation)
|
| 58 |
- [2. N-gram Model Evaluation](#2-n-gram-model-evaluation)
|
|
|
|
| 81 |
|
| 82 |
Below are sample sentences tokenized with each vocabulary size:
|
| 83 |
|
| 84 |
+
**Sample 1:** `معمر زين العاشقين قاري و حافظ د لقرآن.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 85 |
|
| 86 |
مصادر
|
| 87 |
|
| 88 |
+
تصنيف:زيادة 1954
|
| 89 |
+
تصنيف:ناس حيين...`
|
| 90 |
+
|
| 91 |
+
| Vocab | Tokens | Count |
|
| 92 |
+
|-------|--------|-------|
|
| 93 |
+
| 8k | `▁مع مر ▁زين ▁الع اش قين ▁ق اري ▁و ▁ح ... (+21 more)` | 31 |
|
| 94 |
+
| 16k | `▁مع مر ▁زين ▁الع اش قين ▁ق اري ▁و ▁حافظ ... (+20 more)` | 30 |
|
| 95 |
+
| 32k | `▁معمر ▁زين ▁الع اش قين ▁قاري ▁و ▁حافظ ▁د ▁لقرآن ... (+18 more)` | 28 |
|
| 96 |
+
| 64k | `▁معمر ▁زين ▁العاش قين ▁قاري ▁و ▁حافظ ▁د ▁لقرآن . ... (+17 more)` | 27 |
|
| 97 |
|
| 98 |
+
**Sample 2:** `ضريب لمؤخرة (ب ) فبي دي إس إم عملية جنسية كاتخدّم كا عقاب ولا ل لإتارة لجنسية ما...`
|
| 99 |
|
| 100 |
| Vocab | Tokens | Count |
|
| 101 |
|-------|--------|-------|
|
| 102 |
+
| 8k | `▁ض ريب ▁لمؤ خرة ▁( ب ▁) ▁ف بي ▁دي ... (+40 more)` | 50 |
|
| 103 |
+
| 16k | `▁ض ريب ▁لمؤ خرة ▁( ب ▁) ▁ف بي ▁دي ... (+36 more)` | 46 |
|
| 104 |
+
| 32k | `▁ض ريب ▁لمؤ خرة ▁( ب ▁) ▁ف بي ▁دي ... (+32 more)` | 42 |
|
| 105 |
+
| 64k | `▁ضريب ▁لمؤخرة ▁( ب ▁) ▁ف بي ▁دي ▁إس ▁إم ... (+28 more)` | 38 |
|
| 106 |
|
| 107 |
+
**Sample 3:** `ضباب هوّا إيروصول كيتشاف ب لْعين، مكوّن من قطرات صغار ديال لما ؤلا كريستالات دي...`
|
|
|
|
|
|
|
| 108 |
|
| 109 |
| Vocab | Tokens | Count |
|
| 110 |
|-------|--------|-------|
|
| 111 |
+
| 8k | `▁ض باب ▁هوّا ▁إير وص ول ▁كيت شاف ▁ب ▁لْ ... (+34 more)` | 44 |
|
| 112 |
+
| 16k | `▁ض باب ▁هوّا ▁إير وص ول ▁كيت شاف ▁ب ▁لْ ... (+31 more)` | 41 |
|
| 113 |
+
| 32k | `▁ض باب ▁هوّا ▁إير وصول ▁كيتشاف ▁ب ▁لْ عين ، ... (+27 more)` | 37 |
|
| 114 |
+
| 64k | `▁ض باب ▁هوّا ▁إير وصول ▁كيتشاف ▁ب ▁لْ عين ، ... (+24 more)` | 34 |
|
| 115 |
|
| 116 |
|
| 117 |
### Key Findings
|
|
|
|
| 205 |
|
| 206 |
**Context Size 1:**
|
| 207 |
|
| 208 |
+
1. `. لخصوبة عند الجواج ف لكامبيانة د فلوسها من ݣوجارات ف لمغريب تصنيف : لقرن 20`
|
| 209 |
+
2. `، منهوم 816 , geerat j . ولادها بجوج فالإليادة ، عاود قاسها قبل منهوم 154`
|
| 210 |
+
3. `ف إقليم لخميسات تصنيف : سلطان شرعي . ناس د الكاسترد تصنيف : 29 مارس 1920`
|
| 211 |
|
| 212 |
**Context Size 2:**
|
| 213 |
|
| 214 |
+
1. `تصنيف : مارس تصنيف : زيادة 1961 تصنيف : أفلام د 2005 . لمحطة التانية فيها 66`
|
| 215 |
+
2. `، و معتاقل سياسي روسي . كان خدا لجايزة د لأوسكار لأحسن فيلم قصير ( 4 )`
|
| 216 |
+
3. `ن ّ اس ل ّ ي قاريين فوق الليسي ( ليسي و جامعة ) : 12 ,`
|
| 217 |
|
| 218 |
**Context Size 3:**
|
| 219 |
|
| 220 |
+
1. `مصادر تصنيف : پاناما تصنيف : عواصم ديال بلدان تصنيف : بانݣلاديش تصنيف : بزوليات د جنوب آسيا`
|
| 221 |
+
2. `تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف :`
|
| 222 |
+
3. `ن ّ اس ل ّ ي كتعتابر لوغة كيلتية ، ؤ ل ّ يسي . كروص كانت تتحيد`
|
| 223 |
|
| 224 |
**Context Size 4:**
|
| 225 |
|
| 226 |
+
1. `تصنيف : دوار ف عمالة مكناس تصنيف : مقالات زادهوم داريجابوت تصنيف : ناس حيين تصنيف : زيادة 1987`
|
| 227 |
+
2. `نسبة ن ّ اس اللي خدامين ف د ّ ولة : 8 , 3 % نسبة ن ّ اس`
|
| 228 |
+
3. `. مصادر تصنيف : لوغات أمازيغية تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف : مقالات زادهوم داريجابوت`
|
| 229 |
|
| 230 |
|
| 231 |
### Key Findings
|
|
|
|
| 552 |
- 🌐 Website: [wikilangs.org](https://wikilangs.org)
|
| 553 |
- 🤗 Models: [huggingface.co/wikilangs](https://huggingface.co/wikilangs)
|
| 554 |
- 📊 Data: [wikipedia-monthly](https://huggingface.co/datasets/omarkamali/wikipedia-monthly)
|
| 555 |
+
- 👤 Author: [Omar Kamali](https://huggingface.co/omarkamali)
|
| 556 |
---
|
| 557 |
*Generated by Wikilangs Models Pipeline*
|
| 558 |
|
| 559 |
+
*Report Date: 2025-12-27 04:26:59*
|