omarkamali commited on
Commit
3b32958
·
verified ·
1 Parent(s): 19be4d0

Upload all models and assets for ary (20251201)

Browse files
Files changed (1) hide show
  1. README.md +36 -43
README.md CHANGED
@@ -36,15 +36,13 @@ generated: 2025-12-27
36
  # Moroccan Arabic - Wikilangs Models
37
  ## Comprehensive Research Report & Full Ablation Study
38
 
39
- This report presents a comprehensive evaluation of language models trained on **Moroccan Arabic** Wikipedia data.
40
  We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
41
 
42
  ## 📋 Repository Contents
43
 
44
  ### Models & Assets
45
 
46
- ```
47
- models/
48
  - Tokenizers (8k, 16k, 32k, 64k)
49
  - N-gram models (2, 3, 4-gram)
50
  - Markov chains (context of 1, 2, 3 and 4)
@@ -52,11 +50,9 @@ models/
52
  - Embeddings in various sizes and dimensions
53
  - Language Vocabulary
54
  - Language Statistics
55
- ```
56
-
57
  ![Performance Dashboard](visualizations/performance_dashboard.png)
58
 
59
- ### Quick Links
60
 
61
  - [1. Tokenizer Evaluation](#1-tokenizer-evaluation)
62
  - [2. N-gram Model Evaluation](#2-n-gram-model-evaluation)
@@ -85,41 +81,37 @@ models/
85
 
86
  Below are sample sentences tokenized with each vocabulary size:
87
 
88
- **Sample 1:** `لوغة تماجق كاتعني إمّا:
89
- لوغة تاولامت
90
- لوغة تايرت`
91
-
92
- | Vocab | Tokens | Count |
93
- |-------|--------|-------|
94
- | 8k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+6 more)` | 16 |
95
- | 16k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+6 more)` | 16 |
96
- | 32k | `▁لوغة ▁تما ج ق ▁كاتعني ▁إم ّا : ▁لوغة ▁تا ... (+5 more)` | 15 |
97
- | 64k | `▁لوغة ▁تماجق ▁كاتعني ▁إمّا : ▁لوغة ▁تاول امت ▁لوغة ▁تايرت` | 10 |
98
-
99
- **Sample 2:** `تلاتين (رّمز ف نّماري لغبارية 30) نمرة ؤ عاداد جا مورا 29 ؤ قبل 31.
100
 
101
  مصادر
102
 
 
 
 
 
 
 
 
 
 
103
 
104
- ت...`
105
 
106
  | Vocab | Tokens | Count |
107
  |-------|--------|-------|
108
- | 8k | `▁تلات ين ▁( ر ّم ز ▁ف ▁نّ ماري ▁لغ ... (+30 more)` | 40 |
109
- | 16k | `▁تلات ين ▁( رّمز ▁ف ▁نّماري ▁لغبارية ▁ 3 0 ... (+23 more)` | 33 |
110
- | 32k | `▁تلاتين ▁( رّمز ▁ف ▁نّماري ▁لغبارية3 0 ) ... (+22 more)` | 32 |
111
- | 64k | `▁تلاتين ▁( رّمز ▁ف ▁نّماري ▁لغبارية 3 0 ) ... (+22 more)` | 32 |
112
 
113
- **Sample 3:** `هادي صفحة د التوضيح، كلمة خان يمكن يكونو عندها هاد لمعاني:
114
- جينكيز خان
115
- شاه روخ ...`
116
 
117
  | Vocab | Tokens | Count |
118
  |-------|--------|-------|
119
- | 8k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خ ان ▁يمكن ▁يكونو ... (+19 more)` | 29 |
120
- | 16k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خان ▁يمكن ▁يكونو ▁عندها ... (+16 more)` | 26 |
121
- | 32k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خان ▁يمكن ▁يكونو ▁عندها ... (+14 more)` | 24 |
122
- | 64k | `▁هادي ▁صفحة ▁د ▁التوضيح ، ▁كلمة ▁خان ▁يمكن ▁يكونو ▁عندها ... (+12 more)` | 22 |
123
 
124
 
125
  ### Key Findings
@@ -213,27 +205,27 @@ Below are text samples generated from each Markov chain model:
213
 
214
  **Context Size 1:**
215
 
216
- 1. `. " ) هي واحد ( ليسي و لإتحاد الرياضي الفاسي كرمتها منظمة لكاس ( ن`
217
- 2. `، فين لمتماكنين ( لفلامانية ) : لمعمار ، 30 د لكتابة ؤ ݣاري كاسپاروڤ وغلب`
218
- 3. `ف 29 . الشكال ف 2017 : دوار ف لوسط د الناس النشيطين ف 1994 تصنيف`
219
 
220
  **Context Size 2:**
221
 
222
- 1. `تصنيف : دوار ف إقليم تارودانت تصنيف : مقالات فيها مصدر و علاين 3000 بايت تصنيف :`
223
- 2. `، و كتعتمد ف بزاف ديال العولاما الآخرين . خمس قصايد سومرية قديمة على حساب لبلاد تصنيف`
224
- 3. `ن ّ اس ن ّ شيطين ( ل ّ ي ف اللخر د عصر ت ّ قويم`
225
 
226
  **Context Size 3:**
227
 
228
- 1. `مصادر تصنيف : دوار ف لمغريب تصنيف : دوار ف إقليم تارودانت تصنيف : مقالات فيها مصدر و`
229
- 2. `تصنيف : مقالات زادهوم داريجابوت تصنيف : لقرن 18 ذكر سفير لمغريبي الزياني ف لمذكرات ديالو فاش كان`
230
- 3. `ن ّ اس اللي خدامين ف لپريڤي : 35 % مصادر تصنيف : جهة طنجة تطوان الحسيمة ،`
231
 
232
  **Context Size 4:**
233
 
234
- 1. `تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف لمغريب تصنيف : دوار ف`
235
- 2. `نسبة ن ّ اس اللي خدامين ف د ّ ولة : 5 , 1 % نسبة ن ّ اس`
236
- 3. `. مصادر تصنيف : عوام د تقويم لميلادي تصنيف : مقالات زادهوم داريجابوت تصنيف : سيسطيم تاع سميات الضومي...`
237
 
238
 
239
  ### Key Findings
@@ -560,7 +552,8 @@ MIT License - Free for academic and commercial use.
560
  - 🌐 Website: [wikilangs.org](https://wikilangs.org)
561
  - 🤗 Models: [huggingface.co/wikilangs](https://huggingface.co/wikilangs)
562
  - 📊 Data: [wikipedia-monthly](https://huggingface.co/datasets/omarkamali/wikipedia-monthly)
 
563
  ---
564
  *Generated by Wikilangs Models Pipeline*
565
 
566
- *Report Date: 2025-12-27 04:21:06*
 
36
  # Moroccan Arabic - Wikilangs Models
37
  ## Comprehensive Research Report & Full Ablation Study
38
 
39
+ This repository contains NLP models trained and evaluated by Wikilangs, specifically on **Moroccan Arabic** Wikipedia data.
40
  We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and word embeddings.
41
 
42
  ## 📋 Repository Contents
43
 
44
  ### Models & Assets
45
 
 
 
46
  - Tokenizers (8k, 16k, 32k, 64k)
47
  - N-gram models (2, 3, 4-gram)
48
  - Markov chains (context of 1, 2, 3 and 4)
 
50
  - Embeddings in various sizes and dimensions
51
  - Language Vocabulary
52
  - Language Statistics
 
 
53
  ![Performance Dashboard](visualizations/performance_dashboard.png)
54
 
55
+ ### Analysis and Evaluation
56
 
57
  - [1. Tokenizer Evaluation](#1-tokenizer-evaluation)
58
  - [2. N-gram Model Evaluation](#2-n-gram-model-evaluation)
 
81
 
82
  Below are sample sentences tokenized with each vocabulary size:
83
 
84
+ **Sample 1:** `معمر زين العاشقين قاري و حافظ د لقرآن.
 
 
 
 
 
 
 
 
 
 
 
85
 
86
  مصادر
87
 
88
+ تصنيف:زيادة 1954
89
+ تصنيف:ناس حيين...`
90
+
91
+ | Vocab | Tokens | Count |
92
+ |-------|--------|-------|
93
+ | 8k | `▁مع مر ▁زين ▁الع اش قين ▁ق اري ▁و ▁ح ... (+21 more)` | 31 |
94
+ | 16k | `▁مع مر ▁زين ▁الع اش قين ▁ق اري ▁و ▁حافظ ... (+20 more)` | 30 |
95
+ | 32k | `▁معمر ▁زين ▁الع اش قين ▁قاري ▁و ▁حافظ ▁د ▁لقرآن ... (+18 more)` | 28 |
96
+ | 64k | `▁معمر ▁زين ▁العاش قين ▁قاري ▁و ▁حافظ ▁د ▁لقرآن . ... (+17 more)` | 27 |
97
 
98
+ **Sample 2:** `ضريب لمؤخرة (ب ) فبي دي إس إم عملية جنسية كاتخدّم كا عقاب ولا ل لإتارة لجنسية ما...`
99
 
100
  | Vocab | Tokens | Count |
101
  |-------|--------|-------|
102
+ | 8k | `▁ض ريب ▁لمؤ خرة ▁( ب ▁) ▁ف بي ▁دي ... (+40 more)` | 50 |
103
+ | 16k | `▁ض ريب ▁لمؤ خرة ▁( ب ▁) ▁ف بي ▁دي ... (+36 more)` | 46 |
104
+ | 32k | `▁ض ريب ▁لمؤ خرة ▁( ب) ▁ف بي ▁دي ... (+32 more)` | 42 |
105
+ | 64k | `▁ضريب ▁لمؤخرة ▁( ب ▁) ▁ف بي ▁دي ▁إس ▁إم ... (+28 more)` | 38 |
106
 
107
+ **Sample 3:** `ضباب هوّا إيروصول كيتشاف ب لْعين، مكوّن من قطرات صغار ديال لما ؤلا كريستالات دي...`
 
 
108
 
109
  | Vocab | Tokens | Count |
110
  |-------|--------|-------|
111
+ | 8k | `▁ض باب ▁هوّا ▁إير وص ول ▁كيت شاف ▁ب ▁لْ ... (+34 more)` | 44 |
112
+ | 16k | `▁ض باب ▁هوّا ▁إير وص ول ▁كيت شاف ▁ب ▁لْ ... (+31 more)` | 41 |
113
+ | 32k | `▁ض باب ▁هوّا ▁إير وصول ▁كيتشاف ▁ب ▁لْ عين ، ... (+27 more)` | 37 |
114
+ | 64k | `▁ض باب ▁هوّا ▁إير وصول ▁كيتشاف ▁ب ▁لْ عين ، ... (+24 more)` | 34 |
115
 
116
 
117
  ### Key Findings
 
205
 
206
  **Context Size 1:**
207
 
208
+ 1. `. لخصوبة عند الجواج ف لكامبيانة د فلوسها من ݣوجارات ف لمغريب تصنيف : لقرن 20`
209
+ 2. `، منهوم 816 , geerat j . ولادها بجوج فالإليادة ، عاود قاسها قبل منهوم 154`
210
+ 3. `ف إقليم لخميسات تصنيف : سلطان شرعي . ناس د الكاسترد تصنيف : 29 مارس 1920`
211
 
212
  **Context Size 2:**
213
 
214
+ 1. `تصنيف : مارس تصنيف : زيادة 1961 تصنيف : أفلام د 2005 . لمحطة التانية فيها 66`
215
+ 2. `، و معتاقل سياسي روسي . كان خدا لجايزة د لأوسكار لأحسن فيلم قصير ( 4 )`
216
+ 3. `ن ّ اس ل ّ ي قاريين فوق الليسي ( ليسي و جامعة ) : 12 ,`
217
 
218
  **Context Size 3:**
219
 
220
+ 1. `مصادر تصنيف : پاناما تصنيف : عواصم ديال بلدان تصنيف : بانݣلاديش تصنيف : بزوليات د جنوب آسيا`
221
+ 2. `تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف :`
222
+ 3. `ن ّ اس ل ّ ي كتعتابر لوغة كيلتية ، ؤ ل ّ يسي . كروص كانت تتحيد`
223
 
224
  **Context Size 4:**
225
 
226
+ 1. `تصنيف : دوار ف عمالة مكناس تصنيف : مقالات زادهوم داريجابوت تصنيف : ناس حيين تصنيف : زيادة 1987`
227
+ 2. `نسبة ن ّ اس اللي خدامين ف د ّ ولة : 8 , 3 % نسبة ن ّ اس`
228
+ 3. `. مصادر تصنيف : لوغات أمازيغية تصنيف : مقالات فيها مصدر و 3000 بايت تصنيف : مقالات زادهوم داريجابوت`
229
 
230
 
231
  ### Key Findings
 
552
  - 🌐 Website: [wikilangs.org](https://wikilangs.org)
553
  - 🤗 Models: [huggingface.co/wikilangs](https://huggingface.co/wikilangs)
554
  - 📊 Data: [wikipedia-monthly](https://huggingface.co/datasets/omarkamali/wikipedia-monthly)
555
+ - 👤 Author: [Omar Kamali](https://huggingface.co/omarkamali)
556
  ---
557
  *Generated by Wikilangs Models Pipeline*
558
 
559
+ *Report Date: 2025-12-27 04:26:59*