omarkamali commited on
Commit
d46198b
·
verified ·
1 Parent(s): fd98249

Upload all models and assets for ady (latest)

Browse files
README.md CHANGED
@@ -36,7 +36,7 @@ metrics:
36
  value: 4.197
37
  - name: best_isotropy
38
  type: isotropy
39
- value: 0.4929
40
  - name: vocabulary_size
41
  type: vocab
42
  value: 0
@@ -98,29 +98,29 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
98
 
99
  Below are sample sentences tokenized with each vocabulary size:
100
 
101
- **Sample 1:** `(Пынарбашы), Къайсэр къалэм и район. Адыгэхэ нахь бэрэу мы лъэныком щыӏпсэу.`
102
 
103
  | Vocab | Tokens | Count |
104
  |-------|--------|-------|
105
- | 8k | `▁( пы н арбашы ), ▁къайсэр ▁къалэм ▁и ▁район . ... (+10 more)` | 20 |
106
- | 16k | `▁( пы н арбашы ), ▁къайсэр ▁къалэм ▁и ▁район . ... (+10 more)` | 20 |
107
- | 32k | `▁( пынарбашы ), ▁къайсэр ▁къалэм ▁и ▁район . ▁адыгэхэ ▁нахь ... (+5 more)` | 15 |
108
 
109
- **Sample 2:** `Орэдус орэдхэр зыусырэр. пае классикэ орэд е мэкъамэ ягугъу – композитор нахьы...`
110
 
111
  | Vocab | Tokens | Count |
112
  |-------|--------|-------|
113
- | 8k | `▁орэдус ▁— ▁орэдхэр ▁зы ус ырэр . ▁пае ▁класс икэ ... (+18 more)` | 28 |
114
- | 16k | `▁орэдус ▁— ▁орэдхэр ▁зы ус ырэр . ▁пае ▁класс икэ ... (+15 more)` | 25 |
115
- | 32k | `▁орэдус ▁— ▁орэдхэр ▁зыусырэр . ▁пае ▁классикэ ▁орэд ▁е ▁мэкъамэ ... (+10 more)` | 20 |
116
 
117
- **Sample 3:** `Эбрар Каракурт 17 Щылэмаз Балыкесирым къэхъугъ, Тыркуе Волэйболым и джэгуакӀу,Ты...`
118
 
119
  | Vocab | Tokens | Count |
120
  |-------|--------|-------|
121
- | 8k | `▁э б рар ▁кара к урт 1 7 ▁щы ... (+21 more)` | 31 |
122
- | 16k | `▁эбрар ▁карак урт 1 7 ▁щы л эм аз ... (+15 more)` | 25 |
123
- | 32k | `▁эбрар ▁каракурт 1 7 ▁щылэмаз ▁балыкесирым ▁къэхъугъ , ▁тыркуе ... (+10 more)` | 20 |
124
 
125
 
126
  ### Key Findings
@@ -270,27 +270,27 @@ Below are text samples generated from each word-based Markov chain model:
270
 
271
  **Context Size 1:**
272
 
273
- 1. `и нэхъышъхьэ лэжьыгъэм статистикэм теухуауэ интервью къэрал хассан аль джадид зэхащагъ илъэсым тэуфи...`
274
- 2. `адыгэ литературэм ихьаси лъэшэу фэӏэзагъэх синдикэр къэралыгъоу тунисым и 20 м нэс тхыдэр нэхь мэхъу...`
275
- 3. `м хахьэ ыужрэр алтай бзэунагъом хахьэ хэгъэгу тхьаматэр инь юн`
276
 
277
  **Context Size 2:**
278
 
279
- 1. `нэбгырэ млн 7 къехъу щэпсэу хэгэгум 51 100 км арапыбзэ дло м еуро зэкъотыныгъэм ахахьэ хэгъэгу колин...`
280
- 2. `къехъу щэпсэу хэгэгум 718 км китаибзэ англыбзэ малаибзэ тамилыбзэ дло м хахьэ хэгъэгу пачъыхьэу абду...`
281
- 3. `м къехъу щэпсэу хэгэгум 267 667 км францыбзэ къэрал фор эссозимна гнассингбе хэгъэгу тхьаматэр даниэ...`
282
 
283
  **Context Size 3:**
284
 
285
- 1. `м къехъу щэпсэу хэгэгум 765 км арапыбз арап къэралмэ анахь баймэ ащыщ нефтыр лъэшдэдэу дло м хахьэ х...`
286
- 2. `къехъу щэпсэу хэгэгум 147 570 км бенгалыбзэ дло м хахьэ хэгъэгу алмазбек атамбаев къэрал тхьэматэр т...`
287
- 3. `адыгэ республикэм и шэуджэн къедзыгъом и къоджэ км 42 мыекъуапэ пэчыжь хэкум къинэжьыгъэ абдзэхэ къо...`
288
 
289
  **Context Size 4:**
290
 
291
- 1. `м къехъу щэпсэу хэгэгум чӏырэу иӏэр 17 820 км бзэшъхьаӏэр арапыбз дло м хахьэ хэгъэгу хассанал болки...`
292
- 2. `дло м хахьэ хэгъэгу тейн сейн географие азием и гъунэгъухэр урысые казахстан кыргызстан монголие ишъ...`
293
- 3. `еуропэм хэт къэралыгъу къэлэ загреб нэбгырэ млн 4 м къехъу щэпсэу я 116 хэгэгум 49 035 км я 129`
294
 
295
 
296
  ### Generated Text Samples (Subword-based)
@@ -299,27 +299,27 @@ Below are text samples generated from each subword-based Markov chain model:
299
 
300
  **Context Size 1:**
301
 
302
- 1. `_пчӏэр_гокъэме_д`
303
- 2. `эр_цӏыӏэзэзынэ_я`
304
- 3. `ыем_щщэра,_фадж.`
305
 
306
  **Context Size 2:**
307
 
308
- 1. `гъэмьяхэр_арт_пре`
309
- 2. `ъэу_дэхъ_зышӏэным`
310
- 3. `э_гъэ_ратымэ_лъхь`
311
 
312
  **Context Size 3:**
313
 
314
- 1. `гъэзекӏожьыдзэнэжы`
315
- 2. `_къагъэхьыбэмэ,_гу`
316
- 3. `эм_къурэтхъум__ищ`
317
 
318
  **Context Size 4:**
319
 
320
- 1. `ыгъэ_хасэмрэ_млн_89`
321
- 2. `хэр_къолэжъхэр_тхыг`
322
- 3. `агъэкӏотэщтыр_ары._`
323
 
324
 
325
  ### Key Findings
@@ -424,18 +424,18 @@ Below are text samples generated from each subword-based Markov chain model:
424
 
425
  | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
426
  |-------|-----------|----------|------------------|---------------|----------------|
427
- | **mono_32d** | 32 | 0.4929 🏆 | 0.4238 | N/A | N/A |
428
- | **mono_64d** | 64 | 0.2008 | 0.4008 | N/A | N/A |
429
- | **mono_128d** | 128 | 0.0373 | 0.3931 | N/A | N/A |
430
- | **aligned_32d** | 32 | 0.4929 | 0.4303 | 0.0632 | 0.4080 |
431
- | **aligned_64d** | 64 | 0.2008 | 0.3933 | 0.2011 | 0.7586 |
432
- | **aligned_128d** | 128 | 0.0373 | 0.3923 | 0.2701 | 0.8046 |
433
 
434
  ### Key Findings
435
 
436
- - **Best Isotropy:** mono_32d with 0.4929 (more uniform distribution)
437
- - **Semantic Density:** Average pairwise similarity of 0.4056. Lower values indicate better semantic separation.
438
- - **Alignment Quality:** Aligned models achieve up to 27.0% R@1 in cross-lingual retrieval.
439
  - **Recommendation:** 128d aligned for best cross-lingual performance
440
 
441
  ---
@@ -457,20 +457,21 @@ These are the most productive prefixes and suffixes identified by sampling the v
457
  #### Productive Prefixes
458
  | Prefix | Examples |
459
  |--------|----------|
460
- | `-къ` | къахэщых, къэштэжь, къыхагъэщэу |
461
- | `-зэ` | зэмыпэсырэм, зэрагъэзэкӏуагъэу, зэфэшъхьафыбэмэ |
 
462
 
463
  #### Productive Suffixes
464
  | Suffix | Examples |
465
  |--------|----------|
466
- | `-э` | инджылыбзэ, шъхьэгуащэ, ыкурэ |
467
- | `-р` | хъулъфыгъэхэр, егъэблэгъэныр, усэхэр |
468
- | `-м` | зэмыпэсырэм, бысымым, м |
469
- | `-эр` | хъулъфыгъэхэр, усэхэр, благъэр |
470
- | `-эм` | зэмыпэсырэм, къутамэм, пхъэм |
471
- | `-эу` | бэрэу, зэрагъэзэкӏуагъэу, къыхагъэщэу |
472
- | `-хэр` | хъулъфыгъэхэр, усэхэр, ӏутыхэр |
473
- | `-рэ` | ыкурэ, цӏэмрэ, чэщрэ |
474
 
475
  ### 6.3 Bound Stems (Lexical Roots)
476
 
@@ -478,18 +479,18 @@ Bound stems are high-frequency subword units that are semantically cohesive but
478
 
479
  | Stem | Cohesion | Substitutability | Examples |
480
  |------|----------|------------------|----------|
481
- | `тыгъ` | 1.78x | 28 contexts | тыгъу, тыгъэ, итыгъ |
482
- | `ъагъ` | 2.17x | 14 contexts | пчъагъ, лъагъо, тхъагъо |
483
- | `эпкъ` | 1.76x | 25 contexts | нэпкъ, нэпкъы, инэпкъ |
484
- | `агъэ` | 1.55x | 39 contexts | тхагъэ, багъэх, благъэ |
485
- | `къуа` | 2.17x | 10 contexts | къуае, къуадж, къуажэ |
486
- | `дыгэ` | 1.90x | 14 contexts | адыгэ, адыгэу, адыгэм |
487
- | `псэу` | 1.64x | 20 contexts | упсэу, нэпсэу, щэпсэу |
488
- | `эхэр` | 1.61x | 20 contexts | бэхэр, усэхэр, унэхэр |
489
- | `ъхьэ` | 1.72x | 16 contexts | шъхьэ, ишъхьэ, шъхьэм |
490
- | `ыгъо` | 1.62x | 19 contexts | цыгъо, мыгъо, мыгъом |
491
- | `шъхь` | 1.51x | 23 contexts | шъхьэ, шъхьаф, ишъхьэ |
492
- | `гъэх` | 1.67x | 14 contexts | багъэх, тхыгъэх, ежагъэх |
493
 
494
  ### 6.4 Affix Compatibility (Co-occurrence)
495
 
@@ -497,16 +498,16 @@ This table shows which prefixes and suffixes most frequently co-occur on the sam
497
 
498
  | Prefix | Suffix | Frequency | Examples |
499
  |--------|--------|-----------|----------|
500
- | `-къ` | `-э` | 94 words | къызэриӏорэмкӏэ, къыгъэпсыщтыгъэ |
501
- | `-къ` | `-р` | 64 words | къалъхуахэр, къызэдыхэфэныр |
502
- | `-къ` | `-м` | 56 words | къэралхэм, къожъхэм |
503
- | `-къ` | `-эр` | 52 words | къалъхуахэр, къалэр |
504
- | `-зэ` | `-р` | 43 words | зэрэзэтекӏыхэрэр, зэрыхъур |
505
- | `-зэ` | `-м` | 41 words | зэрэхъурэм, зэкъотыныгъэм |
506
- | `-къ` | `-эм` | 36 words | къэралхэм, къожъхэм |
507
- | `-зэ` | `-эр` | 34 words | зэрэзэтекӏыхэрэр, зэриукъорэр |
508
- | `-къ` | `-эу` | 33 words | къыхахыгъэу, къыдыхэлъытагъэу |
509
- | `-зэ` | `-э` | 31 words | зэралэжьырэ, зэгъусэмэ |
510
 
511
  ### 6.5 Recursive Morpheme Segmentation
512
 
@@ -514,21 +515,21 @@ Using **Recursive Hierarchical Substitutability**, we decompose complex words in
514
 
515
  | Word | Suggested Split | Confidence | Stem |
516
  |------|-----------------|------------|------|
517
- | щыпсэухэрэр | **`щыпс-эу-хэр-эр`** | 7.5 | `щыпс` |
 
518
  | литературэмрэ | **`литератур-эм-рэ`** | 6.0 | `литератур` |
519
- | мыхъунхэр | **`мыхъун-хэр`** | 4.5 | `мыхъун` |
520
- | джуртыбзэрэ | **`джуртыбзэ-рэ`** | 4.5 | `джуртыбзэ` |
521
- | тхьаматэр | **`тхьамат-эр`** | 4.5 | `тхьамат` |
522
- | фэхъугъэм | **`фэхъугъ-эм`** | 4.5 | `фэхъугъ` |
523
- | игъунэгъухэр | **`игъунэгъу-хэр`** | 4.5 | `игъунэгъу` |
524
- | нэмыкӏхэр | **`нэмыкӏ-хэр`** | 4.5 | `нэмыкӏ` |
525
- | зэкъотыныгъэм | **`зэ-къ-отыныгъ-эм`** | 4.5 | `отыныгъ` |
526
- | ипрезидентэу | **`ипрезидент-эу`** | 4.5 | `ипрезидент` |
527
  | литературэр | **`литератур-эр`** | 4.5 | `литератур` |
528
- | хъыбархэм | **`хъыбар-хэм`** | 4.5 | `хъыбар` |
529
- | культурэм | **`культур-эм`** | 4.5 | `культур` |
530
- | къыхафыгъэхэр | **`къ-ыхафыг-ъэ-хэр`** | 4.5 | `ыхафыг` |
531
- | зэрэгущаӏэхэрэр | **`зэ-рэгущаӏэ-хэр-эр`** | 4.5 | `рэгущаӏэ` |
 
 
 
 
 
532
 
533
  ### 6.6 Linguistic Interpretation
534
 
@@ -762,4 +763,4 @@ MIT License - Free for academic and commercial use.
762
  ---
763
  *Generated by Wikilangs Models Pipeline*
764
 
765
- *Report Date: 2026-01-03 14:02:39*
 
36
  value: 4.197
37
  - name: best_isotropy
38
  type: isotropy
39
+ value: 0.4880
40
  - name: vocabulary_size
41
  type: vocab
42
  value: 0
 
98
 
99
  Below are sample sentences tokenized with each vocabulary size:
100
 
101
+ **Sample 1:** `Ермэлхэр Кавказым ыкӏи дунаем тет лъэпкъ жъыдэдэмэ ащыщых. Армение`
102
 
103
  | Vocab | Tokens | Count |
104
  |-------|--------|-------|
105
+ | 8k | `▁ермэлхэр ▁— ▁кавказым ▁ыкӏи ▁дунаем ▁тет ▁лъэпкъ ▁жъыдэдэмэ ▁ащыщых . ... (+1 more)` | 11 |
106
+ | 16k | `▁ермэлхэр ▁— ▁кавказым ▁ыкӏи ▁дунаем ▁тет ▁лъэпкъ ▁жъыдэдэмэ ▁ащыщых . ... (+1 more)` | 11 |
107
+ | 32k | `▁ермэлхэр ▁— ▁кавказым ▁ыкӏи ▁дунаем ▁тет ▁лъэпкъ ▁жъыдэдэмэ ▁ащыщых . ... (+1 more)` | 11 |
108
 
109
+ **Sample 2:** `ТӀэшъу Светлан (УрысыбзэкӀэ: Светлана Тешева) Адыгэ журналист Адыгеим щыщ.`
110
 
111
  | Vocab | Tokens | Count |
112
  |-------|--------|-------|
113
+ | 8k | `▁тӏэ шъу ▁светлан ▁( урысыбзэкӏэ : ▁светлан а ▁те ше ... (+7 more)` | 17 |
114
+ | 16k | `▁тӏэ шъу ▁светлан ▁( урысыбзэкӏэ : ▁светлана ▁тешева ) ▁адыгэ ... (+4 more)` | 14 |
115
+ | 32k | `▁тӏэшъу ▁светлан ▁( урысыбзэкӏэ : ▁светлана ▁тешева ) ▁адыгэ ▁журналист ... (+3 more)` | 13 |
116
 
117
+ **Sample 3:** `Ашрай - быслъымэнмэ къурмэным ыуж мэфэ гъэнэфагъэм щагъэжъорэ стырыпс. category`
118
 
119
  | Vocab | Tokens | Count |
120
  |-------|--------|-------|
121
+ | 8k | `▁аш рай ▁- ▁быслъымэн мэ ▁къур мэным ▁ыуж ▁мэфэ ▁гъэнэф ... (+9 more)` | 19 |
122
+ | 16k | `▁аш рай ▁- ▁быслъымэн мэ ▁къурмэным ▁ыуж ▁мэфэ ▁гъэнэфагъэм ▁щагъэ ... (+4 more)` | 14 |
123
+ | 32k | `▁ашрай ▁- ▁быслъымэнмэ ▁къурмэным ▁ыуж ▁мэфэ ▁гъэнэфагъэм ▁щагъэжъорэ ▁стырыпс . ... (+1 more)` | 11 |
124
 
125
 
126
  ### Key Findings
 
270
 
271
  **Context Size 1:**
272
 
273
+ 1. `и дгъэпсыфынущ адыгэ лъэпкъым и 29 м н ф ф ф ф х х х хъ`
274
+ 2. `адыгэ хэхэсхэм ащыухъумэн ылъэкӏыгъ мыхъугъэ мышӏагъэхэр ыгу ит тарихъ лъапсэ иӏэу кӏэхьапӏэр ӏатау ...`
275
+ 3. `м ахахьэ хэгъэгу тхьаматэр халед бахах географие еуропэм ыгу рихь римыхьмэ тетэу къуаджэм ис цӏыфхэр...`
276
 
277
  **Context Size 2:**
278
 
279
+ 1. `нэбгырэ млн 1 3 фэдиз ц1ыфэу дэс ау хьанэгъунэр ибгъэгъусэжьмэ млн 18 фэдиз мэхъу щыпсэухэрэм ромэ к...`
280
+ 2. `къехъу щэпсэу я 67 норвегыбз дло м ахахьэ хэгъэгу эдгар ринкевичс къэрал тхьаматэр ульф кристерссон ...`
281
+ 3. `м къехъу щэпсэу хэгэгум 1 240 192 км францыбзэ къэрал яйи бони хэгъэгу тхьаматэр халифа бен салман`
282
 
283
  **Context Size 3:**
284
 
285
+ 1. `м къехъу щэпсэу хэгэгум 147 570 км бенгалыбзэ дло м хахьэ хэгъэгу абдель азиз бутефлика къэрал тхьэм...`
286
+ 2. `къехъу щэпсэу хэгэгум 140 800 км непали дло м хахьэ ез м хэхьанэу унашъо щыт ез м и`
287
+ 3. `адыгэ республикэм и псыхъу а псыхъом пэблагъэу щыт къуажэ`
288
 
289
  **Context Size 4:**
290
 
291
+ 1. `м къехъу щэпсэу хэгэгум чӏырэу иӏэр 322 460 км бзэшъхьаӏэхэр францыбзэ къэрал лӏышъхьэр алассан уатт...`
292
+ 2. `дло м хахьэ хэгъэгу султанэу кабоос бин саид аль саид хэгъэгу тхьаматэр фахд бин махьмуд географие а...`
293
+ 3. `еуропэм хэт къэралыгъу къэлэ тирана нэбгырэ млн 3 м къехъу щэпсэу хэгэгум 9 984 670 км я 2 англыбзэ`
294
 
295
 
296
  ### Generated Text Samples (Subword-based)
 
299
 
300
  **Context Size 1:**
301
 
302
+ 1. `_шхажъырэм_ащтем`
303
+ 2. `эгекъэсхэ_ари_пч`
304
+ 3. `ыгу,_цинащырыхэ_`
305
 
306
  **Context Size 2:**
307
 
308
+ 1. `гъэпсыр_зэрэ_ӏуад`
309
+ 2. `ъэп_ву_адыгъэхьын`
310
+ 3. `э_зыгэ_ж_дангьэ_т`
311
 
312
  **Context Size 3:**
313
 
314
+ 1. `гъэкъхэр,_кӏэ,_гум`
315
+ 2. `_къэралыгъэдунэжъы`
316
+ 3. `эм_и__зэрал_нэхэр`
317
 
318
  **Context Size 4:**
319
 
320
+ 1. `ыгъэ_гъэмрэ_приручи`
321
+ 2. `хэр_бжъэдыгъуапэ_зэ`
322
+ 3. `агъэхьан_хуейщ,_ахэ`
323
 
324
 
325
  ### Key Findings
 
424
 
425
  | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
426
  |-------|-----------|----------|------------------|---------------|----------------|
427
+ | **mono_32d** | 32 | 0.4880 | 0.4410 | N/A | N/A |
428
+ | **mono_64d** | 64 | 0.2186 | 0.3951 | N/A | N/A |
429
+ | **mono_128d** | 128 | 0.0372 | 0.3901 | N/A | N/A |
430
+ | **aligned_32d** | 32 | 0.4880 🏆 | 0.4477 | 0.0460 | 0.3851 |
431
+ | **aligned_64d** | 64 | 0.2186 | 0.3901 | 0.2011 | 0.7701 |
432
+ | **aligned_128d** | 128 | 0.0372 | 0.3927 | 0.2759 | 0.8103 |
433
 
434
  ### Key Findings
435
 
436
+ - **Best Isotropy:** aligned_32d with 0.4880 (more uniform distribution)
437
+ - **Semantic Density:** Average pairwise similarity of 0.4094. Lower values indicate better semantic separation.
438
+ - **Alignment Quality:** Aligned models achieve up to 27.6% R@1 in cross-lingual retrieval.
439
  - **Recommendation:** 128d aligned for best cross-lingual performance
440
 
441
  ---
 
457
  #### Productive Prefixes
458
  | Prefix | Examples |
459
  |--------|----------|
460
+ | `-къ` | къчр, къэлэшъо, къо |
461
+ | `-зэ` | зэрэхъугъэхэм, зэфэшъхьаф, зэхигъэуцогъэгъэ |
462
+ | `-къы` | къыӏуагъ, къыщыфэфедэщтхэу, къыгъэуцугъэ |
463
 
464
  #### Productive Suffixes
465
  | Suffix | Examples |
466
  |--------|----------|
467
+ | `-э` | литературоведческэ, уиджыбэ, лъымрэ |
468
+ | `-м` | заповедникым, хъуагъэм, ипэм |
469
+ | `-р` | тхэныр, хунгариер, къчр |
470
+ | `-эр` | алъытэщтыгъэр, тхыбзэр, ылъэгъурэр |
471
+ | `-эм` | хъуагъэм, ипэм, псалъэжьхэм |
472
+ | `-эу` | цӏэу, дэлъэу, щысэу |
473
+ | `-хэр` | тыркухэр, ежьхэр, ахэр |
474
+ | `-рэ` | лъымрэ, цӏэмрэ, зыфиӏорэ |
475
 
476
  ### 6.3 Bound Stems (Lexical Roots)
477
 
 
479
 
480
  | Stem | Cohesion | Substitutability | Examples |
481
  |------|----------|------------------|----------|
482
+ | `тыгъ` | 1.84x | 28 contexts | тыгъэ, тыгъу, итыгъ |
483
+ | `эпкъ` | 1.90x | 25 contexts | нэпкъ, тхэпкъ, лъэпкъ |
484
+ | `ъагъ` | 2.25x | 14 contexts | лъагъо, пчъагъ, пчъагъэ |
485
+ | `агъэ` | 1.63x | 39 contexts | благъэ, тхагъэ, пчагъэ |
486
+ | `дыгэ` | 2.03x | 14 contexts | адыгэ, адыгэу, адыгэм |
487
+ | `къуа` | 2.23x | 10 contexts | къуае, къуажэ, къуадж |
488
+ | `эхэр` | 1.72x | 20 contexts | бэхэр, дзэхэр, усэхэр |
489
+ | `ъхьэ` | 1.84x | 16 contexts | шъхьэ, пшъхьэ, шъхьэм |
490
+ | `псэу` | 1.70x | 20 contexts | упсэу, щэпсэу, щыпсэу |
491
+ | `шъхь` | 1.61x | 23 contexts | шъхьэ, пшъхьэ, шъхьэм |
492
+ | `ыгъо` | 1.66x | 19 contexts | цыгъо, мыгъо, цыгъор |
493
+ | `гъэх` | 1.79x | 14 contexts | багъэх, яӏагъэх, тхыгъэх |
494
 
495
  ### 6.4 Affix Compatibility (Co-occurrence)
496
 
 
498
 
499
  | Prefix | Suffix | Frequency | Examples |
500
  |--------|--------|-----------|----------|
501
+ | `-къ` | `-э` | 94 words | къохьапӏэ, къыхаутыгъэ |
502
+ | `-къ` | `-р` | 64 words | къабзэр, къызэдыхэфэныр |
503
+ | `-къ` | `-м` | 56 words | къэралыгъуэм, къунетрэм |
504
+ | `-къ` | `-эр` | 52 words | къабзэр, къуаджэхэр |
505
+ | `-зэ` | `-р` | 43 words | зэреджэхэр, зэрар |
506
+ | `-зэ` | `-м` | 41 words | зэблэтхъуным, зэрагъэтэрэзыжьыгъэм |
507
+ | `-къ` | `-эм` | 36 words | къэралыгъуэм, къунетрэм |
508
+ | `-зэ` | `-эр` | 34 words | зэреджэхэр, зэпырыбгъэзэжьынхэр |
509
+ | `-къ` | `-эу` | 33 words | къыщегъэжьагъэу, къинэу |
510
+ | `-зэ` | `-э` | 31 words | зэкъотыныгъэ, зэралэжьырэ |
511
 
512
  ### 6.5 Recursive Morpheme Segmentation
513
 
 
515
 
516
  | Word | Suggested Split | Confidence | Stem |
517
  |------|-----------------|------------|------|
518
+ | республикэмрэ | **`республик-эм-рэ`** | 6.0 | `республик` |
519
+ | макъэхэмрэ | **`макъэ-хэм-рэ`** | 6.0 | `макъэ` |
520
  | литературэмрэ | **`литератур-эм-рэ`** | 6.0 | `литератур` |
521
+ | благъохэмрэ | **`благъо-хэм-рэ`** | 6.0 | `благъо` |
522
+ | бзылъфыгъэмрэ | **`бзылъфыгъ-эм-рэ`** | 6.0 | `бзылъфыгъ` |
 
 
 
 
 
 
523
  | литературэр | **`литератур-эр`** | 4.5 | `литератур` |
524
+ | диалектэу | **`диалект-эу`** | 4.5 | `диалект` |
525
+ | агъэфедэрэ | **`агъэфедэ-рэ`** | 4.5 | `агъэфедэ` |
526
+ | шъхьафитэу | **`шъхьафит-эу`** | 4.5 | `шъхьафит` |
527
+ | зыкъэзыӏэтыгъэм | **`зыкъэзыӏэтыгъ-эм`** | 4.5 | `зыкъэзыӏэтыгъ` |
528
+ | ишъхъэрэмрэ | **`ишъхъ-эр-эм-рэ`** | 4.5 | `ишъхъ` |
529
+ | адэмыехэр | **`адэмые-хэр`** | 4.5 | `адэмые` |
530
+ | зэкъоуцохэу | **`зэ-къ-оуцох-эу`** | 4.5 | `оуцох` |
531
+ | ыгузэгухэм | **`ыгузэгу-хэм`** | 4.5 | `ыгузэгу` |
532
+ | беслъэнейхэр | **`беслъэней-хэр`** | 4.5 | `беслъэней` |
533
 
534
  ### 6.6 Linguistic Interpretation
535
 
 
763
  ---
764
  *Generated by Wikilangs Models Pipeline*
765
 
766
+ *Report Date: 2026-01-03 18:25:02*
models/embeddings/aligned/ady_128d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6f176dc3785048428a3b30c841bd84ed79b92ff591378272a599482b167641cd
3
  size 1025644289
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:54fa8beb790c99fb8dbceffed895e361fc95177fa65b6c2a2f24770283d988e7
3
  size 1025644289
models/embeddings/aligned/ady_128d.projection.npy CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d83549b0e20236b2c0988f4f13b7266f6f78751ae5dde671daea405bba933aae
3
  size 65664
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7bfa78b32e0f6f62daba66fcb84c2a3e87517a04646dc0a0af6ccf324dc5a075
3
  size 65664
models/embeddings/aligned/ady_32d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:663d1bbe256cb5339ab746ba37d0f5e5ab034bafd747c390ebbdd1eabbe1b5fc
3
  size 256436225
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3ad9dd33c4ed4c8edb30c3d64131a678ef7ebbdd54ba3dd558250822024bf1e2
3
  size 256436225
models/embeddings/aligned/ady_32d.projection.npy CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a7057b6fbc0c824ffad21041b164ea17f161de3d678d0a454ec12b77d682c863
3
  size 4224
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:031e3bbfd2a301b3bc3e8ce43f500c590b33ec69cb561392f3d213720f3a1d27
3
  size 4224
models/embeddings/aligned/ady_64d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5a10090792b8196b70efae444f73787c1ec5103fd55dc37ceb14d647443ad1a4
3
  size 512838913
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4aa856abed6e473095ebd9f0f03d2e187d2185df3ec2d0b3a05a40e5f88a358e
3
  size 512838913
models/embeddings/aligned/ady_64d.projection.npy CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:84ba46ef4bf4f82df308790cb1ba9f63722408b474837aeab9f8fc47f81c7e11
3
  size 16512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9bc27a15f027d3d8ab1e3bc89651f96b2b4360385a87f809c730b70723c72f91
3
  size 16512
models/embeddings/monolingual/ady_128d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6f176dc3785048428a3b30c841bd84ed79b92ff591378272a599482b167641cd
3
  size 1025644289
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:54fa8beb790c99fb8dbceffed895e361fc95177fa65b6c2a2f24770283d988e7
3
  size 1025644289
models/embeddings/monolingual/ady_32d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:663d1bbe256cb5339ab746ba37d0f5e5ab034bafd747c390ebbdd1eabbe1b5fc
3
  size 256436225
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3ad9dd33c4ed4c8edb30c3d64131a678ef7ebbdd54ba3dd558250822024bf1e2
3
  size 256436225
models/embeddings/monolingual/ady_64d.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5a10090792b8196b70efae444f73787c1ec5103fd55dc37ceb14d647443ad1a4
3
  size 512838913
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4aa856abed6e473095ebd9f0f03d2e187d2185df3ec2d0b3a05a40e5f88a358e
3
  size 512838913
models/tokenizer/ady_tokenizer_16k.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:907c1ae616234d526f5961f0c4f163fb497ac9c3805d3e14a7fe3fabf96c944f
3
  size 579551
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c1630ce7b27e0908e5b8246fc0edf09e4cbf03dec6806f8d56bd743aedabbe72
3
  size 579551
models/tokenizer/ady_tokenizer_32k.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:62873f8357831fb35e5a2f441ad474a6c2eb8cc0ae9734eb5c04190135969486
3
  size 926359
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:94c1932af3b48ee1e7a378d1c96e4111433905d74e509e9df034526399e2d9b6
3
  size 926359
models/tokenizer/ady_tokenizer_8k.model CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0c0595fa5cbdefef5ffe8230419254db68de7f2fb652181e980c62b94f6eea3a
3
  size 395183
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6895f68eb474a2e19a0debf47aac519afd50b5c6357bf706aa9d25d32f54cd66
3
  size 395183
visualizations/embedding_alignment_quality.png CHANGED
visualizations/embedding_isotropy.png CHANGED
visualizations/embedding_norms.png CHANGED
visualizations/embedding_similarity.png CHANGED

Git LFS Details

  • SHA256: 3e2db6b020a3f06b5bfd5d0e4f4f17e813c2832c50731cce05b4d91d4b804a38
  • Pointer size: 131 Bytes
  • Size of remote file: 146 kB

Git LFS Details

  • SHA256: 95e8a4e03890c82fe6fa73b9fe5554a21686992fee3b95646510130d0afa3f6d
  • Pointer size: 131 Bytes
  • Size of remote file: 150 kB
visualizations/embedding_tsne_multilingual.png CHANGED

Git LFS Details

  • SHA256: 6cc4773908d3dccd5e9beadd611b6be36a3b43fcd9bb71830c643452aefc7950
  • Pointer size: 131 Bytes
  • Size of remote file: 274 kB

Git LFS Details

  • SHA256: dcb5a7c6c53267b2d62097e8e75ab812db90c6c8fefbe129e6f71a542239f4bf
  • Pointer size: 131 Bytes
  • Size of remote file: 228 kB
visualizations/performance_dashboard.png CHANGED

Git LFS Details

  • SHA256: 73c1b71a73154f37864cb2ad04a61bd989c2b740ac3bec5a6840641b584bd397
  • Pointer size: 131 Bytes
  • Size of remote file: 375 kB

Git LFS Details

  • SHA256: cab72405eea21a1031fe62d2b4bd0ae0dc1e7d1e3df25483bd0440c1db927b05
  • Pointer size: 131 Bytes
  • Size of remote file: 368 kB
visualizations/position_encoding_comparison.png CHANGED

Git LFS Details

  • SHA256: 049bc8dc85c73649b04e5c1c8069b14e3165b0a878bc949cfed008cb60bde675
  • Pointer size: 131 Bytes
  • Size of remote file: 118 kB

Git LFS Details

  • SHA256: a919a5b53e64602e19b6b09de2f4cdcf97a9bef416c3a21d2bbad08430c39eb6
  • Pointer size: 131 Bytes
  • Size of remote file: 117 kB
visualizations/tsne_sentences.png CHANGED

Git LFS Details

  • SHA256: 611d619d0d749e2f5cbb0b07cafed047e471b61a95a68f2337608884783556ea
  • Pointer size: 131 Bytes
  • Size of remote file: 284 kB

Git LFS Details

  • SHA256: fbf2711bbce47f1ee4e496b0f4c9fbc6f057283b452e98c86011f5c01e43102b
  • Pointer size: 131 Bytes
  • Size of remote file: 281 kB
visualizations/tsne_words.png CHANGED

Git LFS Details

  • SHA256: 9351bd9bf68ab9786da6cd58809140433348541cfa3de343f57ea9de523bd9b1
  • Pointer size: 131 Bytes
  • Size of remote file: 611 kB

Git LFS Details

  • SHA256: 61563e9b59f21b67ff03bb79bdb5d25400ef591bf946629f46e777a37ef431df
  • Pointer size: 131 Bytes
  • Size of remote file: 604 kB