Upload all models and assets for ady (latest)

Browse files

Files changed (22) hide show

README.md +93 -92
models/embeddings/aligned/ady_128d.bin +1 -1
models/embeddings/aligned/ady_128d.projection.npy +1 -1
models/embeddings/aligned/ady_32d.bin +1 -1
models/embeddings/aligned/ady_32d.projection.npy +1 -1
models/embeddings/aligned/ady_64d.bin +1 -1
models/embeddings/aligned/ady_64d.projection.npy +1 -1
models/embeddings/monolingual/ady_128d.bin +1 -1
models/embeddings/monolingual/ady_32d.bin +1 -1
models/embeddings/monolingual/ady_64d.bin +1 -1
models/tokenizer/ady_tokenizer_16k.model +1 -1
models/tokenizer/ady_tokenizer_32k.model +1 -1
models/tokenizer/ady_tokenizer_8k.model +1 -1
visualizations/embedding_alignment_quality.png +0 -0
visualizations/embedding_isotropy.png +0 -0
visualizations/embedding_norms.png +0 -0
visualizations/embedding_similarity.png +2 -2
visualizations/embedding_tsne_multilingual.png +2 -2
visualizations/performance_dashboard.png +2 -2
visualizations/position_encoding_comparison.png +2 -2
visualizations/tsne_sentences.png +2 -2
visualizations/tsne_words.png +2 -2

README.md CHANGED Viewed

@@ -36,7 +36,7 @@ metrics:
     value: 4.197
   - name: best_isotropy
     type: isotropy
-    value: 0.4929
   - name: vocabulary_size
     type: vocab
     value: 0
@@ -98,29 +98,29 @@ We analyze tokenizers, n-gram models, Markov chains, vocabulary statistics, and
 Below are sample sentences tokenized with each vocabulary size:
-**Sample 1:** `(Пынарбашы), Къайсэр къалэм и район. Адыгэхэ нахь бэрэу мы лъэныком щыӏпсэу.`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁( пы н арбашы ), ▁къайсэр ▁къалэм ▁и ▁район . ... (+10 more)` | 20 |
-| 16k | `▁( пы н арбашы ), ▁къайсэр ▁къалэм ▁и ▁район . ... (+10 more)` | 20 |
-| 32k | `▁( пынарбашы ), ▁къайсэр ▁къалэм ▁и ▁район . ▁адыгэхэ ▁нахь ... (+5 more)` | 15 |
-**Sample 2:** `Орэдус — орэдхэр зыусырэр. пае классикэ орэд е мэкъамэ ягугъу – композитор нахьы...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁орэдус ▁— ▁орэдхэр ▁зы ус ырэр . ▁пае ▁класс икэ ... (+18 more)` | 28 |
-| 16k | `▁орэдус ▁— ▁орэдхэр ▁зы ус ырэр . ▁пае ▁класс икэ ... (+15 more)` | 25 |
-| 32k | `▁орэдус ▁— ▁орэдхэр ▁зыусырэр . ▁пае ▁классикэ ▁орэд ▁е ▁мэкъамэ ... (+10 more)` | 20 |
-**Sample 3:** `Эбрар Каракурт 17 Щылэмаз Балыкесирым къэхъугъ, Тыркуе Волэйболым и джэгуакӀу,Ты...`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
-| 8k | `▁э б рар ▁кара к урт ▁ 1 7 ▁щы ... (+21 more)` | 31 |
-| 16k | `▁эбрар ▁карак урт ▁ 1 7 ▁щы л эм аз ... (+15 more)` | 25 |
-| 32k | `▁эбрар ▁каракурт ▁ 1 7 ▁щылэмаз ▁балыкесирым ▁къэхъугъ , ▁тыркуе ... (+10 more)` | 20 |
 ### Key Findings
@@ -270,27 +270,27 @@ Below are text samples generated from each word-based Markov chain model:
 **Context Size 1:**
-1. `и нэхъышъхьэ лэжьыгъэм статистикэм теухуауэ интервью къэрал хассан аль джадид зэхащагъ илъэсым тэуфи...`
-2. `адыгэ литературэм ихьаси лъэшэу фэӏэзагъэх синдикэр къэралыгъоу тунисым и 20 м нэс тхыдэр нэхь мэхъу...`
-3. `м хахьэ ыужрэр алтай бзэунагъом хахьэ хэгъэгу тхьаматэр инь юн`
 **Context Size 2:**
-1. `нэбгырэ млн 7 къехъу щэпсэу хэгэгум 51 100 км арапыбзэ дло м еуро зэкъотыныгъэм ахахьэ хэгъэгу колин...`
-2. `къехъу щэпсэу хэгэгум 718 км китаибзэ англыбзэ малаибзэ тамилыбзэ дло м хахьэ хэгъэгу пачъыхьэу абду...`
-3. `м къехъу щэпсэу хэгэгум 267 667 км францыбзэ къэрал фор эссозимна гнассингбе хэгъэгу тхьаматэр даниэ...`
 **Context Size 3:**
-1. `м къехъу щэпсэу хэгэгум 765 км арапыбз арап къэралмэ анахь баймэ ащыщ нефтыр лъэшдэдэу дло м хахьэ х...`
-2. `къехъу щэпсэу хэгэгум 147 570 км бенгалыбзэ дло м хахьэ хэгъэгу алмазбек атамбаев къэрал тхьэматэр т...`
-3. `адыгэ республикэм и шэуджэн къедзыгъом и къоджэ км 42 мыекъуапэ пэчыжь хэкум къинэжьыгъэ абдзэхэ къо...`
 **Context Size 4:**
-1. `м къехъу щэпсэу хэгэгум чӏырэу иӏэр 17 820 км бзэшъхьаӏэр арапыбз дло м хахьэ хэгъэгу хассанал болки...`
-2. `дло м хахьэ хэгъэгу тейн сейн географие азием и гъунэгъухэр урысые казахстан кыргызстан монголие ишъ...`
-3. `еуропэм хэт къэралыгъу къэлэ загреб нэбгырэ млн 4 м къехъу щэпсэу я 116 хэгэгум 49 035 км я 129`
 ### Generated Text Samples (Subword-based)
@@ -299,27 +299,27 @@ Below are text samples generated from each subword-based Markov chain model:
 **Context Size 1:**
-1. `_пчӏэр_гокъэме_д`
-2. `эр_цӏыӏэзэзынэ_я`
-3. `ыем_щщэра,_фадж.`
 **Context Size 2:**
-1. `гъэмьяхэр_арт_пре`
-2. `ъэу_дэхъ_зышӏэным`
-3. `э_гъэ_ратымэ_лъхь`
 **Context Size 3:**
-1. `гъэзекӏожьыдзэнэжы`
-2. `_къагъэхьыбэмэ,_гу`
-3. `эм_къурэтхъум_↔_ищ`
 **Context Size 4:**
-1. `ыгъэ_хасэмрэ_млн_89`
-2. `хэр_къолэжъхэр_тхыг`
-3. `агъэкӏотэщтыр_ары._`
 ### Key Findings
@@ -424,18 +424,18 @@ Below are text samples generated from each subword-based Markov chain model:
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
-| **mono_32d** | 32 | 0.4929 🏆 | 0.4238 | N/A | N/A |
-| **mono_64d** | 64 | 0.2008 | 0.4008 | N/A | N/A |
-| **mono_128d** | 128 | 0.0373 | 0.3931 | N/A | N/A |
-| **aligned_32d** | 32 | 0.4929 | 0.4303 | 0.0632 | 0.4080 |
-| **aligned_64d** | 64 | 0.2008 | 0.3933 | 0.2011 | 0.7586 |
-| **aligned_128d** | 128 | 0.0373 | 0.3923 | 0.2701 | 0.8046 |
 ### Key Findings
-- **Best Isotropy:** mono_32d with 0.4929 (more uniform distribution)
-- **Semantic Density:** Average pairwise similarity of 0.4056. Lower values indicate better semantic separation.
-- **Alignment Quality:** Aligned models achieve up to 27.0% R@1 in cross-lingual retrieval.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
@@ -457,20 +457,21 @@ These are the most productive prefixes and suffixes identified by sampling the v
 #### Productive Prefixes
 | Prefix | Examples |
 |--------|----------|
-| `-къ` | къахэщых, къэштэжь, къыхагъэщэу |
-| `-зэ` | зэмыпэсырэм, зэрагъэзэкӏуагъэу, зэфэшъхьафыбэмэ |
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
-| `-э` | инджылыбзэ, шъхьэгуащэ, ыкурэ |
-| `-р` | хъулъфыгъэхэр, егъэблэгъэныр, усэхэр |
-| `-м` | зэмыпэсырэм, бысымым, м |
-| `-эр` | хъулъфыгъэхэр, усэхэр, благъэр |
-| `-эм` | зэмыпэсырэм, къутамэм, пхъэм |
-| `-эу` | бэрэу, зэрагъэзэкӏуагъэу, къыхагъэщэу |
-| `-хэр` | хъулъфыгъэхэр, усэхэр, ӏутыхэр |
-| `-рэ` | ыкурэ, цӏэмрэ, чэщрэ |
 ### 6.3 Bound Stems (Lexical Roots)
@@ -478,18 +479,18 @@ Bound stems are high-frequency subword units that are semantically cohesive but
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
-| `тыгъ` | 1.78x | 28 contexts | тыгъу, тыгъэ, итыгъ |
-| `ъагъ` | 2.17x | 14 contexts | пчъагъ, лъагъо, тхъагъо |
-| `эпкъ` | 1.76x | 25 contexts | нэпкъ, нэпкъы, инэпкъ |
-| `агъэ` | 1.55x | 39 contexts | тхагъэ, багъэх, благъэ |
-| `къуа` | 2.17x | 10 contexts | къуае, къуадж, къуажэ |
-| `дыгэ` | 1.90x | 14 contexts | адыгэ, адыгэу, адыгэм |
-| `псэу` | 1.64x | 20 contexts | упсэу, нэпсэу, щэпсэу |
-| `эхэр` | 1.61x | 20 contexts | бэхэр, усэхэр, унэхэр |
-| `ъхьэ` | 1.72x | 16 contexts | шъхьэ, ишъхьэ, шъхьэм |
-| `ыгъо` | 1.62x | 19 contexts | цыгъо, мыгъо, мыгъом |
-| `шъхь` | 1.51x | 23 contexts | шъхьэ, шъхьаф, ишъхьэ |
-| `гъэх` | 1.67x | 14 contexts | багъэх, тхыгъэх, ежагъэх |
 ### 6.4 Affix Compatibility (Co-occurrence)
@@ -497,16 +498,16 @@ This table shows which prefixes and suffixes most frequently co-occur on the sam
 | Prefix | Suffix | Frequency | Examples |
 |--------|--------|-----------|----------|
-| `-къ` | `-э` | 94 words | къызэриӏорэмкӏэ, къыгъэпсыщтыгъэ |
-| `-къ` | `-р` | 64 words | къалъхуахэр, къызэдыхэфэныр |
-| `-къ` | `-м` | 56 words | къэралхэм, къожъхэм |
-| `-къ` | `-эр` | 52 words | къалъхуахэр, къалэр |
-| `-зэ` | `-р` | 43 words | зэрэзэтекӏыхэрэр, зэрыхъур |
-| `-зэ` | `-м` | 41 words | зэрэхъурэм, зэкъотыныгъэм |
-| `-къ` | `-эм` | 36 words | къэралхэм, къожъхэм |
-| `-зэ` | `-эр` | 34 words | зэрэзэтекӏыхэрэр, зэриукъорэр |
-| `-къ` | `-эу` | 33 words | къыхахыгъэу, къыдыхэлъытагъэу |
-| `-зэ` | `-э` | 31 words | зэралэжьырэ, зэгъусэмэ |
 ### 6.5 Recursive Morpheme Segmentation
@@ -514,21 +515,21 @@ Using **Recursive Hierarchical Substitutability**, we decompose complex words in
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
-| щыпсэухэрэр | **`щыпс-эу-хэр-эр`** | 7.5 | `щыпс` |
 | литературэмрэ | **`литератур-эм-рэ`** | 6.0 | `литератур` |
-| мыхъунхэр | **`мыхъун-хэр`** | 4.5 | `мыхъун` |
-| джуртыбзэрэ | **`джуртыбзэ-рэ`** | 4.5 | `джуртыбзэ` |
-| тхьаматэр | **`тхьамат-эр`** | 4.5 | `тхьамат` |
-| фэхъугъэм | **`фэхъугъ-эм`** | 4.5 | `фэхъугъ` |
-| игъунэгъухэр | **`игъунэгъу-хэр`** | 4.5 | `игъунэгъу` |
-| нэмыкӏхэр | **`нэмыкӏ-хэр`** | 4.5 | `нэмыкӏ` |
-| зэкъотыныгъэм | **`зэ-къ-отыныгъ-эм`** | 4.5 | `отыныгъ` |
-| ипрезидентэу | **`ипрезидент-эу`** | 4.5 | `ипрезидент` |
 | литературэр | **`литератур-эр`** | 4.5 | `литератур` |
-| хъыбархэм | **`хъыбар-хэм`** | 4.5 | `хъыбар` |
-| культурэм | **`культур-эм`** | 4.5 | `культур` |
-| къыхафыгъэхэр | **`къ-ыхафыг-ъэ-хэр`** | 4.5 | `ыхафыг` |
-| зэрэгущаӏэхэрэр | **`зэ-рэгущаӏэ-хэр-эр`** | 4.5 | `рэгущаӏэ` |
 ### 6.6 Linguistic Interpretation
@@ -762,4 +763,4 @@ MIT License - Free for academic and commercial use.
 ---
 *Generated by Wikilangs Models Pipeline*
-*Report Date: 2026-01-03 14:02:39*

     value: 4.197
   - name: best_isotropy
     type: isotropy
+    value: 0.4880
   - name: vocabulary_size
     type: vocab
     value: 0
 Below are sample sentences tokenized with each vocabulary size:
+**Sample 1:** `Ермэлхэр — Кавказым ыкӏи дунаем тет лъэпкъ жъыдэдэмэ ащыщых. Армение`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁ермэлхэр ▁— ▁кавказым ▁ыкӏи ▁дунаем ▁тет ▁лъэпкъ ▁жъыдэдэмэ ▁ащыщых . ... (+1 more)` | 11 |
+| 16k | `▁ермэлхэр ▁— ▁кавказым ▁ыкӏи ▁дунаем ▁тет ▁лъэпкъ ▁жъыдэдэмэ ▁ащыщых . ... (+1 more)` | 11 |
+| 32k | `▁ермэлхэр ▁— ▁кавказым ▁ыкӏи ▁дунаем ▁тет ▁лъэпкъ ▁жъыдэдэмэ ▁ащыщых . ... (+1 more)` | 11 |
+**Sample 2:** `ТӀэшъу Светлан (УрысыбзэкӀэ: Светлана Тешева) Адыгэ журналист Адыгеим щыщ.`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁тӏэ шъу ▁светлан ▁( урысыбзэкӏэ : ▁светлан а ▁те ше ... (+7 more)` | 17 |
+| 16k | `▁тӏэ шъу ▁светлан ▁( урысыбзэкӏэ : ▁светлана ▁тешева ) ▁адыгэ ... (+4 more)` | 14 |
+| 32k | `▁тӏэшъу ▁светлан ▁( урысыбзэкӏэ : ▁светлана ▁тешева ) ▁адыгэ ▁журналист ... (+3 more)` | 13 |
+**Sample 3:** `Ашрай - быслъымэнмэ къурмэным ыуж мэфэ гъэнэфагъэм щагъэжъорэ стырыпс. category`
 | Vocab | Tokens | Count |
 |-------|--------|-------|
+| 8k | `▁аш рай ▁- ▁быслъымэн мэ ▁къур мэным ▁ыуж ▁мэфэ ▁гъэнэф ... (+9 more)` | 19 |
+| 16k | `▁аш рай ▁- ▁быслъымэн мэ ▁къурмэным ▁ыуж ▁мэфэ ▁гъэнэфагъэм ▁щагъэ ... (+4 more)` | 14 |
+| 32k | `▁ашрай ▁- ▁быслъымэнмэ ▁къурмэным ▁ыуж ▁мэфэ ▁гъэнэфагъэм ▁щагъэжъорэ ▁стырыпс . ... (+1 more)` | 11 |
 ### Key Findings
 **Context Size 1:**
+1. `и дгъэпсыфынущ адыгэ лъэпкъым и 29 м н ф ф ф ф х х х хъ`
+2. `адыгэ хэхэсхэм ащыухъумэн ылъэкӏыгъ мыхъугъэ мышӏагъэхэр ыгу ит тарихъ лъапсэ иӏэу кӏэхьапӏэр ӏатау ...`
+3. `м ахахьэ хэгъэгу тхьаматэр халед бахах географие еуропэм ыгу рихь римыхьмэ тетэу къуаджэм ис цӏыфхэр...`
 **Context Size 2:**
+1. `нэбгырэ млн 1 3 фэдиз ц1ыфэу дэс ау хьанэгъунэр ибгъэгъусэжьмэ млн 18 фэдиз мэхъу щыпсэухэрэм ромэ к...`
+2. `къехъу щэпсэу я 67 норвегыбз дло м ахахьэ хэгъэгу эдгар ринкевичс къэрал тхьаматэр ульф кристерссон ...`
+3. `м къехъу щэпсэу хэгэгум 1 240 192 км францыбзэ къэрал яйи бони хэгъэгу тхьаматэр халифа бен салман`
 **Context Size 3:**
+1. `м къехъу щэпсэу хэгэгум 147 570 км бенгалыбзэ дло м хахьэ хэгъэгу абдель азиз бутефлика къэрал тхьэм...`
+2. `къехъу щэпсэу хэгэгум 140 800 км непали дло м хахьэ ез м хэхьанэу унашъо щыт ез м и`
+3. `адыгэ республикэм и псыхъу а псыхъом пэблагъэу щыт къуажэ`
 **Context Size 4:**
+1. `м къехъу щэпсэу хэгэгум чӏырэу иӏэр 322 460 км бзэшъхьаӏэхэр францыбзэ къэрал лӏышъхьэр алассан уатт...`
+2. `дло м хахьэ хэгъэгу султанэу кабоос бин саид аль саид хэгъэгу тхьаматэр фахд бин махьмуд географие а...`
+3. `еуропэм хэт къэралыгъу къэлэ тирана нэбгырэ млн 3 м къехъу щэпсэу хэгэгум 9 984 670 км я 2 англыбзэ`
 ### Generated Text Samples (Subword-based)
 **Context Size 1:**
+1. `_шхажъырэм_ащтем`
+2. `эгекъэсхэ_ари_пч`
+3. `ыгу,_цинащырыхэ_`
 **Context Size 2:**
+1. `гъэпсыр_зэрэ_ӏуад`
+2. `ъэп_ву_адыгъэхьын`
+3. `э_зыгэ_ж_дангьэ_т`
 **Context Size 3:**
+1. `гъэкъхэр,_кӏэ,_гум`
+2. `_къэралыгъэдунэжъы`
+3. `эм_и_–_зэрал_нэхэр`
 **Context Size 4:**
+1. `ыгъэ_гъэмрэ_приручи`
+2. `хэр_бжъэдыгъуапэ_зэ`
+3. `агъэхьан_хуейщ,_ахэ`
 ### Key Findings
 | Model | Dimension | Isotropy | Semantic Density | Alignment R@1 | Alignment R@10 |
 |-------|-----------|----------|------------------|---------------|----------------|
+| **mono_32d** | 32 | 0.4880 | 0.4410 | N/A | N/A |
+| **mono_64d** | 64 | 0.2186 | 0.3951 | N/A | N/A |
+| **mono_128d** | 128 | 0.0372 | 0.3901 | N/A | N/A |
+| **aligned_32d** | 32 | 0.4880 🏆 | 0.4477 | 0.0460 | 0.3851 |
+| **aligned_64d** | 64 | 0.2186 | 0.3901 | 0.2011 | 0.7701 |
+| **aligned_128d** | 128 | 0.0372 | 0.3927 | 0.2759 | 0.8103 |
 ### Key Findings
+- **Best Isotropy:** aligned_32d with 0.4880 (more uniform distribution)
+- **Semantic Density:** Average pairwise similarity of 0.4094. Lower values indicate better semantic separation.
+- **Alignment Quality:** Aligned models achieve up to 27.6% R@1 in cross-lingual retrieval.
 - **Recommendation:** 128d aligned for best cross-lingual performance
 ---
 #### Productive Prefixes
 | Prefix | Examples |
 |--------|----------|
+| `-къ` | къчр, къэлэшъо, къо |
+| `-зэ` | зэрэхъугъэхэм, зэфэшъхьаф, зэхигъэуцогъэгъэ |
+| `-къы` | къыӏуагъ, къыщыфэфедэщтхэу, къыгъэуцугъэ |
 #### Productive Suffixes
 | Suffix | Examples |
 |--------|----------|
+| `-э` | литературоведческэ, уиджыбэ, лъымрэ |
+| `-м` | заповедникым, хъуагъэм, ипэм |
+| `-р` | тхэныр, хунгариер, къчр |
+| `-эр` | алъытэщтыгъэр, тхыбзэр, ылъэгъурэр |
+| `-эм` | хъуагъэм, ипэм, псалъэжьхэм |
+| `-эу` | цӏэу, дэлъэу, щысэу |
+| `-хэр` | тыркухэр, ежьхэр, ахэр |
+| `-рэ` | лъымрэ, цӏэмрэ, зыфиӏорэ |
 ### 6.3 Bound Stems (Lexical Roots)
 | Stem | Cohesion | Substitutability | Examples |
 |------|----------|------------------|----------|
+| `тыгъ` | 1.84x | 28 contexts | тыгъэ, тыгъу, итыгъ |
+| `эпкъ` | 1.90x | 25 contexts | нэпкъ, тхэпкъ, лъэпкъ |
+| `ъагъ` | 2.25x | 14 contexts | лъагъо, пчъагъ, пчъагъэ |
+| `агъэ` | 1.63x | 39 contexts | благъэ, тхагъэ, пчагъэ |
+| `дыгэ` | 2.03x | 14 contexts | адыгэ, адыгэу, адыгэм |
+| `къуа` | 2.23x | 10 contexts | къуае, къуажэ, къуадж |
+| `эхэр` | 1.72x | 20 contexts | бэхэр, дзэхэр, усэхэр |
+| `ъхьэ` | 1.84x | 16 contexts | шъхьэ, пшъхьэ, шъхьэм |
+| `псэу` | 1.70x | 20 contexts | упсэу, щэпсэу, щыпсэу |
+| `шъхь` | 1.61x | 23 contexts | шъхьэ, пшъхьэ, шъхьэм |
+| `ыгъо` | 1.66x | 19 contexts | цыгъо, мыгъо, цыгъор |
+| `гъэх` | 1.79x | 14 contexts | багъэх, яӏагъэх, тхыгъэх |
 ### 6.4 Affix Compatibility (Co-occurrence)
 | Prefix | Suffix | Frequency | Examples |
 |--------|--------|-----------|----------|
+| `-къ` | `-э` | 94 words | къохьапӏэ, къыхаутыгъэ |
+| `-къ` | `-р` | 64 words | къабзэр, къызэдыхэфэныр |
+| `-къ` | `-м` | 56 words | къэралыгъуэм, къунетрэм |
+| `-къ` | `-эр` | 52 words | къабзэр, къуаджэхэр |
+| `-зэ` | `-р` | 43 words | зэреджэхэр, зэрар |
+| `-зэ` | `-м` | 41 words | зэблэтхъуным, зэрагъэтэрэзыжьыгъэм |
+| `-къ` | `-эм` | 36 words | къэралыгъуэм, къунетрэм |
+| `-зэ` | `-эр` | 34 words | зэреджэхэр, зэпырыбгъэзэжьынхэр |
+| `-къ` | `-эу` | 33 words | къыщегъэжьагъэу, къинэу |
+| `-зэ` | `-э` | 31 words | зэкъотыныгъэ, зэралэжьырэ |
 ### 6.5 Recursive Morpheme Segmentation
 | Word | Suggested Split | Confidence | Stem |
 |------|-----------------|------------|------|
+| республикэмрэ | **`республик-эм-рэ`** | 6.0 | `республик` |
+| макъэхэмрэ | **`макъэ-хэм-рэ`** | 6.0 | `макъэ` |
 | литературэмрэ | **`литератур-эм-рэ`** | 6.0 | `литератур` |
+| благъохэмрэ | **`благъо-хэм-рэ`** | 6.0 | `благъо` |
+| бзылъфыгъэмрэ | **`бзылъфыгъ-эм-рэ`** | 6.0 | `бзылъфыгъ` |
 | литературэр | **`литератур-эр`** | 4.5 | `литератур` |
+| диалектэу | **`диалект-эу`** | 4.5 | `диалект` |
+| агъэфедэрэ | **`агъэфедэ-рэ`** | 4.5 | `агъэфедэ` |
+| шъхьафитэу | **`шъхьафит-эу`** | 4.5 | `шъхьафит` |
+| зыкъэзыӏэтыгъэм | **`зыкъэзыӏэтыгъ-эм`** | 4.5 | `зыкъэзыӏэтыгъ` |
+| ишъхъэрэмрэ | **`ишъхъ-эр-эм-рэ`** | 4.5 | `ишъхъ` |
+| адэмыехэр | **`адэмые-хэр`** | 4.5 | `адэмые` |
+| зэкъоуцохэу | **`зэ-къ-оуцох-эу`** | 4.5 | `оуцох` |
+| ыгузэгухэм | **`ыгузэгу-хэм`** | 4.5 | `ыгузэгу` |
+| беслъэнейхэр | **`беслъэней-хэр`** | 4.5 | `беслъэней` |
 ### 6.6 Linguistic Interpretation
 ---
 *Generated by Wikilangs Models Pipeline*
+*Report Date: 2026-01-03 18:25:02*

models/embeddings/aligned/ady_128d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f176dc3785048428a3b30c841bd84ed79b92ff591378272a599482b167641cd
 size 1025644289

 version https://git-lfs.github.com/spec/v1
+oid sha256:54fa8beb790c99fb8dbceffed895e361fc95177fa65b6c2a2f24770283d988e7
 size 1025644289

models/embeddings/aligned/ady_128d.projection.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d83549b0e20236b2c0988f4f13b7266f6f78751ae5dde671daea405bba933aae
 size 65664

 version https://git-lfs.github.com/spec/v1
+oid sha256:7bfa78b32e0f6f62daba66fcb84c2a3e87517a04646dc0a0af6ccf324dc5a075
 size 65664

models/embeddings/aligned/ady_32d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:663d1bbe256cb5339ab746ba37d0f5e5ab034bafd747c390ebbdd1eabbe1b5fc
 size 256436225

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ad9dd33c4ed4c8edb30c3d64131a678ef7ebbdd54ba3dd558250822024bf1e2
 size 256436225

models/embeddings/aligned/ady_32d.projection.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7057b6fbc0c824ffad21041b164ea17f161de3d678d0a454ec12b77d682c863
 size 4224

 version https://git-lfs.github.com/spec/v1
+oid sha256:031e3bbfd2a301b3bc3e8ce43f500c590b33ec69cb561392f3d213720f3a1d27
 size 4224

models/embeddings/aligned/ady_64d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a10090792b8196b70efae444f73787c1ec5103fd55dc37ceb14d647443ad1a4
 size 512838913

 version https://git-lfs.github.com/spec/v1
+oid sha256:4aa856abed6e473095ebd9f0f03d2e187d2185df3ec2d0b3a05a40e5f88a358e
 size 512838913

models/embeddings/aligned/ady_64d.projection.npy CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84ba46ef4bf4f82df308790cb1ba9f63722408b474837aeab9f8fc47f81c7e11
 size 16512

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bc27a15f027d3d8ab1e3bc89651f96b2b4360385a87f809c730b70723c72f91
 size 16512

models/embeddings/monolingual/ady_128d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f176dc3785048428a3b30c841bd84ed79b92ff591378272a599482b167641cd
 size 1025644289

 version https://git-lfs.github.com/spec/v1
+oid sha256:54fa8beb790c99fb8dbceffed895e361fc95177fa65b6c2a2f24770283d988e7
 size 1025644289

models/embeddings/monolingual/ady_32d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:663d1bbe256cb5339ab746ba37d0f5e5ab034bafd747c390ebbdd1eabbe1b5fc
 size 256436225

 version https://git-lfs.github.com/spec/v1
+oid sha256:3ad9dd33c4ed4c8edb30c3d64131a678ef7ebbdd54ba3dd558250822024bf1e2
 size 256436225

models/embeddings/monolingual/ady_64d.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a10090792b8196b70efae444f73787c1ec5103fd55dc37ceb14d647443ad1a4
 size 512838913