Aprender las bases del idioma quechua para poder mantener conversaciones simples y entender la cultura asociada.
El alfabeto quechua cusqueño consta de 24 letras, incluyendo vocales (a, e, i, o, u) y consonantes (como p, t, k, q, s, ch, sh). Se caracteriza por la ausencia de algunas letras del alfabeto español, como la «b» y la «d», y su pronunciación es fonética, facilitando la lectura.
Este análisis no se limita a listar letras, sino que busca identificar patrones estructurales, restricciones de uso y distribución interna del sistema ortográfico.
Arquitectura Nivel-Carácter del Sistema Morfológico Quechua
Este informe presenta un análisis estructural a nivel de carácter a partir de formas válidas derivadas del dataset V3sustantivo.
Alcance del análisis:
El estudio se basa en un corpus de 5,411 palabras únicas, generadas a partir de una única raíz léxica («wasi») mediante reglas morfológicas válidas. Por tanto, los resultados reflejan el comportamiento estructural del sistema bajo esta condición controlada, y no una distribución general del idioma quechua en su totalidad.
A. Análisis Básico de Frecuencias
Este núcleo identifica las unidades ortográficas base del sistema en términos globales.
- Total de palabras únicas procesadas: 5,411
- Total de letras (volumen corpus): 76,705
Tabla General: Letras y Frecuencias
| Letra | Conteo | % | Inicio | Medio | Final | Acumulado_% |
|---|---|---|---|---|---|---|
| a | 19358 | 25.24% | 0 | 17339 | 2019 | 25.24% |
| i | 8534 | 11.13% | 0 | 7853 | 681 | 36.36% |
| s | 7273 | 9.48% | 0 | 6642 | 631 | 45.84% |
| w | 6323 | 8.24% | 5411 | 912 | 0 | 54.09% |
| n | 4946 | 6.45% | 0 | 4468 | 478 | 60.54% |
| h | 4030 | 5.25% | 0 | 4030 | 0 | 65.79% |
| c | 4030 | 5.25% | 0 | 4030 | 0 | 71.04% |
| l | 3808 | 4.96% | 0 | 3808 | 0 | 76.01% |
| k | 3102 | 4.04% | 0 | 3102 | 0 | 80.05% |
| u | 2938 | 3.83% | 0 | 2423 | 515 | 83.88% |
| y | 2793 | 3.64% | 0 | 2785 | 8 | 87.52% |
| p | 2523 | 3.29% | 0 | 2523 | 0 | 90.81% |
| m | 2004 | 2.61% | 0 | 1768 | 236 | 93.43% |
| q | 1770 | 2.31% | 0 | 927 | 843 | 95.73% |
| t | 1745 | 2.27% | 0 | 1745 | 0 | 98.01% |
| r | 1003 | 1.31% | 0 | 1003 | 0 | 99.32% |
| ñ | 525 | 0.68% | 0 | 525 | 0 | 100.00% |
La distribución muestra una alta concentración en un conjunto reducido de letras, indicando un uso no uniforme del alfabeto.
Gráfico 1: Frecuencia Relativa del Alfabeto

B. Análisis Estructural y Posicional
La distribución posicional permite observar restricciones implícitas dentro del sistema.
Distribución por Posición
El comportamiento de las letras no es uniforme: ciertos caracteres dominan posiciones específicas dentro de la cadena.
Por ejemplo, la letra “w” aparece exclusivamente en posición inicial en todo el corpus analizado, lo que indica una fuerte dependencia estructural asociada a la raíz.
Se observan restricciones claras: ciertas letras aparecen exclusivamente en posiciones específicas, lo que sugiere reglas estructurales dentro del sistema.
Gráfico 2: Distribución por Posición

Algunas letras presentan restricciones posicionales estrictas, apareciendo únicamente en posiciones específicas dentro de la palabra.
Se identifican letras con restricciones posicionales estrictas, apareciendo únicamente en posiciones específicas dentro de la palabra.
Estructura de Palabras (Longitud del Sistema)
- Promedio derivativo: 14.18 letras por palabra
- Mínimo registrado: 5 letras (raíz base)
- Máximo observado: 23 letras
- Mediana: 14.0 letras
La expansión morfológica genera cadenas significativamente más largas sin alterar la base estructural.
Gráfico 3: Histograma de Longitud

C. Análisis de Patrones y Transiciones
Para modelar la dinámica interna del sistema, se evaluaron transiciones carácter a carácter mediante un modelo de primer orden (bigramas).
Bigramas más frecuentes
| Bigrama | Conteo | % |
|---|---|---|
| wa | 6323 | 8.87% |
| as | 6093 | 8.55% |
| si | 5729 | 8.04% |
| ch | 4030 | 5.65% |
| an | 3373 | 4.73% |
| ha | 2801 | 3.93% |
| ic | 2784 | 3.90% |
| ay | 2432 | 3.41% |
| la | 1904 | 2.67% |
| ll | 1904 | 2.67% |
Gráfico 4: Frecuencia de Bigramas

La repetición de ciertos bigramas indica patrones dominantes de transición y reduce el espacio combinatorio del sistema.
La distribución no es uniforme: un grupo reducido de letras concentra la mayor parte del corpus.
La distribución no es uniforme, concentrándose en un conjunto reducido de letras.
Topología del Sistema: Matriz de Transición
La matriz de transición de caracteres permite visualizar zonas de alta y baja ocurrencia dentro del corpus.
Las regiones con baja o nula frecuencia representan transiciones no observadas en este espacio generado.
Gráfico 5: Heatmap de Transiciones

La matriz revela zonas con ausencia total de transiciones, evidenciando restricciones en la combinatoria carácter a carácter.
La matriz evidencia la existencia de zonas sin transiciones, lo que indica que ciertas combinaciones carácter a carácter no ocurren dentro del sistema, revelando restricciones estructurales en la formación de palabras.
Secuencias Geminadas (Repeticiones)
| Bloque | Ocurrencias | % |
|---|---|---|
| ll | 1904 | 2.6706% |
| ii | 23 | 0.0323% |
| ss | 17 | 0.0238% |
| 13 | 0.0182% | |
| aa | 5 | 0.0070% |
| yy | 3 | 0.0042% |
| mm | 2 | 0.0028% |
| nn | 1 | 0.0014% |
D. Dinámicas de Complejidad Interna
- Entropía del alfabeto (H): 3.6111 bits
- Concentración estructural: 5 letras concentran el 60.54% del total
Un valor menor respecto a un sistema uniforme sugiere la presencia de reglas internas que reducen la aleatoriedad.
Gráfico 6: Distribución Acumulada

E. Eficiencia Derivativa del Sistema
- Factor de expansión morfológica: 3.54x
El crecimiento derivativo influye en la distribución global de caracteres, sin alterar la estructura base.
F. Estabilidad del Sistema bajo Expansión
Al comparar distintas versiones del corpus, se observa que métricas clave como la distribución de letras, la entropía y la concentración permanecen prácticamente invariantes.
Este comportamiento sugiere que el sistema ha alcanzado un estado estable, donde la incorporación de nuevas combinaciones morfológicas no altera significativamente su estructura estadística.
Conclusión
El análisis muestra que el alfabeto quechua, dentro del corpus evaluado, no opera como un conjunto libre de caracteres, sino como un sistema estructurado.
La distribución desigual de letras, las restricciones posicionales y los patrones de transición identificados evidencian la presencia de reglas internas que organizan su comportamiento.
Asimismo, el sistema observado utiliza exclusivamente las vocales “a”, “i” y “u”, sin presencia de “e” u “o”, lo que refuerza la idea de un núcleo fonológico reducido dentro de este entorno generativo.
En conjunto, estos resultados indican que la organización del alfabeto no es arbitraria, sino que forma parte de una estructura más amplia donde la regularidad estadística y las restricciones combinatorias desempeñan un papel fundamental.

