¿De qué depende la longitud de las palabras?

Las palabras que más utilizamos suelen ser también las más cortas. Y esto es algo que, al parecer, tiene carácter bastante general. El lingüista George Kingsley Zipf se había percatado de ese hecho y escribió al respecto ya en 1936. Él formuló el que desde entonces se conoce como principio de Zipf, de la siguiente forma: “la magnitud de las palabras tiende, en conjunto, a relacionarse de manera inversa (no necesariamente de forma proporcional) con su frecuencia”. Según el propio Zipf se trata de una variedad de lo que solemos denominar la ley del mínimo esfuerzo, aplicada a la lengua en este caso.

Sin embargo, según las teorías racionales de la comunicación ese principio no tiene por qué ser correcto, ya que no tiene en cuenta el hecho de que el uso de las palabras depende del contexto, esto es, del resto de palabras que han de utilizarse para emitir un mensaje, y por lo tanto, el principio de mínimo esfuerzo puede ver modificado su efecto en virtud de las dependencias estadísticas entre palabras. [A mí se me ocurre que un ejemplo de esa dependencia es lo que ocurre entre nosotros con palabras como “reflexión”: últimamente siempre va acompañada de la palabra “profunda”, sobre todo en determinados entornos.]

Debo confesar que la teoría que subyace a estas cuestiones es ajena a mi experiencia y conocimiento, por lo que ni siquiera intentaré explicar someramente los aspectos teóricos y técnicos de la cuestión. Pero el asunto me ha interesado, porque me interesa todo lo que tiene que ver con el lenguaje.

El caso es que según esas teorías a las que he aludido, hay otro elemento que puede condicionar la longitud de las palabras, y es su contenido informativo. Un lexicón que asigna la longitud de las palabras basándose en su contenido informativo difiere del principio de Zipf en dos aspectos fundamentales. Por un lado, ese lexicón no generaría las palabras más breves posibles, pues no acortaría palabras muy informativas. Y por el otro, tal lexicón tendería a mantener constante la tasa de información de la comunicación, o lo que es equivalente: la densidad de información (número de bits emitidos por unidad de tiempo) tiende a permanecer constante. [No soy capaz de establecer la relación causa-efecto subyacente; me limito a reproducir lo que señala el trabajo original, pero, intuitivamente, esta idea no me chirría.]

Un análisis reciente realizado con once lenguas (checo, alemán, inglés, francés, italiano, holandés, polaco, portugués, español, rumano y sueco) ha confirmado que, efectivamente, el contenido informativo predice con mucha más fidelidad la longitud de las palabras que su frecuencia de uso. Según los autores del análisis, esto indica que la idea de Zipf que relaciona frecuencia y eficiencia léxica ha de ser revisada. La principal conclusión a la que llegan es que el código más eficiente desde el punto de vista comunicativo es el que acorta las palabras más predecibles, no las más frecuentes y en esa predictibilidad son muy importantes las dependencias estadísticas entre palabras que se dan en el uso normal de la lengua.

Fuente: Steven T. Piantadosi, Harry Tily y Edward Gibson (2011): “Word lengths are optimized for efficient communication” PNAS 108 (9): 3526–3529 www.pnas.org/cgi/doi/10.1073/pnas.1012551108

2 pensamientos sobre “¿De qué depende la longitud de las palabras?

  1. Nerea Madariaga

    Sospechosamente TODAS las lenguas del sample son prácticamente la misma: no sólo son todas lenguas indoeuropeas sino de tan sólo 3 grupos de Europa occidental (romance, germánico y las 2 lenguas eslavas más occidentalizadas).
    Me gustaría saber qué harían con tan maravillosa hipótesis los autores si metieran el chino u otras lenguas monosilábicas, donde, como su nombre indica, todas las palabras (con excepciones como los préstamos) son MONOSÍLABOS, o sea, igual de cortas e igual de largas… O las lenguas polinsintéticas, donde metes prácticamente toda la oración en una única palabra y entonces la longitud de la palabra depende de la oración entera, no de su frecuencia (no se pueden establecer frecuencias en enunciados enteros porque éstos no suelen repetirse o no en una proporción medible) ni de que sea “muy informativa” (porque en toda oración hay siempre información nueva y vieja).
    Tampoco estaría mal que definieran a qué le llaman ser una palabra “muy informativa” frente a otra “menos informativa” (concepto que parece cuando menos vago) y cómo se mide esa supuesta informatividad de las palabras (y que no me digan que en bits de información, porque me da la risa).

    1. Juan Ignacio Pérez Iglesias Autor

      Sospechosamente no; sin sospecha ninguna. Como bien me ha comentado @FiloBlogia en twitter, el estudio es indoeurocentrista. Está claro que es de aplicación a las lenguas a las que es de aplicación, y no a todas. Pero eso no es óbice para que a mí me parezca que tiene su interés, más que nada porque pone en cuestión una “ley” que también lo era para unas pocas lenguas. Como he dejado claro en el post, no es mi campo, así que no estoy en condiciones de valorar muchas cosas. Pero para eso está la referencia original. Lo que da risa y lo que no la da es algo en lo que no debo entrar.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *