La ciencia de datos no es popularidad

Veo que siempre hay gente enfadada cuando no obtiene una buena calificación en los Wattys.

Incluso, no solo porque piense que su obra es buena, sino porque lee al azar algunas historias de las seleccionadas y siente que la suya es mejor.

Ahora bien, la pregunta es "¿qué es mejor que qué?". O correctamente hablando ¿Cuál es el criterio de elegibilidad?

No lo sabemos a ciencia cierta. Y la plataforma no se esfuerza en explicarlo. Es más, me atrevería a apostar de que no quieren hablar claro al respecto.

Y pretendo explicar el porqué. Bueno, solo mi interpretación del porqué.

He buscado y leído en internet verdaderas locuras con respecto a lo que hacen los algoritmos de wattpad para seleccionar historias y es mi humilde opinión que la cosa es bastante mas simple de lo que parece.

Cuando la gente de wattpad dice que "aplicará la ciencia de datos" comete el pecado de suponer que todo el mundo sabe lo que es "la ciencia de datos".

Evidentemente no se puede explicar lo que es "la ciencia de datos" en un texto corto. Es más fácil explicar lo que NO es. Entonces nos dicen que la cosa no pasa por la popularidad. Y, por supuesto, no se lo cree nadie.

Y es normal que no se lo crea ni dios porque a muy pocos se le ocurre como elegir un texto sobre otro de forma objetiva sin analizar el volumen de datos asociado al texto y, nuevamente, el único volumen de datos asociado al texto que conocen no son otros que las lecturas, los votos y los comentarios. Y esto vuelve a ser "popularidad".

De esa forma, todos quedamos dando vuelta en un bucle de "ciencia de datos" = "popularidad" y no hay quien nos saque de allí.

Dado que tengo la patología de apuntarme como voluntario a las tareas mas insospechadas, hoy voy a intentar explicar cómo pueden evaluarse textos de forma objetiva sin mirar la "popularidad".

Dado que en una vida pasada fui informático de profesión, voy a plantear mi idea de cómo se hace gestión de data masiva. Repito: solamente es mi idea. No conozco la forma en que lo hace wattpad.

Por supuesto, este trabajo solo tiene el mérito de ser mi sincera opinión de lo que YO haría si estuviera dirigiendo un proyecto de selección de textos de forma objetiva dentro del volumen que representa wattpad.

Vamos a ello.

Primero voy a aclarar algunas premisas.

· No tendremos en cuenta ni carátulas, ni títulos, ni sinopsis. En primer lugar, porque pueden que no hayan sido hechos por el autor. En segundo lugar, debido a que son la "cáscara" y nada nos dicen sobre el contenido.

· Otro tema importante es conceptual e inherente al contenido. A ver si me explico, no es lo mismo analizar textos médicos, que textos legales, o textos orientados a la enseñanza básica, etc.

· En este caso, entonces, el método que "diseñaré" solo sería válido para narrativa general, ya que no considerará ningún otro aspecto del contenido (uso adecuado de términos legales, médicos, etc.). Aclaración importante: este método no vale para poesía, digo por poner un ejemplo.

El método se basa en aplicar diversos filtros de legibilidad.

Filtro UNO.

Corrector ortográfico. Básicamente cualquier software de mercado ya lo hace, el mismo corrector del teléfono móvil o del Word.

Antes deben definirse los algoritmos de excepciones, por ejemplo, pero no solo limitado a esto: el uso de nombres no debería validarse, el uso de expresiones lingüísticas, tal vez no validar lo que esté inmerso en un diálogo, etc. etc.

Normalmente suele hacerse un conteo de palabras. Y después un conteo de las palabras mal escritas (las que señala el corrector ortográfico que hemos diseñado).

Esto nos dará una relación: cantidad de errores por palabras. Ahora debemos hacer una escala.

Esto quiere decir que debemos definir nuestra tolerancia al error ¿Por qué? Obviamente porque nadie es perfecto y siempre se filtra algún error. ¿Podemos arriesgar? Digo una tontería: anularemos todas las obras que tengan mas de 10 errores cada 100 palabras. ¿está bien? No lo sé.

Es potestad de wattpad definir la escala del primer filtro (tampoco sé si este filtro existe, recuerden que me acabo de inventar todo el método)

Filtro DOS:

El segundo filtro sigue en la misma línea. Podríamos buscar un buen analizador gramatical (en inglés hay varios ya... en español todavía no tantos ni tan buenos) y aplicarlo al texto.

En vez de palabras haremos un índice de densidad por frases.

Supongamos entonces que aceptamos solo 10 errores gramaticales por cada 100 frases. ¿está bien? No lo sé.

Filtro TRES:

Este filtro afecta a la lo que se denomina "Legibilidad tipográfica".

En este apartado suelen analizarse tipos de fuente y color de fondo (¡no aplicable en wattpad!), pero también se analizan el correcto uso de los símbolos de puntuación.

Es posible que se pueda hacer un índice también en este filtro.

Filtro CUATRO.

Hasta aquí fue la parte fácil. Son filtros que todos podríamos entender. Pero queda uno que es muy importante y es el que trae de cabeza a todos los estudiosos del tema.

La legibilidad lingüística.

Cuando hablamos de legibilidad lingüística nos referimos a la dificultad que presenta un texto para ser entendido. Si nos independizamos de la capacidad de comprensión del lector, la legibilidad lingüística depende básicamente de factores como la longitud de las palabras utilizadas, la frecuencia de uso de las palabras, la longitud de las frases y la estructura de estas.

En resumen: una frase simple, escrita con una estructura sencilla, resulta más comprensible.

Veamos un ejemplo. Dos frases que significan lo mismo pero expresadas de 2 formas distintas.

"El petirrojo voló y se detuvo sobre la rama del pino" (decimos que es fácil de comprender)

"El ejemplar de Erithacus rubecula surcó el cielo en una trayectoria curvilínea para acabar posándose sobre la ramificación de un Pinus halepensis" (dice lo mismo que la anterior, pero sostenemos que su legibilidad lingüística es mas baja, ya que es más difícil de comprender)

¿Se entiende hasta aquí? Sigo.

Por aclarar un poco más, voy a dar un toque histórico que me servirá más adelante para contar el resto.

Ya en el año 1948 Rudolf Flesch diseñó una formula y una escala para evaluar textos escritos en inglés.

Sería largo enumerar la cantidad de fórmulas que se inventaron para intentar medir y catalogar la legibilidad de un texto, pero nombré específicamente a Flesch porque muchos utilizaron como base a su formula para desarrollar la propia. Y hay muchas.

Lo que sí debemos dejar en claro es que el análisis de un texto en inglés no se pueda basar en los mismos parámetros que el análisis de un texto en español.

Así que en nuestro idioma también empezaron a aparecer estudiosos que proponían sus propias fórmulas.

La primera fórmula, de la que yo tengo noticias, en estudiar nuestro idioma fue la del Prof. Spaulding en 1956, aunque luego fue reemplazada por el índice de Fernández Huerta (yo lo usé mucho tiempo) que fue desarrollado en 1959 a partir de la fórmula de Flesch para el inglés (por eso les nombré a Flesch).

El índice Fernández Huerta se calcula así.

𝐿 = 206.84 − 0.60𝑃 − 1.02𝐹

En esta fórmula, L representa la legibilidad lingüística del texto, en una escala en la que valores más altos significan una mayor legibilidad lingüística. La letra P es el promedio de sílabas por palabra y la F la media de palabras por frase.

El índice de Fernández Huerta nos da una idea de cuan "legible" es, estructuralmente hablando, un texto en español. Si el texto en cuestión es difícil de leer, el índice se acercará a 0 y si es fácil de leer el índice se acercará a 100.

Actualmente en español es muy común utilizar el índice INFLESZ que también utiliza la primitiva Flesch-Szigriszt modificada.

Aunque también existe la fórmula de legibilidad mu... ¡huf! De verdad que hay muchos estudios y algoritmos que nos dan un puntaje automático para saber la legibilidad de un texto.

Volviendo a nuestro método.

Sometería al texto a un escaneo que me arroje el índice Fernández Huerta, por ejemplo. Y descartaría las historias que tengan un índice muy bajo o muy alto.

¿Por qué descarto las que tienen un índice muy bajo? Porque son muy difíciles de leer y la gente las abandonará.

¿Por qué descarto las que tienen un índice muy alto? Porque son muy fáciles de leer y llegan a aburrir. Son textos del tipo "Mi mama me mima. Mi gata corre por el jardín. Etc."

Hasta aquí el método ¿Qué les parece?

Ya saben, es solamente una propuesta.

Reflexión.

De verdad que no sé qué algoritmos usan para analizar los datos en wattpad.

Pero sin duda que se puede hacer. Y, como han visto, no hemos hablado de popularidad.

Frente a la queja de ¿por qué no hacen público el algoritmo utilizado? Pues yo creo que la respuesta es bien simple.

Sabiendo el algoritmo conoceremos la fórmula, y conociendo la formula podemos experimentar viendo que frases obtienen una "mejor" puntuación en el índice utilizado.

Por ejemplo, si vemos que el algoritmo empieza a poner mala nota en frases de mas de 30 palabras con más de 5 palabras que excedan las 4 sílabas... obviamente revisaríamos todas las frases para escribirlas según le convenga al algoritmo.

Estaríamos escribiendo para el algoritmo y no seríamos nosotros.

No conocer el algoritmo usado hace que nos preocupemos por las cosas obvias que nos benefician, es decir, mantener la legibilidad tipográfica, o sea, buena ortografía, buena gramática, y buen uso de los signos de puntuación.

Entiendo, por supuesto que ante la duda, siempre el algoritmo puede levantar una luz roja recomendando que una persona lea el texto y sobre él opine si ha pasado el filtro o no.

Pero de esta forma y con una simple serie de procesos automáticos podríamos tener una selección de texto listos para que un ser humano los lea y le de una puntuación a la narrativa, a la historia propiamente dicha.

Ejemplo: Vamos a aplicar este método a este texto.

Además de los errores ortográficos que me ayudó a corregir el propio Word, he cargado el texto en la página "correctoronline.es" porque siempre ayuda con alguna que otra sugerencia que el Word no hace.

También he cargado el texto en el programa "Repetition detector 2". Este programa te ayuda a analizar cantidad de palabras repetidas y te da una idea de cuando debes utilizar un sinónimo dado a que 2 palabras repetidas están muy juntas. Obviamente, requiere que prestes atención porque si las palabras repetidas aparecen en diálogos contiguos no hace falta que utilices ningún tipo de sinónimo.

He procesado el texto en el programa Inflesz v1.0 y ha arrojado los siguientes índices.

Indice Flesch-Szigriszt : 70,26

Escala Inflesz : "Bastante fácil"

Indice Fernandez Huerta: 74,67

Y por último lo he cargado en "www.legibilidadmu.cl" que lo ha catalogado como "un poco difícil"

Conclusión.

Espero que este escrito te de una idea de lo que es "la ciencia de datos" aplicada a textos.

Por supuesto, yo escribo como me gusta y no como me diga un algoritmo.

Creo que es importante que los algoritmos me ayuden a pulir la legibilidad de lo que escribo, pero la última palabra es la mía y aunque el programa diga que algo puede o debe ser cambiado, siempre será mi decisión dejarlo como estaba. Y me pasa muchas veces.

Pero también creo que es un síntoma de ignorancia pasar por alto herramientas que pueden ayudarnos.

Son solo herramientas. No tienen mas valor que eso. Los escritores somos nosotros.

Bạn đang đọc truyện trên: AzTruyen.Top

Tags: #lenguaje