Wattpad, la ciencia de datos y la Story DNA

Wattpad Story DNA

En Wattpad se conoció la expresión «ciencia de datos», como sinónimo de «los algoritmos» utilizados para seleccionar a las historias premiadas en sus certámenes. 

A raíz de la popularidad (y controversia) que la expresión alcanzó tras los premios #Wattys2018, publiqué en la plataforma un par de artículos sobre mis suposiciones de como deberían funcionar esos algoritmos, no solo para seleccionar las obras galardonadas, sino también para presentarnos las portadas sugeridas en la página principal.

En esta entrada del blog vengo con la intención de actualizar y completar tales artículos..

La «ciencia de datos» madura

Posteriormente a la publicación de mis artículos originales, entre diciembre de 2018 y enero de 2019, Wattpad anunció que nacía la división «Wattpad Books» y que utilizaría la inteligencia artificial para seleccionar las historias que serían promovidas a convertirse en libros físicos, en editoriales tradicionales.

De esta manera, la plataforma naranja presentó formalmente a «Wattpad Story DNA Machine Learning technology«, como a la tecnología responsable de procesar las más de 500 millones de historias publicadas por los usuarios.

A priori estaba claro que si el objetivo es la venta, los indicadores de popularidad son importantes y toman la forma de cantidad de lecturas, votos, comentarios, etc. También sería algo a destacar la popularidad del escritor, la cantidad de seguidores que tenga, etc.

Pero Wattpad aclara que «Story DNA Machine Learning technology» va más allá. 

Dice específicamente que puede,  entre otros aspectos de la escritura, verificar la estructura de las oraciones y la gramática. O, en otras palabras: que puede determinar qué historias están mejor escritas que otras.

Y eso es lo que vengo a discutir en este artículo.

Mas allá de lo que pensemos acerca de lo acertado o no que nos pueda parecer que un software haga una selección de historias (esto sería material para otro artículo), no podemos negar el éxito de taquilla que han tenido las dos primeras historias que se hornearon con esta tecnología:

  • The Kissing Booth fue libro físico y luego película de Netflix y
  • After fue libro físico y luego película de Paramount Pictures.

Tampoco voy a discutir en este artículo la calidad de las películas, pero, quien quiera ir picando, puede leer algo en  este enlace y este otro (Aunque les adelanto que fueron destrozadas por la crítica).

Empecemos dando un repaso a lo que se entiende por la «ciencia de datos» y que en Wattpad ha cristalizado en la «Story DNA Machine Learning technology«

¡Cosas que pasan!

¡Por cierto!

Cuando escribí sobre este tema la primera vez, mi novela «Esquizofrenia» acababa de ser eliminada de los #Wattys2018 (semifinalista,  integrante de la «lista larga final», fue una de las últimas 600 de entre las mas de 67.000 obras presentadas, pero quedó fuera de la selección final… )

Hoy, después de haber ganado un «#Wattys2020 en Ciencia Ficción» por mi novela «Inteligencia diseñada«, puedo decir que soy «un elegido» de la «Wattpad Story DNA Machine Learning technology«.

Un poco de revisión

Repito lo que dije en aquella ocasión.

No tengo forma de saber en realidad qué es lo que hace Wattpad, por lo que debe quedar claro que todo esto es: producto de mi imaginación y experiencia.

Además, no pondré los enlaces a esos artículos publicados en Wattpad porque este ampliará los conceptos y, espero, que aumente la comprensión de lo que explico.

Cuando hablamos de selección automática siempre ronda en el ambiente el tema que conocemos como «el sesgo informativo».

Está presente en casi todo el mundo de las redes sociales y Wattpad no podía ser la excepción. 

Por otra parte, cuando hablamos de Wattpad y otras redes al uso, ese sesgo tiene un sentido práctico. Quiero decir, es lógico que a un lector que lee sobre vampiros, le sugieran este tipo de lecturas y no una novela romántica (ya sé que existe la saga Crepúsculo, lo dije solo como ejemplo).

Es evidente que estas redes aprendieron de los operadores de marketing, y que han estudiado concienzudamente como mostrarnos la publicidad, de forma tal que se adapte a nuestros intereses.

También está claro que pretenden que nuestra permanencia en la red se extienda en el tiempo y que estemos lo más a gusto posible.

En el caso de redes como Wattpad ,es un mecanismo bastante práctico que nos presenta obras sobre las que hay ciertas garantías de que sean de nuestro interés.

Además también nos proveen de un buscador por si queremos investigar y experimentar con otros contenidos.

Como sea, no voy a hablar del «sesgo informativo» en este artículo.

Como expliqué en algún párrafo anterior, el disparador de estos artículos fue que a fines del 2018, con mi primera participación frustrada en el certamen anual: «los #Wattys», noté que muchos usuarios de la red estaban disconformes con la lista de premiados que entregaba la plataforma.

En Wattpad todos somos un poco autores y un poco lectores y cuando premian una obra que pertenece a un género literario que seguimos o sobre el que escribimos, es normal que caigamos en hacer comparaciones y emitimos juicios de valor al respecto.

Después descubrí que todos los años es lo mismo y en el mes posterior a conocerse los galardonados anuales, la red se ve invadida por enfados que emergen en forma de comentarios negativos y acusatorios.

No solo porque alguien piense que su obra es buena y quedó fuera injustamente, sino porque lee al azar algunas de las historias ganadoras y siente, honestamente, que la suya es mejor.

Ahora bien, la pregunta es «¿qué es mejor que qué?«. O, técnicamente hablando, ¿Cuál es el criterio de elegibilidad?

No lo sabemos a ciencia cierta. Y la plataforma no se esfuerza por aclararlo. Es más, me atrevería a apostar a que no quieren hablar claro al respecto.

Y yo pretendo explicar el porqué. Bueno, como dije, solo mi interpretación del porqué.

La ciencia de datos

He encontrado y leído en internet verdaderas locuras con respecto a lo que hacen los algoritmos de Wattpad para seleccionar historias y es, mi humilde opinión, que la cosa tampoco es tan complicada.

La gente de Wattpad dice que «aplicará la ciencia de datos» y comete el pecado de suponer que todo el mundo sabe lo que es la mentada «ciencia de datos».

Evidentemente no se puede explicar lo que es en un texto corto de marketing. Por supuesto, es más fácil explicar lo que NO es.

Entonces, lo primero que nos cuentan en la plataforma naranja es que la cosa no pasa por la popularidad de la obra. Y lo dicen atentos a que siempre es la primera queja.

—¡Esa novela ganó porque tiene muchos seguidores!

—¡Esa novela ganó porque tiene muchas lecturas!

Wattpad se cansa de aclarar, por activa y por pasiva, que «los seguidores» y «la cantidad de lecturas» no es un parámetro que afecte a la elegibilidad para el premio y, por supuesto, no se los cree nadie.

Y es normal que no se lo crea ni dios, porque a muy pocos se les ocurre cómo elegir un texto sobre otro de forma objetiva, sin analizar los datos asociado al texto y, de nuevo, los únicos datos asociados al texto que conocen no son otros que las lecturas, los votos, los comentarios, los seguidores, etc. 

De esa forma, todos los enfadados quedan dando vueltas en un bucle de 

  • «ciencia de datos» = «popularidad» 

y ya no hay quien los saque de allí.

Dado que tengo la patología de apuntarme como voluntario a las tareas más insospechadas, me puse nuevamente mi sombrero de «Director de proyectos informáticos» y comencé a preguntarme como seleccionaría un grupo de obras candidatas a ganar un premio, con las premisa de la existencia de un gran volumen de ellas, un tiempo acotado y la imposibilidad de que un jurado de humanos se las lea todas.

Y no me canso de repetir: solamente es mi idea. No conozco la forma en que lo hace Wattpad.

La ciencia de la priorización

¿Qué es Google sino un sistema de priorización de la información? 

Hoy es el decano de la priorización y sigue trabajando para determinar cuál es la mejor forma de presentarnos la S.E.R.P. (Search Engine Result Page), esto es, la página de resultados a una búsqueda determinada, una lista de opciones donde se pueda asegurar que cada una de estas «satisface la búsqueda realizada».

Para ello utiliza un algoritmo que, destacando diversas características del material a clasificar, lo ordena en un lista priorizada.

La idea que vengo a discutir aquí también es sinónimo de: cómo generar un ranking automático.

Conviene hacer un poco de historia para ubicarnos en tiempo y espacio.

Hoy nos parece normal, hasta trivial, recibir la lista que nos presenta Google como respuesta a una consulta. Pero por dentro la cosa es muchísimo más compleja de lo que parece.

El dilema a resolver era (y es): cómo mostrar la información de forma tal que, lo que aparece en primer lugar sea más importante que lo que aparece en segundo lugar y que este sea más importante que el tercer lugar… y así sucesivamente. O sea: un ranking

Les copio a continuación el trozo de un paper científico que presentaron en 1998, Larry Page y Sergey Brin, los creadores de Google.

Por favor, hagan el ejercicio de leer reemplazando la expresión «página web» por, «novela de wattpad» y verán que nuestro tema de discusión ni siquiera es original.

«La importancia de una página web es un problema inherentemente subjetivo que depende del interés de los lectores, de su conocimiento y de sus inclinaciones. Aun así, se puede decir objetivamente mucho sobre la importancia relativa de las páginas web. Este artículo describe PageRank, un método para valorar las páginas web de forma objetiva y mecánica, midiendo de forma efectiva la atención e interés humanos dirigidos hacia cada página web…. (sigue… pero no nos atañe)»

Como vemos, desde 1998 por lo menos que se viene discutiendo la «clasificación objetiva y automática» de textos.

En este caso, los creadores de Google desarrollaron el PageRank para esa tarea («Ranking de Page», por Larry Page y no por «web page», aunque cuentan que a Larry Page le divierte que todos se confundan al respecto)

Este ranking definía (en pasado, porque ha dejado de ser tan importante) una forma de puntuar a las páginas web, de manera que este puntaje la posicionara en la lista que Google mostraría.

Parte del concepto desarrollado por Page, respondía a resolver el siguiente problema práctico:

«Si voy a organizar artículos científicos en una biblioteca y me piden que recomiende los más importantes… ¿Cómo hago esa clasificación si un gran volumen versa sobre el mismo tema?»

Page decidió que, si un artículo era referenciado o citado en otros artículos, sería porque su contenido era importante, así que parte de su criterio se basó en que los artículos más citados iban primero (cualquier parecido con lo que en wattpad conocemos como «popularidad» es correcto)

Así nació uno de los ítems que decidían el orden en que se ordenaban las páginas web que Google mostraba en el cuerpo central, o lo que también se denomina «búsqueda orgánica» (esto es, el centro de la pantalla dejando fuera las barras laterales y los encabezados y pies, donde aparecen páginas que están ahí porque han pagado por estarlo)

Otro ítem fue la «interacción», que no era otra cosa que la cantidad de clics que recibía una página. Vuelvan a notar que todo esto es sinónimo de «popularidad».

Es importante señalar que los criterios basados simplemente en la «popularidad» de las páginas web fueron desechados, entre otras razones, porque se demostró que podía cambiarse el orden de la lista de forma fraudulenta.

Por ejemplo, comenzaron a aparecer empresas chinas e indias, esto es, mucha gente trabajando por muy poco dinero, que se las contrataba para que generaran infinidad de clics o referencias y citas a determinadas páginas haciendo que subieran en importancia sin merecerlo.

Esto sería el equivalente en Wattpad de darte de alta 20 usuarios y/o convocar a todos tus amigos a que voten tu historia.

Hoy, el algoritmo de posicionamiento de Google es uno de los secretos mejor guardados (¿les suena el porqué Wattpad también guarda en secreto sus algoritmos?)

Lo repito para que quede claro ¿Cómo llamamos a esto en Wattpad?

  • Rankings por popularidad.

Y son pocos fiables, ya que la popularidad, como le pasó a Google, puede fraguarse, como ya dije: cuentas del mismo autor votando, «leyendo», preguntando y contestándose a sí mismo, cadenas de amigos votándose, etc.

Y es principalmente por esto que la «popularidad» no puede ser un parámetro de elegibilidad.

Con la obvia excepción de ser utilizada para seleccionar obras con el objeto de poblar el ranking de las «las más populares».

La legibilidad lingüística.

Cuando hablamos de legibilidad lingüística nos referimos a la dificultad que presenta un texto para ser entendido. Y lo diferenciamos de la legibilidad tipográfica, que se enfoca más en el tipo de letra, el contraste entre letra y fondo, márgenes, etc.

La legibilidad lingüística depende básicamente de:

Factores mecanicistas

  • la longitud de las palabras utilizadas, 
  • la longitud de las frases 

Factores relativos 

  • La estructura de las frases (sujeto+verbo+complementos, por ejemplo)
  • Utilización de los signos de puntuación
  • Relación de uso voz pasiva vs voz activa

En los que llamé «factores relativos» tiene cierta repercusión el tipo de texto y la comprensión lectora de la persona. Quiero decir, no es lo mismo leer un texto legal o un texto médico, ya que  la comprensión se verá afectada por los conocimientos previos del lector.

Por ahora, voy a abordar el tema de los factores mecanicistas, estos son, los que relacionan las longitudes de las palabras con las longitudes de las frases.

También es importante destacar que, así como cada idioma tiene unos determinados índices de velocidad de lectura media, nos encontraremos con que la relación de estas longitudes variarán si nos referimos a distintos idiomas.

Pero, en resumen, independientemente del idioma: una frase simple, escrita con una estructura sencilla, resulta más comprensible.

Veamos un ejemplo de esto que digo. Dos frases que significan lo mismo pero expresadas de formas distintas.

  • «El petirrojo voló y se detuvo sobre la rama del pino» (decimos que es fácil de comprender)
  • «El ejemplar de Erithacus rubecula surcó el cielo en una trayectoria curvilínea para acabar posándose sobre la ramificación de un Pinus halepensis» (dice lo mismo que la anterior, pero podemos decir que su legibilidad lingüística es más baja que la primera)

¿Se entiende hasta aquí? Sigo.

Por aclarar un poco más, voy a dar un toque histórico que me servirá más adelante para contar el resto.

Ya en el año 1948 Rudolf Flesch diseñó una fórmula y una escala para evaluar textos escritos en inglés. Se conoció como «Fesch Reading Ease» y tiene esta forma.

  • L = 206.835 – 84.6 * P – 1.015 * F

En esta fórmula, L representa la legibilidad lingüística del texto, en una escala en la que valores más altos significan una mayor legibilidad lingüística. La letra P es el promedio de sílabas por palabra y, la F, la media de palabras por frase.

Sería largo enumerar la cantidad de fórmulas que se inventaron para intentar medir y catalogar la legibilidad de un texto, pero nombré específicamente a Flesch porque muchos utilizaron como base a su fórmula para desarrollar la propia. Y, créanme: hay muchas.

La primera fórmula (de la que yo tengo noticias) en estudiar nuestro idioma fue la del Prof. Spaulding en 1956, aunque luego fue reemplazada por el índice de Fernández Huerta (bastante más común) que fue desarrollado en 1959 a partir de la fórmula de Flesch para el inglés (por eso les nombré a Flesch).

El Prof. Fernandez Huerta llamó a su fórmula la «fórmula de lecturabilidad» y, tampoco hay que exagerar, el aporte a la formula original fue modificar el factor 84.6 por 60.0 argumentando que la densidad de sílabas en castellano es un 40% mayor que en el idioma inglés.

Más recientemente, en 1993, el periodista Fransico Szigriszt Pazos desarrolló en su tesis doctoral llamada «Sistemas predictivos de legilibilidad del mensaje escrito : fórmula de perspicuidad» su propia adaptación de la fórmula original y hoy se la conoce como la fórmula o índice de Flesch-Szigriszt.

Cualquiera de estos índices nos dan una idea de cuán «legible» es un texto hablando desde el punto de vista mecanicista. 

Si el texto en cuestión es difícil de leer, el resultado será un número pequeño y si es fácil de leer el índice se acercará a 100.

Actualmente en nuestro idioma es muy común utilizar la escala INFLESZ que, no voy a repetirlo más, también utiliza la primitiva Flesch modificada. 

Esta escala apareció en la tesis doctoral de Inés María Barrio Cantalejo llamada «LEGIBILIDAD Y SALUD, los métodos de medición de la legibilidad y su aplicación al diseño de folletos de educación para la salud«, quien criticó la forma en que se construyó la fórmula Flesch-Szigriszt, aportando una nueva interpretación para confeccionar la escala para el castellano.

Aunque también existe la fórmula de legibilidad Mu… ¡Huf! De verdad que hay muchos estudios y algoritmos que nos dan un puntaje automático para saber la legibilidad de un texto.

Ejemplos

Con el riesgo de aburrirlos y de que se olviden de mí para siempre, he decidido buscar algunos ejemplos para redundar en esto y que veamos en vivo cómo funcionan los algoritmos de legibilidad.

Fui a las fuentes. Un libro que me encanta y releo a menudo, «Mientras escribo» de Stephen King que, de los libros que explican el arte de escribir, es el que me suena más sincero. Sin ningún tipo de parafernalia.

En el capítulo dedicado a «Caja de herramientas», King discute el tema de frases largas con palabras largas. En resumen, frases difíciles vs. fáciles de leer. Dice en la página 72, refiriéndose a los escritores que escriben frases largas.

«Hay escritores con un léxico enorme, el tipo de persona que no ha fallado una sola respuesta en los concursos de vocabulario de la tele desde hace como mínimo treinta años.»

Hay verdadera ironía en la forma en que los señala, y se hace evidente que no le gustan las frases largas. Además, nos provee algunos ejemplos para que comparemos.

Yo le tomaré prestados esos ejemplos a «Mientras escribo» y los pasaré por  un par de algoritmos de legibilidad para que veamos la comparativa desde el punto de vista de la ciencia de datos.

Utilizaré el algoritmo del Índice Flesch-Szigrist (en adelante IFS) y el grado de la escala INFLESZ (en adelante EIN)

Frase 1: extractado de «En las montañas de la locura» de H.P. Lovercraft. 

«Las cualidades de correoso, indeteriorable y casi indestructible eran atributos inherentes a la forma de organización de la cosa, pertenecientes a algún ciclo paleógeno de la evolución de los invertebrados que se hallaba fuera del alcance de nuestras capacidades especulativas». IFS:9.53 EIN: Muy difícil.

Frase 2: extractado de «Budding Prospects» de T. Coraghessan. 

«En algunas [tazas] no se advertía la menor señal de que se hubiera plantado algo; otras presentaban tallos marrones y agostados, testimonio de inescrutables estragos». IFS:52.29 EIN: Algo difícil.

Frase 3: extractado de «Blood Meridian» de Cormac McCarthy. 

«Alguien le arrebató la venda a la anciana, y fue apartada de un manotazo junto con el malabarista. Al congregarse todos para dormir, y crepitar al viento las llamas bajas de la hoguera cual si estuviera viva, seguían los cuatro en cuclillas en los márgenes de la lumbre, rodeados de extraños enseres y viendo combarse las llamas bajo la ventisca como si fueran absorbidas al vacío por alguna vorágine, un vórtice en aquel desierto con respecto del cual quedaban derogados el tránsito del hombre y todos sus cálculos». IFS:37.53 EIN: Muy difícil.

Frase 4: extractado de «Las uvas de la ira» de John Steinbeck. 

«Algunos dueños eran amables porque no les gustaba lo que tenían que hacer; otros estaban enfadados porque no les gustaba ser crueles, y otros eran fríos porque ya hacía tiempo que se habían dado cuenta de que sólo se podía ser dueño siendo frío». IFS:67.31 EIN: Bastante fácil.

Frase 5: extractado de «La hoguera de las vanidades» de Tom Walfe. 

—Qué hay, Lee —dijo Killian—. Qué-tal-hombre-qué-tal.

—¡Has logrado acojonar… a ese… mamón!

—Pues ejjjjjjj…

—¡Sherman… asqueroso traidor hijoputa!

—¡Marica de mierda!

IFS:62.06 EIN: Normal.

En resumen

Como han visto, todos podemos haber escrito frases o construcciones de cualquiera de las que vimos anteriormente. El propio S. King nos dice (sin usar ningún algoritmo) que las primeras 3 son difíciles de leer y que él se queda con las últimas dos.

Pero para no desesperarnos, ya que todos alguna vez escribimos frases complejas, el algoritmo solo penaliza cuando hay MUCHAS frases complejas dentro del mismo texto

Por ejemplo,

  • Si armo un texto que contenga solo las Frases 3 y 5, esto es, una frase «muy difícil» y una «normal» el resultado del conjunto es IFS: 69.79 EIN: Bastante fácil.
  • Si armo un texto que contenga solo las Frases 3, la 5 y la 4, otra vez, una «muy difícil», con una normal y otra bastante fácil, el resultado es IFS: 71.29 EIN: Bastante fácil.

El algoritmo de legibilidad penaliza los textos que tengan frases difíciles de leer SOLO si el documento contiene mayormente este tipo de frases.

A medida que aumente el volumen de frases, el «peso» de las difíciles se va amortiguando. Debido a esto, cuando en del texto aparecen diálogos o frases que no sean difíciles de leer, la calificación del texto conjunto va «mutando», en general, a cada vez más «fácil de leer».

Desarrollando la idea

Bien, llegados a este punto tenemos el «conocimiento inicial» para plantear la consigna y desarrollarla.

Entonces, me hice la siguiente pregunta:  ¿Qué es lo que YO haría si estuviera al frente de un proyecto cuyo objetivo fuera la selección de un número determinado de textos, partiendo de un volumen inmenso y sin tiempo material para leerlo?

Es un tema de priorización en el que la legibilidad tiene que jugar un papel importante.

Este es el problema que tuvieron que resolver en Wattpad no solo para seleccionar las obras premiadas, sino también, por ejemplo, para organizar los rankings de los trabajos que nos invitan a leer.

Mi método de selección (¡hufff! repito: no es el de wattpad)

Por ir descartando supuestos: no tendremos en cuenta ni portadas, ni títulos, ni sinopsis.

En primer lugar, porque pueden que no hayan sido hechos por el autor y, en segundo lugar, porque son la «cáscara» y nada nos dicen sobre el contenido.

Será tema para otro artículo organizar la selección de un hipotético concurso de «la mejor portada» o  «la mejor sinopsis» ¿por qué no?

En las últimas convocatorias a los premios #Wattys también se presentaron más de 60.000 obras. Es evidente que el número hace prohibitivo que un jurado de humanos lea todas las obras en el tiempo acotado que tienen para publicar la lista de ganadores por género.

El método debe reducir este número a un valor manejable por seres humanos. Podemos arriesgar un número de forma arbitraria, digamos:¿50 obras por género? ¡Cualquier número es válido! En principio, dependerá de la cantidad de «jurados humanos» y el tiempo que tengan para leer obras.

Quiero decir, «la ciencia de datos» debería reducir el número de 60.000 a 50 obras por género para que un jurado seleccione a los ganadores de cada «especialidad». Es arbitrario el número, pero, en lo metodológico, algo así debe estar ocurriendo.

Una última palabra en cuanto a la elegibilidad general de las obras: 

  • los #Wattys2020 solo aceptaron obras de más de 50.000 palabras. 

Esto quiere decir que Wattpad se ha convertido oficialmente en una red social que premia la narrativa de novela, dejando a un lado la poesía y el cuento, por ejemplo. 

Podemos emitir cualquier juicio de valor al respecto de esta ¿limitación? implementada en la última edición de los premios, pero vamos a convenir que ellos conocen su negocio y por algo lo habrán hecho.

Por otra parte, no quiere decir que no se pueda escribir cuentos o poesía. Claro que se puede, yo mismo tengo varios libros de cuentos publicados en la plataforma y habitualmente agrego algún cuento nuevo.

La restricción solo se limita a los premios anuales de la plataforma Quizás algún día instauren el premio al «mejor cuento». ¿Quién sabe?

Filtros: empieza la criba.

La ortografía

A todos nos duelen los ojos cuando leemos un texto con muchas faltas de ortografía. Pero debemos aceptar que pueden esconderse excelentes historias detrás de tantos errores.

Nuevamente, de forma arbitraria, deberíamos definir cuantos errores admitiríamos como tolerables, pero, antes que eso debemos tener en claro que no puede utilizarse cualquier corrector ortográfico.

Un validador ortográfico que se precie podría calificar al texto y,  básicamente, cualquier software de mercado ya lo hace. Por ejemplo, el siempre presente y a veces molesto corrector del teléfono móvil o del Word.

Pero nuestro validador ortográfico no debe solucionar los problemas, solo debe contabilizarlos. Y no cualquier «error ortográfico» debe subir el conteo. 

Por ejemplo, hay que tener en cuenta diversas características y solo por enumerar, pero sin limitarme a las siguientes, podríamos preguntarnos ¿Qué hacemos con: ?

  • lo que está entre rayas de diálogo
  • los vocablos extranjeros, 
  • los modismos, 
  • las palabras inventadas
  • el uso de nombres (inventados o no)
  • etc.

Habiendo tomado las decisiones necesarias de cómo debe funcionar la validación ortográfica en esos casos y, de esa forma, utilizando el software  apropiado, se haría un conteo de palabras para poder establecer la relación de palabras mal escritas frente a las palabras totales.

Ahora debemos hacer una escala.

Esto quiere decir que tenemos que definir nuestra tolerancia al error ¿Por qué? Obviamente porque nadie es perfecto y siempre se filtra algún error.

¿Podemos arriesgar? Digo una tontería: anularemos todas las obras que tengan más de 10 errores cada 100 palabras. ¿Está bien? No lo sé. Es totalmente arbitrario y desde mi posición no puedo saber qué parámetro utiliza Wattpad.

Es potestad de la plataforma definir la escala de este primer filtro (tampoco sé si este filtro existe, recuerden que me acabo de inventar todo el método) y de todos los demás.

La gramática:

El segundo filtro sigue en la misma línea. Podríamos buscar un buen analizador gramatical (en inglés hay varios ya… en castellano todavía no tantos ni tan buenos) y aplicarlo al texto.

En vez de palabras haremos un índice de densidad por frases. Esto es, frase con errores frente a frase bien escritas.

Supongamos entonces que aceptamos solo 10 errores gramaticales por cada 100 frases. ¿Está bien? De nuevo: no lo sé.

Filtro primario: la legibilidad 

Después de que las obras presentadas hayan sido filtradas podemos decir que lo que quedó tiene un «nivel aceptable» (siempre arbitrario, claro) de errores ortográficos y gramaticales.

Quiero apuntar que podríamos someter las obras a cuantos filtros se nos ocurran, por ejemplo:

  • Algunos usos específicos de los signos de puntuación.
  • El uso correcto de las rayas de diálogo.
  • En resumen: lo que queramos eliminar del grueso de obras presentadas.

El caso es que en este punto ya hay una primera selección de obras.

Ahora sometería al texto a un escaneo que me arroje la escala INFLEZ, por ejemplo. 

Y descartaría las historias que tengan un índice muy bajo o muy alto.

¿Por qué descarto las que tienen un índice muy bajo?

  • Porque son muy difíciles de leer y la gente las abandonará.

¿Por qué descarto las que tienen un índice muy alto?

  • Porque son muy fáciles de leer y llegan a aburrir. Son textos 50.000 palabras del tipo «Mi mama me mima», «Mi gata corre por el jardín», etc.

Terminó la criba: ¿Qué sigue?

Hasta aquí me he inventado una forma de seleccionar historias de una forma automática para no tener que lidiar con un alto volumen de ellas.

Seguramente no habré acertado, pero, como dije anteriormente, metodológicamente hablando tiene que haber algo similar detrás de la gestión de más de 60.000 novelas de más de 50.000 palabras cada una.

Desde ya puedo decir que estos filtros son insuficientes.

Solo me limité a descartar lo que, a grosso modo, no cubriría un estándar arbitrario que había definido.

Necesitamos algo más.

Y aquí es donde Wattpad saca al campo de juego a la tecnología Story DNA Machine Learning.

La tecnología Wattpad Story DNA no es un algoritmo de los secuenciales y estructurados, es un algoritmo de aprendizaje profundo. Vamos a suponer que lo mínimo que puede hacer son comparaciones.

Entonces sí podemos definir parámetros que profundicen en la calidad de la historia. ¿Cómo?

¡Atención! ¡Sigo inventando una metodología! 

Primero pensemos fríamente y aplicando un poco de sentido común. A ver, pongo un ejemplo (siempre es mejor poner un ejemplo)

  • Dos novelas. 
  • 10 capítulos cada una. 
  • 1500 palabras por capítulo.
  • 100 visitas (lecturas) cada novela.

Están escritas en castellano y sabemos que la media de lectura ronda las 260 palabras por minuto. ¡No, no! Perdón, 300 palabras por minuto. ¡No! Creo que son 200 palabras por minuto ¡Qué más da! ¡Tenemos a Story DNA!

Podemos evaluar el tiempo promedio de lectura de TODAS las novelas que pasaron la primera criba, esto es, con un estándar de legibilidad (ortografía y gramática media, incluida) y ahora sabemos de verdad la media real de la muestra de este determinado concurso. ¡Bien! ¿Para qué sirve? No lo sé.

Pero no soy yo quien tiene que saberlo. Pensemos un poco. Es Story DNA a pleno.

Podemos aventurar que Story DNA tenga un parámetro que le permita seguir descartando obras si se alejaron de la media de lectura exageradamente.

Volvamos a nuestro ejemplo y digamos que, por facilitar los cálculos, la media de lectura estuvo en 300 palabras por minuto.

Esto significa que nuestras dos novelas tuvieron que tener lecturas promedio por capítulo de 5 minutos. Si las dos novelas tuvieron 100 visitas, pero ¡atención! una de ellas, la segunda,  tiene 80 lecturas que no llegaron al minuto por capítulo ¿Qué ha pasado aquí?

Story DNA puede empezar «a sospechar» que esa novela solo fue visitada por amigos que pasaron capítulo a capítulo sin apenas leerlo. Está bien: tiene 100 lecturas como la otra, pero si tuviera que priorizar, Story DNA dirá que la segunda es mejor que la primera porque tiene 100 lecturas que parecen más reales.

¿Se entiende? (Recuerden que todo esto me lo acabo de inventar)

Y esto no termina aquí. 

Story DNA puede evaluar, los tiempos de rebote (cuando fue abandonado un capítulo), los tiempos que se tardó de pasar un capítulo a otro, la cantidad de capítulos que se leyeron de un tirón. Puede, de alguna forma, evaluar el compromiso que cada lector tuvo con cada obra, esto es: puede evaluar como una obra determinada captó o no la atención del lector.

Estoy seguro de que Story DNA, con un adecuado protocolo de evaluación, puede organizar listas priorizadas de forma mucho más consistente que un humano.

También estoy seguro de que, cuando Story DNA entrega sus primeros 100 clasificados para cada género, está dejando en manos de los jurados humanos a novelas que ya era hora de que sean leídas por personas físicas.

El paso final, la última decisión, está en manos del jurado.

Por lo menos: en mi método.

Reflexión

Frente a la queja de ¿por qué Wattpad no hace público el algoritmo o el protocolo de selección utilizado? Yo creo que la respuesta es bien simple.

Si conociéramos el algoritmo estaríamos tentados a escribir para satisfacer las condiciones que impone el algoritmo, para asegurarnos una mejor puntuación en el índice o escala utilizada.

Por ejemplo, si supiéramos que el algoritmo empieza a poner mala nota en frases con más de 30 palabras y que la nota empeora aún más si en las frases hay más de 5 palabras que excedan de las 4 sílabas… bueno, obviamente revisaríamos todas las frases para escribirlas según le convenga al algoritmo.

Estaríamos escribiendo para el algoritmo y no seríamos nosotros.

No conocer el algoritmo usado hace que nos preocupemos por las cosas obvias que nos benefician, es decir, mantener la legibilidad lingüística neutra, o sea, buena ortografía, buena gramática, buen uso de los signos de puntuación, una redacción atractiva.

Entiendo, que ante cualquier parámetro dudoso, el algoritmo «podrá declararse incompetente», levantará una luz roja y recomendará que una persona lea el texto y emita el veredicto final si ha pasado el filtro o no.

Pero de esta forma y con una simple serie de procesos automáticos podríamos tener una selección de texto listos para que un ser humano los lea y le de una puntuación a la narrativa, a la historia propiamente dicha.

Por otra parte, el futuro se acerca y, si es verdad lo que dicen, la tecnología Story DNA Machine Learning se alejará cada vez más de ser un algoritmo sobre el que podamos ejercer mucho control.

Quiero decir, cuanto más se utilice el concepto de Inteligencia Artificial y machine learning es cada vez más difícil influenciar el algoritmo, porque aprende solo. Por que está preparado justamente para eso, para estudiar qué lee la gente, cuanto tiempo se mantiene interesado en una historia, comparar tiempos de permanencia, cantidad de lecturas, y una serie de parámetros que comenzarán a retroalimentarse sin ningún tipo de gestión humana.

Finalmente, el Story DNA señalará un número de historias cada vez más pequeño, y un equipo humano deberá tomar la decisión final. 

Para terminar, me gustaría señalar que creo que comienza una nueva era y es mejor tomar nota ¿de qué?

Por ejemplo,  de que hasta ahora, el Story DNA Machine Learning, ha seleccionado para Wattpad Books historias del género «young adult» como las más representativas de las nuevas tendencias de consumo por parte de los lectores de 2018. 

Para el mercado al que está dirigido Wattpad Books esto es una especie de panacea. Ya no existe la figura del editor experimentado que mide el timing social y usa su conocimiento para evaluar qué libro editar en tal o cual momento.

Story DNA sabe a ciencia cierta qué se leyó dentro de la plataforma en cada período de tiempo, que obra acaparó la atención de un universo de lectores inmenso y con una precisión que las editoriales tradicionales ni siquiera podían soñar.

¿Quieres saber que se lee en primavera? ¡Pregúntale a Story DNA!

Puede asustar un poco todo esto. Pero es lo que se avecina.

A la vuelta de la esquina.

Es mejor estar atentos.

Conclusión: son herramientas.

Por otra parte, creo que con independencia de la ciencia de los datos, esto es, cualquier algoritmo que inspeccione nuestra obra, sea tecnología de machine learning o no, uno debe escribir como le gusta.

Personalmente no descarto a los algoritmos ni a ninguna tecnología que me ayude a revisar mi obra y darle una mejor legibilidad. 

Pero, digan lo que digan estas herramientas, la última palabra es la mía y siempre será mi decisión expresarme como quiera.

Las herramientas evolucionarán y nosotros debemos acompañar esa evolución. No tenemos mucho margen de maniobra al respecto. Adaptarse o morir…. ¿verdad?

Por ejemplo, todos conocemos el corrector ortográfico de Word. Normalmente es la primera herramienta tecnológica que nos ayuda a revisar nuestros escritos. 

Pero hay muchas más y de otras clases, por ejemplo, herramientas que nos ayudan a organizar el trabajo o documentarlo.

En la línea de la corrección y legibilidad puedo enumerar algunas herramientas que ya utilicé en el pasado:

Seguro que hay otras y si conoces alguna, por favor, ¡compártelas conmigo en los comentarios!

Recordemos que son solo herramientas. No tienen más (ni menos) valor que eso. 

Los escritores somos nosotros.

Ahora es tu turno.

¿Qué opinas?

The last comment and 4 other comment(s) need to be approved.
2 comentarios
  1. Bruno Books
    Bruno Books Dice:

    Muy interesante artículo. Aunque sigo sin entender muy bien cómo elige las obras con flujo de lectores si para eso en realidad no se necesita una IA, con fijarse las lecturas, comentarios y votos ya uno se da cuenta. Wattpad debe tener todas las estadísticas de datos de las obras más relevantes en la plataforma.

    Responder
    • Diego Grispo
      Diego Grispo Dice:

      Gracias por comentar Bruno Books!
      Recuerda la idea que escribí bajo el título «Terminó la criba: ¿Qué sigue?
      Puedo tener la misma cantidad de lectores para dos novelas distintas, pero un software de aprendizaje profundo puede determinar quien tuvo «mas lecturas de calidad», ya sea con menos rebote, con medias de lecturas mas acordes con el género o la competencia donde se presenta la novela, etc.
      En este caso es difícil saber si utilizan las estadísticas comparativas del universo de obras presentados al concurso o utilizan las estadísticas del total de obras dentro de la plataforma.
      Quizás sea mas cercano a la realidad utilizar las estadísticas de las obras presentadas en concurso dado que los gustos de lectura cambian, pero no sé a ciencia cierta qué es lo que hacen.
      La tecnología de IA + machine learning abre muchas puertas.
      Te dejo un abrazo

      Responder

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *