SMITH, un nuevo algoritmo de PNL de Google. ¿De qué se trata?

Google publicó recientemente un artículo de investigación sobre un nuevo algoritmo llamado SMITH que, según afirma, supera a BERT en la comprensión de consultas y documentos extensos.

En particular, lo que hace que este nuevo modelo sea mejor es que puede comprender los pasajes dentro de los documentos de la misma manera que BERT comprende palabras y oraciones, lo que permite al algoritmo comprender documentos más largos.

Aclaremos primero qué es un pasaje en una página web

Según Martin Splitt de Google, un pasaje es una parte específica dentro de un documento ( url, post, pagina de producto, página) donde el algoritmo intentará entender el documento por partes y poder calificar diferentes partes de una página de forma independiente.

Los pasajes están diseñados por Google para entender esas páginas, post, etc super largas donde hay mucho contenido y donde tal vez, a diferentes usuarios solo les interesa saber una parte de ese contenido, por lo tanto, no tienen por qué leer (o buscar ) todo el texto.

esta parte de la página es relevante para esta consulta, donde esta otra parte de su página no es tan relevante para esta consulta “.

Martin Splitt

SMITH es para la comprensión de consultas y documentos extensos

Según Google Search, sobre el algoritmo SMITH:

abordamos el problema proponiendo el codificador jerárquico (SMITH) basado en transformador siamés de profundidad múltiple para la comparación de documentos de formato largo. Nuestro modelo contiene varias innovaciones para adaptar los modelos de auto atención para una entrada de texto más larga. 

Google Search

Proponemos un codificador jerárquico basado en transformador para capturar la información de la estructura del documento. Para capturar mejor las relaciones semánticas a nivel de la oración dentro de un documento, pre-entrenamos el modelo con una nueva tarea de modelado del lenguaje de bloques de oraciones enmascarados además de la tarea de modelado del lenguaje de palabras enmascaradas que usa BERT.

Google Search

Nuestros resultados experimentales en varios conjuntos de datos de referencia para la coincidencia de documentos de formato largo muestran que nuestro modelo SMITH propuesto supera a los modelos anteriores de última generación, incluidos la atención jerárquica, la red neuronal recurrente jerárquica basada en la atención de múltiples profundidades y BERT.

Google Search

Aclarando este asunto de SMITH

Al parecer Google está experimentando con un algoritmo más potente que BERT para comprender de una forma más coherente las oraciones y párrafos escritos dentro de una página web.

Digamos que el contenido de texto largo, puede ser aún dificil de comprender para el algoritmo a nivel semántico, por eso están probando con este nuevo algoritmo.

No es lo mismo, comprender semánticamente una frase dentro de un párrafo, que varias frases dentro de un párrafo y todo ello a su vez dentro de un pasaje “bloque”.

Para los lectores humanos, la estructura del documento suele jugar un papel clave para la comprensión del contenido. De manera similar, un modelo también debe tener en cuenta la información de la estructura del documento para un mejor rendimiento de la correspondencia de documentos;

Este algoritmo SMITH aprende las relaciones entre palabras y luego sube de nivel para aprender el contexto de bloques de oraciones y cómo se relacionan entre sí en un documento largo.

Diferencias técnicas entre BERT y SMITH

BERT utiliza 256 tokens por documento. Después de eso, el costo de la computación es demasiado alto para que sea funcional y, a menudo, simplemente no lo es.

SMITH, por otro lado, puede manejar 2248 fichas. Los documentos pueden ser 8 veces más grandes.

A continuación muestro un trozo del documento oficial de la investigación y comparativa realizada entre el algoritmo BERT y SMITH.

Observando este nuevo algoritmo, como profesional SEO se me ocurre que Google puede ofrecer información muy específica a los usuarios “extrayéndola” de sitios web autoritarios y de relevancia fácilmente.

Bueno, en gran medida ya lo hace, pero creo que SMITH ayudará aún más.

Recuerda que Google lleva años diciendo, que “se debe generar crear contenido original, de calidad y estar respaldado por autores”.

La pregunta siguiente puede ser…

¿Está activo el algoritmo SMITH?

No hay ninguna comunicación oficial hasta hoy sobre que se haya desplegado SMITH. De momento parece ser que no, y últimamente Google “avisa” de los próximos movimientos, así que podríamos afirmar de que SMITH aún es solo un experimento.

Pero por los excelentes resultados que ha dado la investigación y comparativa entre BERT y SMITH, es posible que lo tengamos activo pronto.

Otra pregunta de interés sobre este algoritmo puede ser…

¿Tengo que hacer algo en mi web para protegerme?

No se puede hacer nada excepto revisar el contenido de texto que tenemos, los encabezados y la estructura del contenido.

Según Martin Splitt, no hay mucho que se pueda hacer:

Con cualquier tipo de contenido, algo semántico y algo de estructura en su contenido para que sea más fácil para los sistemas automatizados comprender la estructura y el tipo de me gusta, las partes y partes de su contenido.

Otra pregunta que puede surgir a los que tienen tiendas online es :

¿SMITH puede afectar a las páginas de producto?

Este algoritmo SMITH está más pensando para páginas muy largas y con mucho texto. Por norma general, las páginas de producto no suelen ser excesivamente largas.

Aunque según el estudio realizado por Google, SMITH puede funcionar por sí solo o como lo hace BERT, para documentos más pequeños.

Personalmente creo que es muy posible que este algoritmo SMITH termine implantándose en un periodo de tiempo no muy largo, ya que un gran porcentaje de consultas en SERPS son muy explícitas y buscan una respuesta rápida, que puede estar dentro de un contenido más extenso.

¿Qué piensas sobre SMITH?

Digiqole ad

Gines Mayol

Experto SEO realizando tareas de redacción de contenidos sobre Google en Esgoogle.es. CEO de ginesmayol.com.

Más artículos de interés

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

0 Compartir
Twittear
Compartir
Compartir