Comment générer une copie basée sur les données pour les pages de catégorie de commerce électronique avec GPT-2


Ma présentation MozCon était un court métrage créé par l'équipe iPullRank.

Je ne vais pas le gâcher parce que je préfère que vous le regardiez, mais le film est une partie "Batman: la série animée" et une partie "M. Robot »présenté dans un format multimédia.

Si vous ne l’avez pas vu, nous venons de publier un Director’s Cut ainsi que toutes les ressources et le code associés (toutes les tactiques et le code sont réels) du film, alors jetez un œil. Nous l'avons fait pour vous!

Ce que je veux souligner aujourd'hui, c'est la scène vers la fin du film dans laquelle le concept de génération de texte évolutif est exploré.

Regarde:

Dans cette scène, nous représentons notre protagoniste, Casey Robins, en train de découvrir comment générer par programme une copie pour les pages de catégorie de commerce électronique et d'incorporer des données dans cette copie en fonction de l'objet JSON utilisé pour remplir cette page.

Publicité

Continuer la lecture ci-dessous

Ouais, c’était une bouchée, mais c’est la tactique la plus cool que j’ai imaginée au cours des cinq dernières années, alors supportez-moi!

DataToText est toujours académique, mais voici un hack

Comme je l’ai mentionné dans la boîte de dialogue, il existe un domaine d’étude sur la génération du langage naturel appelé DataToText dans lequel les gens prennent des données structurées et les utilisent pour générer une copie.

Dans la recherche universitaire, les ingénieurs ont mis en évidence des cas d'utilisation tels que des récapitulatifs sur les jeux de sport et également la génération de copies pour les pages de produits de commerce électronique.

Voici un exemple de copie générée pour un récapitulatif de jeu de sport à partir du document, Un modèle hiérarchique pour la génération de données en texte.

Un modèle hiérarchique pour la génération de données à texte "width =" 715 "height =" 322 "tailles =" (max-width: 715px) 100vw, 715px "data-srcset =" https://cdn.searchenginejournal.com/wp- content / uploads / 2020/07 / a-hierarchical-model-for-data-to-text-generation-5f187d780a47b.png 715w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/a -modèle-hiérarchique-pour-génération-de-données-en-texte-5f187d780a47b-480x216.png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/a-hierarchical-model-for- data-to-text-generation-5f187d780a47b-680x306.png 680w "data-src =" https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/a-hierarchical-model-for-data- vers-text-generation-5f187d780a47b.png

Voici un exemple de copie en cours de génération pour une page de détails de produit à partir du document, Storytelling from Structured Data and Knowledge Graphs.

Publicité

Continuer la lecture ci-dessous

Storytelling from Structured Data and Knowledge Graphs "width =" 1091 "height =" 681 "tailles =" (max-width: 1091px) 100vw, 1091px "data-srcset =" https://cdn.searchenginejournal.com/wp-content /uploads/2020/07/storytelling-from-structured-data-and-knowledge-graphs-5f187d972ebe5.png 1091w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/storytelling-from- graphiques-de-données-structurées-et-connaissances-5f187d972ebe5-480x300.png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/storytelling-from-structured-data-and-knowledge-graphs -5f187d972ebe5-680x424.png 680w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/storytelling-from-structured-data-and-knowledge-graphs-5f187d972ebe5-768x479.png 768ebe5-768x479.png : //cdn.searchenginejournal.com/wp-content/uploads/2020/07/storytelling-from-structured-data-and-knowledge-graphs-5f187d972ebe5-1024x639.png 1024w "data-src =" https: // cdn .searchenginejournal.com / wp-content / uploads / 2020/07 / storytelling-from-structural-data-and-knowled ge-graphs-5f187d972ebe5.png

Naturellement, ces cas d'utilisation sont le reflet direct de choses qui prendraient en charge la création de contenu évolutif pour le référencement.

Donc, j'ai pensé que DataToText serait prêt à être lancé et que je pourrais simplement transmettre des données structurées à une API et être prêt.

J'ai donc lu quelques-uns de ces articles et essayé d'exécuter une partie du code.

J'étais, franchement, hors de ma profondeur technique et je ne voulais pas m'engager à lire suffisamment à fond pour vraiment comprendre comment le faire.

Qu'est-ce que tu veux de moi? J'ai deux enfants et je suis responsable de deux entreprises pendant une pandémie mondiale.

J'ai donc identifié un raccourci en fonction de ce que je sais déjà faire.

De nombreux sites de commerce électronique sont construits sur des applications à page unique.

Cela signifie qu'il existe un point de terminaison d'API quelque part auquel le code côté client accède afin de remplir son contenu lorsqu'une page est en cours de construction ou de mise à jour.

De par leur conception, bon nombre de ces points de terminaison d'API sont ouverts et disponibles pour nous et l'authentification est souvent faible voire nulle.

Nous pouvons utiliser ces mêmes points de terminaison pour collecter des fonctionnalités et des points de données dérivés afin de générer un contenu unique et pertinent.

Nous pouvons utiliser ces données pour développer une série de phrases avec une quantité significative de variance pour obtenir les données dans un paragraphe.

Ensuite, nous pouvons utiliser une bibliothèque de génération de langage naturel (bonjour GPT-2!) Pour compléter ces paragraphes.

Varier la longueur des paragraphes et où cette phrase variée se situe dans un paragraphe donné produira une richesse de contenu complètement unique et pertinent qui présente nos points de données clés.

D'accord, mais avant d'entrer dans la façon dont nous faisons cela, parlons de la façon dont nous sommes arrivés ici.

Comment je me suis trompé sur l'avenir de la génération de texte

Lorsque j'ai donné une conférence sur l'apprentissage automatique chez SearchLove il y a quelques années, j'ai dit que les référenceurs devraient éviter la création de contenu basée sur le ML, car ce n'était pas assez bon.

Publicité

Continuer la lecture ci-dessous

Il y a eu des exemples bien connus de ce type de contenu qui a été utilisé pour générer des rapports financiers et des récapitulatifs sportifs.

Un journaliste de robot a-t-il bousillé l'histoire des gains Netflix d'AP "width =" 960 "height =" 480 "tailles =" (max-width: 960px) 100vw, 960px "data-srcset =" https://cdn.searchenginejournal.com/ wp-content / uploads / 2020/07 / did-a-robot-reporter-visser-aps-netflix-gains-story-5f187e677c35a.png 960w, https://cdn.searchenginejournal.com/wp-content/uploads /2020/07/did-a-robot-reporter-screw-up-aps-netflix-earnings-story-5f187e677c35a-480x240.png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/ 07 / did-a-robot-reporter-visser-aps-netflix-gains-histoire-5f187e677c35a-680x340.png 680w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/did -a-robot-reporter-visser-aps-netflix-gains-histoire-5f187e677c35a-768x384.png 768w "data-src =" https://cdn.searchenginejournal.com/wp-content/uploads/2020/07 /did-a-robot-reporter-screw-up-aps-netflix-earnings-story-5f187e677c35a.png

Il existe également des entreprises telles que Narrative Science et Automated Insights qui occupent cet espace depuis des années.

Ces solutions reposent fortement sur des modèles avec des variations et l'insertion de variables plutôt que sur la génération de texte vraiment unique.

Au moment où j'ai fait cette conférence, je ne pensais pas que nous aurions quoi que ce soit de viable pour une génération de copies efficace et distincte pendant au moins une autre décennie.

J'avais tort et je me suis corrigé plus tard il y a deux ans chez TechSEOBoost. J'avais prédit que dans les cinq prochaines années, cette génération de texte serait omniprésente.

Eh bien, le moment est venu de commencer à capitaliser sur cette technologie pour le référencement.

Publicité

Continuer la lecture ci-dessous

Une histoire incomplète et auto-référentielle de la génération de contenu en SEO

Plus tôt dans ma carrière de SEO, je ne connaissais pas grand-chose à la communauté SEO dans son ensemble, j'ai donc réinventé la roue à plusieurs reprises.

Je dis cela parce que le concept de rotation de contenu s'explique efficacement par la façon dont j'y suis arrivé.

En 2007, il y avait une chanson du rappeur Canibus intitulée «Poet Laureate Infinity».

La prémisse fondamentale de cette chanson était que l'animateur avait enregistré cinq versions d'un couplet de 200 mesures que vous pourriez utiliser pour former un nouveau couplet.

Les couplets étaient multi-pistes les uns sur les autres, mais la mesure une dans une version rimait avec la mesure deux dans un autre couplet et ainsi de suite.

La chanson était présentée avec une interface visuelle sur le site Web Canibus.com qui permettait à l'auditeur de basculer entre la version du couplet en cours de lecture à un moment donné.

En fait, vous pourriez avoir des permutations infinies du couplet de 200 mesures que vous avez entendu en fonction de ce que vous avez basculé.

Publicité

Continuer la lecture ci-dessous

Poète lauréat Infinity "width =" 960 "height =" 720 "tailles =" (max-width: 960px) 100vw, 960px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads/2020 /07/poet-laureate-infinity-5f187eb65445f.png 960w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/poet-laureate-infinity-5f187eb65445f-480x360.png 480w, https: / /cdn.searchenginejournal.com/wp-content/uploads/2020/07/poet-laureate-infinity-5f187eb65445f-680x510.png 680w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/ poet-laureate-infinity-5f187eb65445f-768x576.png 768w "data-src =" http://e-commerce.je-creer-mon-site.com/wp-content/uploads/2020/07/1595527610_399_Comment-generer-une-copie-basee-sur-les-donnees-pour-les.png

Au moment de la publication, je travaillais pour une entreprise qui avait un réseau de sites ne différant vraiment que par leur emplacement et le nom de l'entreprise. Je me suis dit que nous pouvons appliquer le même concept au contenu.

Donc, après avoir utilisé quelques mathématiques de mon manuel de Structures discrètes pour construire une analyse de rentabilisation, j'ai travaillé avec un rédacteur de mon équipe (quoi de neuf, Jacques!) Pour écrire cinq versions d'un contenu.

Il a fait tous les paragraphes le même nombre de phrases et toutes les phrases de chaque version fonctionnent avec les phrases de la suivante.

Je lui ai également demandé de laisser des marqueurs pour les emplacements et les noms de sociétés afin que nous puissions les insérer dans le contenu.

array "width =" 512 "height =" 182 "tailles =" (max-width: 512px) 100vw, 512px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads/2020/07 /array-1-5f187f2f78b38.jpg 512w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/array-1-5f187f2f78b38-480x171.jpg 480w "data-src =" https: // cdn.searchenginejournal.com/wp-content/uploads/2020/07/array-1-5f187f2f78b38.jpg

Je les ai tous mis dans un tableau multidimensionnel, les ai randomisés et j'ai remplacé une chaîne sur les marqueurs et généré une copie.

Publicité

Continuer la lecture ci-dessous

J'ai également comparé la distance d'édition à d'autres versions du contenu qui ont été générées et n'ont craché qu'une version unique à au moins 70%.

C'était en 2007, avant que les mises à jour d'algorithmes portant le nom d'animaux ne soient sur les lieux, donc la tactique fonctionnait comme par magie.

Naturellement, la communauté SEO regorge de personnes très intelligentes qui sont déjà arrivées à cette même conclusion sans l'aide d'un rappeur ringard.

Certains des référenceurs que j'appelle maintenant des amis en faisaient des implémentations plus sophistiquées en utilisant des chaînes de Markov et des variantes au niveau des mots et des phrases.

J'ai appris plus tard qu'il existe des programmes qui font cela en utilisant ce que l'on appelle «spintax» comme on le voit ci-dessous.

Blog_Images_Code_Quote "width =" 1100 "height =" 242 "tailles =" (max-width: 1100px) 100vw, 1100px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads/2020/07 /blog_images_code_quote-5f187f4c1f285.jpg 1100w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/blog_images_code_quote-5f187f4c1f285-480x106.jpg 480w, https://cdn.search/enginejournal.com /uploads/2020/07/blog_images_code_quote-5f187f4c1f285-680x150.jpg 680w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/blog_images_code_quote-5f187f4c1f285-768x169.jps: .searchenginejournal.com / wp-content / uploads / 2020/07 / blog_images_code_quote-5f187f4c1f285-1024x225.jpg 1024w "data-src =" https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/blog_images_code_quote -5f187f4c1f285.jpg

Cette tactique est connue sous le nom de rotation de contenu.

Souvent, il est utilisé sur les articles d’autres personnes pour dupliquer des articles existants en changeant simplement les mots.

Publicité

Continuer la lecture ci-dessous

Le contenu tournant comme je l'ai décrit ci-dessus fait partie du seau des tactiques auxquelles les gens font référence lorsqu'ils parlent de «contenu SEO».

Il a tendance à être très riche en mots clés, répétitif et généralement pas destiné à la consommation humaine.

Dans de nombreux cas, le contenu n'a même pas de sens car les gens ne vérifient pas la sortie avant de publier.

Le «contenu SEO» et la rotation de contenu ne sont pas des tactiques que je recommande.

Cependant, la réalité est qu'il existe de nombreux sites de commerce électronique qui ont vu des améliorations significatives du trafic de recherche organique grâce à la copie à nervures et au contenu dupliqué.

Par exemple, dans le graphique ci-dessous, vous constatez la croissance de la visibilité d'un grand site de commerce électronique.

La ligne verte représente toute sa visibilité de recherche organique. La ligne bleu clair représente la visibilité d'un répertoire qui ne contient que du contenu dupliqué.

Ces lignes se rapprochent après le déploiement de quelques phrases de copie madlibbed.

Exemple de visibilité du site de commerce électronique "width =" 512 "height =" 184 "tailles =" (max-width: 512px) 100vw, 512px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads/ 2020/07 / example-ecommerce-site-visibilité-5f187f76d92e8.png 512w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/example-ecommerce-site-visibility-5f187f76d92e8-480x173.png 480w "data-src =" http://e-commerce.je-creer-mon-site.com/wp-content/uploads/2020/07/1595527610_291_Comment-generer-une-copie-basee-sur-les-donnees-pour-les.png

Si vous avez fait du référencement pour de grands sites Web avec une haute autorité, vous savez que le simple fait de suivre les meilleures pratiques signifie des pertes d'opportunités.

Publicité

Continuer la lecture ci-dessous

Cependant, étant donné que cela fonctionne si bien, il vaut la peine d'envisager une bien meilleure façon de générer du contenu avec plus d'utilité pour l'utilisateur.

Entrez GPT-2

Natural Language Generation est ce que la rotation de contenu voulait être quand elle a grandi.

Il existe encore des outils comme RosaeNLG qui se réfèrent à eux-mêmes comme des outils de génération de langage naturel, mais ce sont simplement de bons filateurs de contenu.

Les domaines du langage naturel, du traitement, de la compréhension et de la génération ont considérablement évolué ces dernières années grâce aux réseaux de neurones et à l'ubiquité de la puissance de traitement.

Si vous avez prêté attention aux annonces de la recherche Google concernant le langage naturel au cours des deux dernières années, vous avez peut-être entendu parler de BERT.

BERT signifie Représentations d'encodeur bidirectionnel à partir de transformateurs.

Le mot clé ici est «transformateur».

Pour simplifier à l'extrême, la technologie Transformer repose sur l'idée d'apprendre à partir du contenu et d'utiliser cet apprentissage pour déterminer les probabilités de ce que le mot suivant est le plus susceptible d'être basé sur le mot précédent ou la série de mots précédente.

Publicité

Continuer la lecture ci-dessous

Il s'agit de la technologie derrière le texte prédictif dans votre Gmail et dans vos SMS, si vous êtes sur Android.

Le modèle Transformer "width =" 1315 "height =" 1600 "tailles =" (max-width: 1315px) 100vw, 1315px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads/2020 /07/the-transformer-model-5f187fc493966.png 1315w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/the-transformer-model-5f187fc493966-480x584.png 480w, https: / /cdn.searchenginejournal.com/wp-content/uploads/2020/07/the-transformer-model-5f187fc493966-680x827.png 680w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/ the-transformer-model-5f187fc493966-768x934.png 768w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/the-transformer-model-5f187fc493966-1024x1246.png 1024w "data-src = "http://e-commerce.je-creer-mon-site.com/wp-content/uploads/2020/07/1595527610_185_Comment-generer-une-copie-basee-sur-les-donnees-pour-les.png

GPT a révolutionné l'espace de génération de texte en utilisant ce concept pour créer une copie.

GPT-2 est la deuxième génération de la bibliothèque Generative Pretrained Transformer de l’équipe OpenAI d’Elon Musk et il est capable d’écrire une copie que vous trouverez très difficile de distinguer d’un humain.

Quand ils ont annoncé GPT-2 pour la première fois, c'était à la suite de l'épidémie de fausses nouvelles, et ils ont dit qu'il était trop dangereux de le rendre public. (Remarque: l'antagoniste dans Runtime fait directement référence à cela).

En fin de compte, ils l'ont publié, mais avec moins de paramètres qu'ils ne l'avaient appris.

Au lieu de 1,5 milliard de paramètres, ils l'ont initialement publié avec un maximum de 774 millions de paramètres.

Publicité

Continuer la lecture ci-dessous

Malgré cela, les modèles pré-entraînés disponibles sont très bons pour générer une copie et vous pouvez affiner le modèle en fonction des données que vous souhaitez lui fournir.

Dans le film, Casey peaufine le modèle en utilisant une copie extraite du site Web d’un concurrent.

Si votre site contient une quantité substantielle de copies, vous devez le former à ce sujet.

GPT-2 fonctionne en pratique en lui donnant une invite et des paramètres pour lui dire de générer un certain nombre de mots.

Avec la tactique que je décris, je vous recommande d'utiliser la rotation de contenu comme mécanisme pour lui envoyer l'invite.

En fait, vous obtenez vos données dans une phrase à l'aide de votre spinner de contenu, puis alimentez ce contenu dans GPT-2 en tant qu'invite.

À partir de là, vous généreriez n mots, puis tirez votre phrase suivante et continuez à le faire jusqu'à ce que vous ayez autant de copie que vous voulez.

Il est important de noter que GPT et ses successeurs ne sont pas les seuls modèles pour ce type de génération de texte.

Publicité

Continuer la lecture ci-dessous

  • Google en a un appelé T5 qui a été formé sur une version nettoyée de CommonCrawl.
  • Salesforce en a un appelé CTRL formé sur 1,6 milliard de paramètres.
  • Microsoft en a un appelé TuringNLG qui est formé sur 17 milliards de paramètres.

Donc, ce n’est pas seulement Elon Musk qui est sur le point de provoquer une explosion du contenu créé par la machine qui inonde les SERPs.

GPT-2 a peut-être les implémentations les plus simples que j'ai rencontrées en raison de sa popularité.

modèles de génération de texte "width =" 1400 "height =" 788 "tailles =" (max-width: 1400px) 100vw, 1400px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads/2020 /07/text-generation-models-5f187ff012b3a.png 1400w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/text-generation-models-5f187ff012b3a-480x270.png 480w, https: / /cdn.searchenginejournal.com/wp-content/uploads/2020/07/text-generation-models-5f187ff012b3a-680x383.png 680w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/ text-generation-models-5f187ff012b3a-768x432.png 768w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/text-generation-models-5f187ff012b3a-1024x576.png 1024w "data-src = "http://e-commerce.je-creer-mon-site.com/wp-content/uploads/2020/07/1595527610_491_Comment-generer-une-copie-basee-sur-les-donnees-pour-les.png

Et pendant que je parle de différents modèles, je voudrais saluer Hamlet Batista qui a mené les réflexions dans notre espace autour des applications pratiques de la PNL et de la NLG.

Publicité

Continuer la lecture ci-dessous

Comment trouver les données qui remplissent une page

Dans le film, Casey identifie le point de terminaison et la requête HTTP à partir de l'onglet Réseau de Chrome qui contient les points de données utilisés pour créer la page de catégorie.

Vous ne devriez pas avoir à le faire pour votre propre site, car vous devriez avoir un accès direct au modèle de données.

À des fins d'illustration, vous trouverez généralement ces données en limitant vos transactions réseau à XHR.

Une fois que vous avez parcouru les requêtes AJAX et trouvé celles contenant toutes les données, cliquez avec le bouton droit sur la requête dans Chrome pour en extraire les détails.

Voici un exemple de Nike.com. Voici leur page de basketball masculin.

Page de basket-ball Nike pour hommes "width =" 1600 "height =" 787 "tailles =" (max-width: 1600px) 100vw, 1600px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads/ 2020/07 / nike-hommes --- s-basketball-page-5f18801d826d7.png 1600w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/nike-men---s-basketball -page-5f18801d826d7-480x236.png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/nike-men---s-basketball-page-5f18801d826d7-680x334.png 680w, https : //cdn.searchenginejournal.com/wp-content/uploads/2020/07/nike-men---s-basketball-page-5f18801d826d7-768x378.png 768w, https://cdn.searchenginejournal.com/wp- content / uploads / 2020/07 / nike-men --- s-basketball-page-5f18801d826d7-1024x504.png 1024w "data-src =" https://cdn.searchenginejournal.com/wp-content/uploads/2020/ 07 / nike-homme --- s-basketball-page-5f18801d826d7.png

Nike.com est construit avec le framework React. Le site a un point de terminaison d'API qui se trouve à https://api.nike.com/cic/browse/v1.

Publicité

Continuer la lecture ci-dessous

Ce point de terminaison est utilisé pour remplir les produits sur les pages.

Dans Chrome, vous pouvez obtenir les détails exacts de la requête HTTP sous forme de commande Fetch, NodeJS ou cURL utilisée pour envoyer un ping à ce point de terminaison en cliquant avec le bouton droit sur la requête.

nike-products-endpoint-curl "width =" 1280 "height =" 720 "tailles =" (max-width: 1280px) 100vw, 1280px "data-src =" https://cdn.searchenginejournal.com/wp-content /uploads/2020/07/nike-products-endpoint-curl-5f18804b5ca2c.gif

Dans cet exemple, la requête cURL ressemble à ceci:

Exemple de requête cURL "width =" 1600 "height =" 738 "tailles =" (max-width: 1600px) 100vw, 1600px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads/2020 /07/curl-request-example-5f18806b473aa.png 1600w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/curl-request-example-5f18806b473aa-480x221.png 480w, https: / /cdn.searchenginejournal.com/wp-content/uploads/2020/07/curl-request-example-5f18806b473aa-680x314.png 680w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/ curl-request-example-5f18806b473aa-768x354.png 768w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/curl-request-example-5f18806b473aa-1024x472.png 1024w "data-src = "http://e-commerce.je-creer-mon-site.com/wp-content/uploads/2020/07/1595527610_736_Comment-generer-une-copie-basee-sur-les-donnees-pour-les.png

Certes, certains sites sont sophistiqués en ce qu’ils ne vous permettent pas d’accéder facilement à ces points de terminaison à partir d’une ligne de commande et Nike est l’un de ces sites.

Publicité

Continuer la lecture ci-dessous

Par conséquent, vous souhaiterez probablement utiliser Puppeteer pour charger la page, intercepter et enregistrer les réponses XHR de api.nike.com.

La charge utile JSON que vous recherchez a tendance à avoir plusieurs nœuds imbriqués.

Vous pouvez le voir dans l'onglet Réseau en parcourant les demandes individuelles dans la cascade.

nike-products-endpoint "width =" 1280 "height =" 720 "tailles =" (max-width: 1280px) 100vw, 1280px "data-src =" https://cdn.searchenginejournal.com/wp-content/uploads /2020/07/nike-products-endpoint-5f18808331749.gif

Si nous zoomons un peu, nous pouvons voir les fonctionnalités du modèle de données que Nike met à disposition dans la construction de cette page.

Exemple de modèle de données Nike "width =" 847 "height =" 505 "tailles =" (max-width: 847px) 100vw, 847px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads/ 2020/07 / exemple-de-modèle-de-données-nike-5f1880ac96238.png 847w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/nike-data-model-example-5f1880ac96238-480x286.png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/nike-data-model-example-5f1880ac96238-680x405.png 680w, https://cdn.searchenginejournal.com/wp-content /uploads/2020/07/nike-data-model-example-5f1880ac96238-768x458.png 768w "data-src =" https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/nike-data -modèle-exemple-5f1880ac96238.png

Considérez dans ce cas que nous disposons des éléments suivants:

Publicité

Continuer la lecture ci-dessous

  • Description de la couleur: Le coloris de haut niveau de la sneaker.
  • inStock, isJersey, isMemberExclusive, isNBA, isNFL, isSustainable: Caractéristiques booléennes pour indiquer les principales caractéristiques de l'élément.
  • Prix: Si vous connaissez quelqu'un qui travaille pour Nike, vous connaissez maintenant le prix employé.
  • Sous-titre: Type de l'article.
  • Titre: Le nom de l'objet.

Vous avez maintenant le point final. Vous pouvez consulter une série de pages différentes pour mieux comprendre les paramètres de la requête afin de pouvoir extraire ce dont vous avez besoin.

Examinez attentivement les données et réfléchissez aux points de données que vous pouvez utiliser directement et aux points de données que vous pouvez en tirer.

Par exemple, si vous avez des prix pour 10 articles, vous pouvez dériver un prix moyen à partir de ce point de données. Si vous avez des numéros de stock, vous pouvez potentiellement obtenir de la popularité.

Dans l'exemple ci-dessus, nous pourrions tirer une compréhension de la durabilité des baskets et mettre en place un langage lié à cela.

Pour simplifier, ces variables pourraient être utilisées pour construire une phrase comme:

Vous recherchez la meilleure chaussure de basket-ball? Nous avons les trophées Kyrie 6.

Publicité

Continuer la lecture ci-dessous

Le modèle de cette phrase devient:

Vous recherchez le meilleur subtitle? Nous avons le title.

À partir de cette phrase, GPT-2 pourrait générer ce paragraphe:

Exemple de paragraphe GPT-2 "width =" 1341 "height =" 1037 "tailles =" (max-width: 1341px) 100vw, 1341px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads /2020/07/gpt-2-sample-paragraph-5f1880e2479d5.png 1341w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/gpt-2-sample- paragraph-5f1880e2479d5-480x371. png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/gpt-2-sample- paragraph-5f1880e2479d5-680x526.png 680w, https://cdn.searchenginejournal.com/wp- content / uploads / 2020/07 / gpt-2-sample-paragraph-5f1880e2479d5-768x594.png 768w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/gpt-2-sample- paragraph -5f1880e2479d5-1024x792.png 1024w "data-src =" https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/gpt-2-sample- paragraph-5f1880e2479d5.png

Vous pouvez jouer avec cette idée sur le site WriteWithTransformer.com par l'équipe HuggingFace.

Gardez à l'esprit que ce site vous permet de générer une copie en utilisant le grand modèle GPT-2 plutôt que la version de paramètre 355 mm utilisée dans les exemples ci-dessous.

Si vous ne parvenez pas à identifier les variantes des phrases que vous préparez, vous pouvez utiliser les données de Paraphrase.org.

Exemple de données Paraphrase.org "width =" 1600 "height =" 787 "tailles =" (max-width: 1600px) 100vw, 1600px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads /2020/07/paraphrase.org-sample-data-5f18815f86c3c.png 1600w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/paraphrase.org-sample-data-5f18815f86c3c-480x236. png 480w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/paraphrase.org-sample-data-5f18815f86c3c-680x334.png 680w, https://cdn.searchenginejournal.com/wp- content / uploads / 2020/07 / paraphrase.org-sample-data-5f18815f86c3c-768x378.png 768w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/paraphrase.org-sample-data -5f18815f86c3c-1024x504.png 1024w "data-src =" http://e-commerce.je-creer-mon-site.com/wp-content/uploads/2020/07/1595527611_951_Comment-generer-une-copie-basee-sur-les-donnees-pour-les.png

Comment générer une copie pour les pages de catégorie

Maintenant, pour le moment, vous attendiez.

Publicité

Continuer la lecture ci-dessous

Voici un bloc-notes Colab utilisant GPT-2-Simple pour illustrer le concept de génération de texte.

Pour paraphraser Britney Muller, il suffit de Ctrl + Entrée.

Voici l'explication étape par étape de ce qui doit être fait pour en arriver là:

1. Examiner le modèle de données de votre site

L'examen des données disponibles déterminera la façon dont vous développez les blocs injectés de données.

2. Générez une série de phrases intégrant ces points de données

Identifiez les variantes de phrase de Paraphrase.org.

Il s'agit d'une étape facultative si vous manquez de phrases ou si vous n'avez pas de rédacteur avec lequel travailler, vous pouvez télécharger les données du projet Paraphrase.org pour obtenir une liste de phrases en décomposant vos phrases en n-grammes.

3. Collectez / Grattez autant de contenu textuel que possible qui est pertinent pour votre espace

Si votre site a une multitude de copies, vous pouvez les extraire. Sinon, tirez-vous de vos concurrents.

Dans ce cas, j'ai extrait de la section #main> div>: l'élément nth-child (4) sur les pages de catégorie de Foot Locker et l'ai transmis au modèle.

Publicité

Continuer la lecture ci-dessous

Vous enregistrez tout ce que vous récupérez dans un fichier texte avec des marqueurs de fin de page à la fin de chaque page. Dans ce cas, j'ai utilisé "<|endoftext>|. »

4. Affiner un modèle GPT-2

Introduisez le fichier texte dans GPT-2 pour créer un modèle que vous pourrez utiliser à l'avenir.

5. Remplissez les phrases avec les données du modèle de données

Générez vos phrases individuelles grâce à la rotation de contenu à l'aide d'une bibliothèque telle que wink-nlp-utils.

Il a une fonction appelée composeCorpus qui peut être utilisée comme n'importe quel autre outil de rotation de contenu.

6. Utilisez vos phrases basées sur les données comme invites

Chacune de ces phrases est ensuite transmise à GPT-2 en tant qu'invite pour générer autant de copie que vous le souhaitez.

Vous pouvez faire varier la longueur du contenu généré et l'emplacement.

Par exemple, vous pouvez placer une phrase et dire donnez-moi 50 mots ou placer deux phrases et ensuite l'inviter à vous donner 200 mots.

Utilisez vos phrases basées sur les données comme invites "width =" 668 "height =" 309 "tailles =" (max-width: 668px) 100vw, 668px "data-srcset =" https://cdn.searchenginejournal.com/wp-content /uploads/2020/07/use-your-data-driven-sentences-as-prompts-5f188196de2b5.png 668w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/use-your- phrases-guidées-données-comme-invites-5f188196de2b5-480x222.png 480w "data-src =" https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/use-your-data-driven- phrases-comme-invites-5f188196de2b5.png

Changez la copie en rouge pour voir ce qui se passe lorsque vous ajoutez votre propre invite.

Publicité

Continuer la lecture ci-dessous

7. Réviser et modifier

Une fois que vous avez votre copie, assurez-vous qu'elle a du sens et modifiez ce qui ne l'est pas, ou laissez le modèle générer une autre option.

8. Déployer

Une fois que la copie correspond à la voix, au ton et aux attentes de votre marque, mettez-la sur le site et regardez la pertinence de vos mots clés monter en flèche.

Pouvez-vous faire cela avec du contenu éditorial?

Cela a déjà été examiné par Vox et le New Yorker, mais j'étais curieux à ce sujet lorsque j'ai commencé à écrire ce post.

J'ai donc récupéré tous les articles de blog que j'ai écrits sur le marketing numérique et les ai utilisés pour affiner un modèle GPT-2 en utilisant des paramètres de 355 m.

J'ai pris certains des débuts de phrases que j'ai écrites dans cet article et j'ai cherché ce que cela pourrait me donner.

Voici quelques exemples de ce qu'il crache:

Lorsque j'ai donné une conférence sur l'apprentissage automatique chez SearchLove il y a quelques années, j'ai dit que les référenceurs devraient éviter la création de contenu basée sur le ML, car ce n'était pas assez bon. J'ai également dit à l'époque que les référenceurs devraient éviter d'utiliser des modèles qui ne correspondent pas aux points de vue des personnes auxquelles le contenu est destiné.

J'étais manifestement incroyablement malavisé, et la définition d'un optimiseur se trouve dans ces mots. Cependant, je crois aussi fondamentalement que les résultats de l'utilisation de ces mots sont que nous perdons du temps et que Google a raison d'éliminer les mauvais acteurs.

Je parle longuement de la façon dont je suis arrivé à ce poste, pourquoi j'ai changé d'avis et pourquoi j'ai changé ma recommandation à la fin du mois de juin. Je partage également une arme secrète que j'utilise dans la phase d'incubation de chaque nouveau projet de référencement.

C'est précisément cet intérêt partagé pour le contenu qui nous rend uniques et pourquoi tant de gens nous disent qu'ils veulent nous aider à grandir ensemble. J'imagine que nous avons de nombreuses occasions de partager davantage sur ce que nous proposons ensemble, ou du moins de demander à quelqu'un d'imprimer nos présentations sur tableau blanc.

Publicité

Continuer la lecture ci-dessous

Celui-ci était particulièrement drôle pour moi:

Plus tôt dans ma carrière de SEO, je ne connaissais pas grand-chose à la communauté SEO dans son ensemble, j'ai donc réinventé la roue à plusieurs reprises. J'ai dit que je voulais être un orateur renommé, et je l'ai fait. Je me suis fait beaucoup d'amis pendant que je le faisais. C'était une expérience géniale; J'ai beaucoup appris et de nombreuses personnes avec lesquelles j'interagis aujourd'hui tous les jours sont incroyablement talentueuses.

Mais c'est Internet qui m'a attiré. C'est grâce à l'une de mes toutes premières interactions que j'ai découvert le côté social du référencement.

Mise en production

Un autre point que je souligne dans le film est que Python est génial, mais JavaScript est beaucoup plus facile à mettre en production.

Cela ne veut pas dire que Python est impossible à mettre en production. Cela reflète plutôt la façon dont toutes les piles technologiques des sites Web prennent en charge JavaScript de manière native.

Si le site est une application à page unique, vous pouvez être sûr que NodeJS est configuré et que chaque navigateur moderne exécute JavaScript.

Publicité

Continuer la lecture ci-dessous

Cependant, vous ne pouvez pas être sûr que Python est installé sur le serveur. Si tel est le cas, vous devez créer une API en plus de faire fonctionner les bibliothèques.

Cela dit, le pipeline qui est relativement facile à déployer serait dans spaCyJS avec le module complémentaire de transformateur Hugging Face.

Cela nous donne un accès facile à GPT-2. En fait, spaCyJS est une API NodeJS pour la principale bibliothèque Python de spaCy. En utilisant cela, il n'est pas difficile d'utiliser ce pipeline pour créer un point de terminaison d'API.

Cependant, pour que cela reste aussi simple que possible, nous pouvons créer une API sans serveur à l'aide de Google Cloud Run.

Une fois que vous avez configuré l'API, vous pouvez envoyer du texte sous forme d'invite et récupérer des données.

Vous souhaitez certainement pré-traiter et modifier ce contenu plutôt que de remplir directement sur un site la copie à la volée.

Quelques mises en garde

La chose la plus importante à savoir à propos de GPT-2 est qu'il est formé sur des pages Web, de sorte que le texte généré n'est pas toujours exact sur le plan factuel.

Publicité

Continuer la lecture ci-dessous

Plus vous utilisez de paramètres et plus votre ensemble d'entraînement est grand, mieux cela vaudra.

Voici quelques détails supplémentaires dans lesquels le diable pourrait se cacher:

Ce type de contenu peut être détecté

Lorsque OpenAI a développé la technologie GPT pour la première fois, ils ont dit qu'ils n'allaient pas la publier parce que c'était trop dangereux.

À la manière typique d'Elon Musk, ils ont fait marche arrière, en développant récemment une troisième génération du logiciel qu'ils commercialisent.

Cela dit, il existe également une série d'outils disponibles pour identifier le contenu généré. Voici quelques exemples:

À mesure que ces mécanismes de génération de contenu deviennent plus populaires, il serait logique que les moteurs de recherche envisagent d'utiliser ces bibliothèques de détection dans le cadre de classificateurs de contenu.

J'imagine qu'il est ajouté aux itérations suivantes de l'algorithme Panda si Google détermine que la génération de texte est un problème.

Publicité

Continuer la lecture ci-dessous

Les équipes éditoriales ne sont pas mortes

Natural Language Generation ne supplante pas encore les équipes éditoriales.

À partir de maintenant, vous ne pouvez pas générer de copie et ne pas vous attendre à ce qu'un professionnel de la rédaction l'examine. GPT-2 se concentre sur les probabilités de mots plutôt que sur l'identification de la voix et du ton de la marque.

Vous devez donc l'utiliser comme première ébauche pour que l'équipe éditoriale l'examine et l'ajuste avant de la déployer en direct.

Cependant, il convient de savoir que Google a indiqué que ses algorithmes ne résolvent pas la précision.

Il est possible que les caractéristiques d'un contenu inexact satisfassent aux algorithmes de traitement et de classement.

Vous ne devez pas déployer cette annonce Nauseam

Combattez l'envie de générer des centaines de millions de pages.

Les blocs de contenu tels que ceux-ci sont mieux déployés via des tests A / B pour s'assurer qu'ils ont vraiment un impact positif.

Bien que, encore une fois, il existe des sites qui ont vu des impacts significatifs sur le trafic de trois phrases de copie Madlib, alors qui suis-je pour vous dire de ne pas exploser l'index avec 9 milliards de pages de contenu original, pertinent et potentiellement précieux?

Publicité

Continuer la lecture ci-dessous

Outils dans l'espace NLG

Comme mentionné ci-dessus, les acteurs clés de l'espace de génération de contenu ont toujours été Automated Insights et Narrative Science.

Au moment d'écrire ces lignes, ces entreprises ne font pas ce que j'ai décrit dans cet article.

En fait, les gens de Narrative Science sont activement contre la création à la pointe de la technologie comme GPT-2 parce qu'elle ne génère pas de contenu factuel.

Ce n’est certainement pas une raison pour ne pas utiliser la technologie.

Voici donc quelques autres entreprises dont je suis au courant et qui utilisent une technologie similaire à celle que j'ai décrite ici.

  • InferKit: La personne derrière InferKit avait auparavant un site de démonstration appelé TalkToTransformer qui vous permettait de voir ce que GPT-2 générerait en fonction de l'invite que vous lui aviez fournie. Il a récemment supprimé ce site et créé une API SaaS qui fait exactement ce que j'ai démontré ci-dessus. InferKit vous permet d'utiliser le modèle GPT-2 principal ou de l'ajuster à l'aide du contenu de formation que vous fournissez.
  • OpenAI: L'équipe d'Elon Musk a récemment indiqué qu'elle allait bientôt déployer une API commerciale pour GPT-3.
  • Première ébauche de MarketMuse: Plus près de chez nous, Marketmuse est en orbite autour de l'espace SEO. La société a récemment publié son produit First Draft qui utilise NLG pour des brouillons de 300 à 500 mots, probablement en fonction des briefs de contenu que vous créez.

Vous pouvez certainement vous attendre à ce qu'il y ait beaucoup plus d'entreprises qui apparaîtront dans un proche avenir pour ce type de contenu.

GPT-3 est ici et c'est Incroyable

La dernière version, GPT-3 possède 175 milliards de paramètres où GPT-2 a été formé sur seulement 1,5 milliard de paramètres.

Publicité

Continuer la lecture ci-dessous

Comme vous pouvez l'imaginer, avec autant de bibliothèque de textes à apprendre, c'est encore mieux que ce avec quoi nous venons de jouer.

GPT-3 "width =" 1384 "height =" 1264 "tailles =" (max-width: 1384px) 100vw, 1384px "data-srcset =" https://cdn.searchenginejournal.com/wp-content/uploads/2020 /07/gpt-3--5f1881cf5db55.png 1384w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/gpt-3--5f1881cf5db55-480x438.png 480w, https: // cdn .searchenginejournal.com / wp-content / uploads / 2020/07 / gpt-3--5f1881cf5db55-680x621.png 680w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/gpt-3 --5f1881cf5db55-768x701.png 768w, https://cdn.searchenginejournal.com/wp-content/uploads/2020/07/gpt-3--5f1881cf5db55-1024x935.png 1024w "data-src =" https: // cdn.searchenginejournal.com/wp-content/uploads/2020/07/gpt-3--5f1881cf5db55.png

En fait, ce cas d'utilisation de la génération de contenu pour le référencement est en fait un peu piéton par rapport à ce que les gens découvrent maintenant avec GPT-3.

Dernièrement, ma chronologie est pleine de développeurs qui ont obtenu un accès anticipé à GPT-3; ils l'utilisent non seulement pour écrire une copie, mais pour générer du code et créer des moteurs de recherche.

Publicité

Continuer la lecture ci-dessous

Plus j'y pense, plus le cas d'utilisation de la génération de propagande est alarmant compte tenu des prochaines élections, mais c'est un problème en dehors de ma timonerie.

J'espère qu'il y aura de nombreux cas d'utilisation créatifs qui changeront le Web dans les mois à venir.

Inutile de dire que si vous n'envisagez pas d'utiliser cette technologie, vos concurrents le font et je les encourage à le faire.

Voici l'avenir de ce type de contenu

Au cours des deux dernières années, vous m'avez peut-être beaucoup entendu parler de ce que j'appelle «l'optimisation du contenu technique».

Nous avons exploité des concepts d'analyse de texte tels que l'allocation de dirichlet latent et la reconnaissance d'entité nommée pour informer sur la façon dont nous optimisons les sites et créons du contenu.

Je crois qu’il existe un monde dans lequel les technologies Attention et Transformer sont utilisées contre un SERP ou un corpus du Common Crawl et du modèle de données d’un site donné pour générer le contenu parfaitement optimisé par rapport à une requête.

J'imagine un monde dans lequel vous pourriez intégrer le contenu textuel de chaque page classée pour votre mot clé cible et l'utiliser pour former votre modèle.

Publicité

Continuer la lecture ci-dessous

Ensuite, vous pouvez lui donner une invite et il écrit un contenu qui obtient un score parfait.

À ce stade, cependant, il s'agit uniquement d'algorithmes et d'algorithmes et ce sera à nous les humains de nous démarquer de manière créative.

Il ne s’agit pas de savoir si nous avons ou non les ressources nécessaires pour créer du contenu.

Il s'agira de savoir comment générer du contenu qui pénètre dans les bulles de filtre?

La vraie question est, êtes-vous prêt?

Plus de ressources:


Crédits d'image

Toutes les captures d'écran prises par l'auteur, juillet 2020



Source link

On voit clairement qu’il est vraisemblable de se lancer dépourvu argent et inconscient technique particulière. Je vous conseille de vous lancer rapidement en dropshipping essentiellement ne pas mettre trop d’argent sur votre site. Il vous faut à tout prix avoir un budget marchéage pour accomplir venir les visiteurs sur votre boutique : c’est le nerf de la guerre. Car tel que je l’ai dit, vous pouvez avoir la plus belle boutique. Sans trafic, vous ne ferez ne de chiffre d’affaires. Une que vous allez avoir testé, votre marché vous allez pouvoir alors se payer un stock.