# Canard PC & Canardpc.com > Canard PC - Le magazine >  Canard PC et ses rédacteurs à l'épreuve de la data science

## Laya

Bonjour tout le monde (Attention pavé).

Ça fait un petit temps que je voulais essayer de voir si on pouvait prédire qui écrivait un article de canard pc et les mots qui le déterminait (j'avais visiblement trop de temps samedi et dimanche matin).
Donc pour cela sur un échantillon d'environ 1000 articles écrits par nos rédacteurs préférés (j'ai pris les rédacteurs actuels, en espérant de pas en avoir oublié) c'est à dire:
Ellen Replay
Ackboo
Ivan Le Fou
Izual
Kahn Lusth
L-F. Sébum
Noel Malware
J'ai essayé de prédire qui écrivait chaque article. (dans le jargon on dit que c'est un apprentissage supervisé, à chaque article j'ai une étiquette correspondant à un redacteur et la machine aprend avec ça).


le point technique : 
Pour quantifier le vocabulaire des rédacteurs et transformer des données textuels en nombres j'ai utilisé ce qu'on appel tf-idf (term frequency, inverse document frequency) (https://fr.wikipedia.org/wiki/TF-IDF).
Ce qui en gros signifie que plus un terme est fréquent dans un texte d'un rédacteur plus il est considéré comme ayant un poids important. A l'inverse plus un mot est présent dans tous les articles (en gros tout le monde l'utilise) moins il a de poids.
Ainsi cela permet généralement de faire ressortir les mots les plus caractéristiques des rédacteurs.
Si on applique ce genre de méthode sur les 1000 articles qui contiennent 38000 mots différents. On obtient une grosse matrice de 1000*38000. C'est ce qui servira à la prédiction.
Ensuite on applique ce qu'on appelle un SVM (séparateurs à vaste marge) qui consiste en gros à séparer des points par des droites (https://fr.wikipedia.org/wiki/Machin...urs_de_support). Ici ce qu'on essaye de séparer c'est les rédacteurs entre eux.


Les résultats:

Ils ne sont pas trop mauvais puisqu'en moyenne l'algorithme arrive à prédire environ 82% de réussite la personne qui a écrit l'article.
Le plus drôle est probablement de comparer les mots qui sont sensé qualifier le plus chaque rédacteur:


-*Ackboo* (prédiction à 92% de réussite par rapport aux autres rédacteurs):

Voici donc les 50 mots ayant le plus d'importance pour dire qu'un article provient de Ackboo (plus le chiffre est haut + le mot a de l'importance):



On remarque visiblement sa prédisposition à parler des "versions" (il semble que ça soit souvent les versions de "windows" ici?). 
Dans les tiques de language visiblement Ackboo aime les mots "vraiment", "exactement", "petit", "pratique" et "probablement".
On remarque ces névroses sur le studio "paradox", pour "kerbal". Il semble aussi fétichiste des "mécanismes" dans les jeux vidéo. 
De manière plus inquiétante l'utilisation du mot "mafia" semble le qualifier aussi. 
Enfin on voit qu'il doit aussi s'occuper de chose technique puisqu'on voit "video", "moniteur", "bureau"...
(Si on remonte un peu plus loin on peut aussi trouver des mots en rapport avec les jeux d'avion ("flight".)

J'ai aussi mis les 20 mots les plus important pour dire que ce n'est pas ackboo, ils sont un peu plus délicat à interpréter, mais en gros ceux sont soit des mots utilisé par tous les autres rédacteurs et commun,
soit des mots utiliser par d'autres rédacteurs en priorité.


- - - Mise à jour - - -

-*Ellen Replay* (prédiction à 97% de réussite par rapport aux autres rédacteurs):




Alors visiblement Ellen a aimé parler de la ville "Estavillo"? et aime découper?? ("chop").
On reconnait son coté sombre avec les mots "devil" et "evil" (bon probablement parce que visiblement c'est elle qui test les "resident" "evil"). Elle semble être une fan de "Conan", ou c'est seulement elle qui en parle.
Niveau language on a pas mal de mots descriptifs : "observation", "villes", "univers", "nature".
Probablement une amatrice de "fromage" (on pourra la rapprocher d'un autre membre plus tard).
On voit aussi qu'elle s'est occuper de la "gamescon" dernièrement.
Enfin les "mamies", les "notes" et les "developpeurs" semblent importants pour elle.
Chose interessante lorsque j'avais testé sur un plus petit échantillon le mot "telltale" ressortait + haut, probablement est-ce elle qui s'occupe des productions telltale dernièrement.

Les mots négatif:



-*Ivan Le Fou*  (prédiction à 96% de réussite par rapport aux autres rédacteurs).
Ivan est probablement le rédacteur le plus simple à prédire (même si le score est plus faible qu'Ellen, c'est dû au fait que moins d'article ont été écris par Ellen). Pour cause ses articles ne sont pas des tests mais des à coté et nous allons voir que le vocabulaire est un peu différent.



On retrouve toute les obsessions d'Ivan :
-Les grands studio: "rockstar", "ubisoft", "blizzard", "nintendo", "activision". (probablement son coté Ivan le Rouge)
-Son amour de grands groupes telle que "webedia", "presstalis".
-Son amour des "canards" et des "abonnements" (et probablement des "millions").
-Son amour des "consoles".
-Sa propension à défendre les prolétaires: "salarié", "sexisme"...

Les mots négatif:



-*Izual* (prédiction à 93% de réussite par rapport aux autres rédacteurs)



Un peu comme Ivan on retrouve les obsessions d'Izual notamment sur les "jeux" de "rôle", et devinez lequel, "Fallout" (c'était d'ailleurs le premier qui ressortait sur des tests avec un échantillon plus petit).
En second "Arma" lorsque izual ne joue pas a fallout et enfin on remarquera un appuis à planescape "torment".
Visiblement Gabe "Newell" semble lui plaire.
Niveau tic de de language on reperera le mot "hélas" symbolisant toute la frustration d'Izual de ne pas retrouver fallout 2 dans les productions actuelles.
Plusieurs mots de la découverte apparaissent : "terrain", "explorer", décor".
Izual est relativement complet, il parle des "combats" et des "dialogues".
Enfin il apparait des mots un peu plus étranges "chauve" (lien avec "hitman"?) et "Evelyn".


Les mots négatif:


- - - Mise à jour - - -

-*Kahn Lusth* (prédiction à 92% de réussite par rapport aux autres rédacteurs)



Alors Kahn Lusth aime expliquer puisque le mot "puisque" est visiblement énormément utilisé de même que "lorsque" et "titre".
On passera sur le mot "rrrrrrrrrrr" qui témoigne de la folie du redacteur (ou son amour pour un film).
Kahn Lusth semble discriminé par ces tic de language plus que par ses obsessions "bref", "surtout", "impression", "moindre, "pratiquement"...
Chose importante il est le seul a parler de banane.
On doit effleurer son gout pour les jeux de plateau avec le mot "régle".
Niveau jeu c'est "Helgatte" et "battlefield" qui remportent la palme.
Il partage une lassitude avec Izual (utilisation de "hélas").
Enfin Kahn Lusth est un homme de sou mais virtuel, il parle volontier de "bitcoin".

Les mots négatif:



-*L-F. Sébum* (prédiction à 92% de réussite par rapport aux autres rédacteurs)



Sébum est prisionnier du passé, sa passion pour "doom" l'emporte sur le reste.
Il aimerait le black métal ("Mayhem")?
C'est lui qui partage une passion commune avec Ellen le fromage illustré par le terme "raclette".
Sebum aime aussi le franglais plus que les autres rédacteurs ("new", "what", "if", "still", "noob"...)
"Anthem" semble l'avoir traumatisé.
Quelques mots sont étranges (il parle de "carrion", "solondz", "baba".
Enbfin ça semble être lui qui s'occupe des duke "nukem" (à rapprocher de "doom")

Les mots négatif:


- - - Mise à jour - - -

-*Noel Malware* (prédiction à 92% de réussite par rapport aux autres rédacteurs)




Noel, pour une raison que j'ignore, semble souvent évoquer des "url".
Il est visiblement le seul interessé par les "dota"-like
Il a l'honneur et la chance de s'occuper de la série des souls ou à defaut d'en parler plus que les autres.
On sent qu'il joue probablement + à la "manette" que les autres rédacteurs.
On reconnait la curiosité de Noel puisqu'il cite visiblement les matryoshka, probablement des connexions données avec Poutine.
L'ombre de redacteur en chef "Sebum" semble ne jamais être loin.
Il semble aussi s'occuper des jeux de "skate".
La poèsie gothique de Noel ressort "jolis", "chanter", "vampire".

Les mots négatif:





Voila, le pavé est fini, si vous voulez d'autres indication, informations normalement je peux les fournir s'il y a d'autres fous qui sont interessés par tout ça.
J'ai probablement oublié des choses, et j'ai les scores pour beaucoup plus de mots qui peuvent être interessant.

----------


## Taï Lolo

C'est marrant, on voit clairement ressortir les licences favorites / obsessions de chacun.

Par contre, je me rends pas compte de la durée que représentent les 1000 articles. On a l'impression que les 3 ou 4 derniers numéros ont beaucoup de poids. C'est assez révélateur pour Ellen : "Estavillo" le nom du plaignant en série, "Chop" du jeu Conan Chop Chop ou encore la "mamie" de la preview de Watch Dogs.

Je m'attendais secrètement à retrouver le "purée" d'ackboo, son "Montargis" ou ses fameux "chiens du Bronx".  :;):

----------


## Marmottas

Concrètement tu as fait comment ?

Tu as chopé les articles sur le site ?

Et les outils qui ont permis de compter les mots ?

Ou alors tu as fait des bâtons ?  ::P:

----------


## Laya

J'ai pris les derniers articles sur le site et du coup si on divise par 7 environ ça fait approximativement 143 articles chacun. Vu que ackboo n'écrit pas seulement des tests ça doit être assez rapidement comblé je suppose. Ellen par exemple n'avait que une 50 ène d'articles.

@Marmottas En python tu as des librairies qui te calcule assez facilement ça ( https://scikit-learn.org/stable/modu...ectorizer.html)

----------


## Jaycie

Tu prends aussi les news dans les "articles" ? Potentiellement ça peut un peu fausser le résultat non ?

----------


## Izual

Fabuleux, merci beaucoup ! C'est une expérience intéressante, pour quelqu'un dont écrire est le métier, d'avoir des données brutes comme ça sur son lexique. D'ailleurs, j'ai lu avec satisfaction la liste des mots qui ne me correspondent pas : "titre" et "gameplay", deux mots que je vomis, sont tout en haut. Sans surprise, Noël vient de me dire que lui au contraire les adore.

Il y a sans doute quelques bugs mineurs : par exemple, je n'écris jamais sur Valve ou Gabe Newell, et "Newell" ressort très haut dans ma liste pour une raison inexplicable. Quant à mes collèguos, le "rrrrrrrrrr" de Kahn Lusth doit venir de son papier culture très inspiré sur les ventilateurs, et le "URL" de Malware vient sans doute du fait que le mot est présent dans ses Cabinets de curiosité, alors que personne d'autre ne l'utilise.

Merci pour ce taf, en tout cas !

----------


## Ivan Le Fou

> Bonjour tout le monde (Attention pavé).
> 
> Ça fait un petit temps que je voulais essayer de voir si on pouvait prédire qui écrivait un article de canard pc et les mots qui le déterminait (j'avais visiblement trop de temps samedi et dimanche matin).


Formidable, merci beaucoup !

----------


## Laya

> Tu prends aussi les news dans les "articles" ? Potentiellement ça peut un peu fausser le résultat non ?


Je crois que le filtre "article" supprime les news (je l'ai utilisé notamment quand j'ai vu que dans le cas de ackboo ça ressortait pas mal), mais il y a des articles assez court dans le tas, des previews, ce genre de chose. Mais clairement si j'avais pu j'aurais essayé de ne sélectionner peut être que les tests, histoire d'avoir une meilleure vision de la chose. Sauf pour Ivan qui n'en a pas, à priori.

Ce que je pourrais faire c'est essayé de prédire un article écrit par la rédaction et sortir les probabilités de qui l'a écrit, parce que j'imagine qu'il ont été écrit surtout par une personne.

@Izual je regarderais ça doit se trouver dans les données pour Gabe.
Si ça vous intéresse j'essayerais de faire ressortir les mots les plus utilisés, je n'ai pas utilisé de seuil en fréquence d'apparition, donc un mot qui n'est utilisé qu'une fois peut ressortir alors qu'il témoigne assez peu de la personne qui l'a écrit.

----------


## Catel

Le Solondz de Sébum doit être Todd, le réalisateur de Happiness et Wiener-Dogg. Un homme qui réalise un film titré "Palindromes" (que je me rappelle avoir vu à Deauville en 2004) fait forcément partie de son univers.

Et Baba is him.

----------


## Kahn Lusth



----------


## Cannes

Même pas surpris que ça vienne de toi haha x) Bon boulot !

----------


## CptProut

Super boulot.

Dommage qu'il n'y ai pas les anciens , je suis curieux des tic de language de pipomantis.

----------


## gros_bidule

Sacré boulot, joli !  ::): 

Du coup maintenant ça y est, on peut mettre les rédacteurs dans des bocaux façon Futurama, et commencer le clonage ? Les pipettes rectales sont prêtes.

----------


## Zodex

> Super boulot.
> 
> Dommage qu'il n'y ai pas les anciens , je suis curieux des tic de language de pipomantis.


"coeur", "mou", "chaud", "choupinou", "10".
De rien.  ::ninja::

----------


## Flad

> "coeur", "mou", "chaud", "choupinou", "10".
> De rien.


"grappin"

----------


## Jeckhyl

Il n'y a pas "juste" dans le vocabulaire d'ackboo ? C'est pourtant un tic de langage courant qu'il est je pense le seul à avoir dans la rédaction (dans le sens "ce jeu est juste magnifique").

----------


## Laya

> Fabuleux, merci beaucoup ! C'est une expérience intéressante, pour quelqu'un dont écrire est le métier, d'avoir des données brutes comme ça sur son lexique. D'ailleurs, j'ai lu avec satisfaction la liste des mots qui ne me correspondent pas : "titre" et "gameplay", deux mots que je vomis, sont tout en haut. Sans surprise, Noël vient de me dire que lui au contraire les adore.
> 
> Il y a sans doute quelques bugs mineurs : par exemple, je n'écris jamais sur Valve ou Gabe Newell, et "Newell" ressort très haut dans ma liste pour une raison inexplicable. Quant à mes collèguos, le "rrrrrrrrrr" de Kahn Lusth doit venir de son papier culture très inspiré sur les ventilateurs, et le "URL" de Malware vient sans doute du fait que le mot est présent dans ses Cabinets de curiosité, alors que personne d'autre ne l'utilise.
> 
> Merci pour ce taf, en tout cas !


Je viens de vérifier il y a bien un Newell dans ce que tu as écrit (ou du moins en dessous) mais ce n'est pas celui auquel on pense.  :^_^:  (ça apparaît dans 3 articles je crois en plus, ça fait bcp de Newell )



> Notez qu'il existe un processus ancien et renommé appelé "Abonnement papier" qui règle facilement ce problème. Sommaire du dossier: 1. La grotte du père Newell 2. Guide de Newell: L'ambiance de Noël 3. Guide de Newell: Copie Conforme 4. Guide de Newell: Jeux de l'année prochaine 5. Guide de Newell: Hardware 6. Guide de Newell: Jouets


dès que j'ai un peu de temps j'ajoute pipomantis et guy moquette et je met en avant les mot utilisé au moins 10 ou 30 fois histoire d'enlever les itérations rares.

@ Jeckhyl
Je n'ai pas vu juste dans le vocabulaire si je met une fréquence minimum d'apparition de 30 par exemple.

----------


## Izual

> Je viens de vérifier il y a bien un Newell dans ce que tu as écrit (ou du moins en dessous) mais ce n'est pas celui auquel on pense.  (ça apparaît dans 3 articles je crois en plus, ça fait bcp de Newell )


Tu es disculpé : le problème vient du site, qui m'attribue la paternité d'articles de, si je ne me trompe pas, L-F. Sébum.

----------


## JPS

> Tu es disculpé : le problème vient du site, qui m'attribue la paternité d'articles de, si je ne me trompe pas, L-F. Sébum.


C'est une sandale !

----------


## Laya

> Tu es disculpé : le problème vient du site, qui m'attribue la paternité d'articles de, si je ne me trompe pas, L-F. Sébum.


Tiens j'en profite pour tester le modèle, j'ai essayé de prédire qui a écrit les articles en les enlevant de l’entraînement et l'algo me dit que c'est  pour chacun des 3 articles:
Ackboo avec une proba de 52% Izual à 11 % et Sebum à 29% 
Ackboo avec une proba de 75% et Sebum à 8% 
Ackboo avec une proba de 72% et Sebum à 13% 

Si c'est Sebum l'algo se trompe, mais comme lot de consolation il arrive en deuxième position.  ::P:

----------


## Jeckhyl

> Je n'ai pas vu juste

----------


## MeL

> le "rrrrrrrrrr" de Kahn Lusth doit venir de son papier culture très inspiré sur les ventilateurs


Je dis peut-être une grosse bêtise mais ce n'est pas lui aussi qui avait produit un test d'un jeu de moto, "entièrement bruité à la bouche" ??

----------


## Aerdalis

Salut Laya

Chouette boulot, très instructif et sûrement très marrant à faire !

Comment as tu préprocessé les données ? As tu viré les mots vides (stop words) ? Cela réduirait la tailles des matrices et du bruit potentiel en supprimant des mots peu porteurs de sens dans tous les cas.

Tu pourrais regarder du côté du stemming/lemmatisation (pour regrouper joueur/joueurs par exemple). Il y a les libs dans NLTK pour ça.

Pour aller plus loin, ce pourrait être marrant de séparer les noms propres : filtrer les mots communs par dictionnaire, ou détecter les noms propres). Et je serais curieux de regarder les chapeaux : le style CPC global et les déviations de style par auteur.

As tu ton code pour récupérer le corpus de données dans un coin genre gitlab ?

----------


## Laya

Les stop words sont supprimés oui. La lemmatisation j'aurais potentiellement pu la faire (je conseille treetagger plutôt que ntlk) mais outre la flemme de l'installation  ::P: , je trouve que garder la conjugaison des verbes ou les pluriels, par exemple, peut être intéressant. D'ailleurs certains stop words pourraient être intéressant, ma liste n'est pas énorme mais des mots comme puisque pourraient y entrer, alors qu'ils peuvent être caractéristiques d'un rédacteur comme on le voit.

Mais j'essayerais peut être la lemmatisation, la stemmatisation je trouve ça trop violent généralement, ça coupe les mots.

Je n'utilise pas git mais j'aurais tendance à ne pas partager un code pour ce genre de données, ça pourrait donner de mauvaises idées.
Généralement pour le crawl je te conseille du scrapy si tu veux faire de gros sites, sinon du selenium ou directement du get avec beautifulSoup, ça fonctionne assez bien.

Mais je vais bientôt relancer pour ajouter d'anciens rédacteurs et supprimer les mots peu utilisés.

----------


## LaVaBo

Si les petites infos cachées dans les captures d'écran de la rubrique sur les utilitaires étaient prises en compte, ackboo aurait une fréquence largement supérieure à tout le reste de la langue française pour les mots "reum" et "pipomantis" (et Izual aurait des problèmes avec la brigade des stup', mais c'est une autre histoire).

----------


## LDiCesare

C'est beau. Bravo.

----------


## Laya

Nouvelles fournée, cette fois avec comme obligation d'avoir 30 répétition minimum (donc en gros soit le rédacteur à utiliser le mot 30 fois dans 30 articles différents, soit 30 fois dans un article, ou un mixte des deux). J'ai ajouter d'anciens rédacteurs, en rouges les mots négatifs (j'ai pris la valeurs absolue donc plus c'est haut + c'est négatif) en vert les mots positifs qui caractérisent le rédacteurs. J'ai regroupé les graphes pour gagner un peu de place.











N'hésitez pas à me dire si vous voyez des incohérences.

ps: j'aime bien le casse tête de netsabes  ::P: 

Par contre pour une raison que j'ignore j'ai raté guy moquette. Faudra que je le fasse aussi

----------


## Wulfstan

Edit : je n'ai rien dit, contrairement au magazine papier, les articles du site sont signés..... (pourquoi ne le sont-ils pas dans le magazine ?)

Petite question : est-ce que ces données te permettent d'identifier les auteurs des articles de la Gamescom du dernier numéro ?  ::): 

C'est plus une curiosité envers l'exactitude de ce processus étant donné que la dernière émission et le style de chaque rédacteur permet déjà de savoir qui est qui.

----------


## elftor

> (Attention pavé)


Un pavé pour l'éternité !

Joli boulot  ::happy2:: 

edit: par contre "grappin" et "pipomantis" je ne vois aucune corrélation. ce canard est un scandale !

----------


## Jokletox

T'entends quoi par "mots négatifs" ?

----------


## Laya

> T'entends quoi par "mots négatifs" ?


Les mots qui n’apparaissent pas spécialement chez le rédacteurs. En gros quand tu vois ces mots ça indique que c'est un autre membre de la rédaction qui a écrit l'article. Donc en gros les mots qui sont utilisé par le reste de la rédaction (ou un rédacteur en particulier) et/ou qui ne sont pas utilisé par le rédacteur.
Ça rejoins ce que disais Izual :



> D'ailleurs, j'ai lu avec satisfaction la liste des mots qui ne me correspondent pas : "titre" et "gameplay", deux mots que je vomis, sont tout en haut.

----------


## Izual

Superbe, cette deuxième fournée. Mais pourquoi Kahn ne dit jamais "jeux" ? Pourquoi, Kahn ? Pourquoi ?

----------


## Jokletox

> Les mots qui n’apparaissent pas spécialement chez le rédacteurs. En gros quand tu vois ces mots ça indique que c'est un autre membre de la rédaction qui a écrit l'article. Donc en gros les mots qui sont utilisé par le reste de la rédaction (ou un rédacteur en particulier) et/ou qui ne sont pas utilisé par le rédacteur.
> Ça rejoins ce que disais Izual :


Ok, je comprends mieux  ::):

----------


## ackboo

Je n'aime pas du tout ça j'envoie une plainte à la CNIL.

Plus sérieusement c'est très marrant à voir, merci pour le travail.

----------


## Laya

Il ne faut pas hésiter à regarder le score aussi en bas. La plupart du temps c'est entre 0 et 2, mais Kahn Lusth par exemple monte vers 2-4 sur les mots "puisque" et "lorsqu" qu'il doit particulièrement utiliser.
Contrairement à Izual, Pipomantis abuse du mot "titre" pour décrire les jeux.

----------


## Ellen Replay

C'est génial, merci beaucoup ! Je suis très contente que le mot « chien » soit présent dans la deuxième fournée, et ça me fait réaliser que je devrais me débarrasser de certains tics langagiers (suremploi du mot « incarner », notamment).

----------


## Catel

> Superbe, cette deuxième fournée. Mais pourquoi Kahn ne dit jamais "jeux" ? Pourquoi, Kahn ? Pourquoi ?


Parce que c'est le chef. Et les chefs, c'est pas là pour s'amuser.  :Tap:  :Halmet:

----------


## olih

> Parce que c'est le chef. Et les chefs, c'est pas là pour s'amuser.


D'un autre coté, il faut se rappeler qu'il faisait aussi (fait encore?) les poubelles de steam. Du coup le non emploi du mot jeu s'impose.  :Indeed:

----------


## Sig le Troll

Quoique, si j'ai bien compris le principe, ce n'est pas nécessairement les mots qu'ils emploient le plus souvent ou le moins souvent, mais les mots qui les caractérisent le plus.

Je vais prendre l'exemple de Fallout (qui en fait n'est pas si bon), quand on le voit, on se dit qu'il y a plus de chances que ce soit Izual que n'importe quel autre rédacteur, peu importe qu'il ait été utilisé une fois ou mille fois.

Tout comme j'ai été étonné de ne pas voir apparaître tronçonneuse.
On a inévitablement (ça, c'est un mot que l'algo me donnerait en positif, on m'a déjà dit que je l'utilisais plus fréquemment que la moyenne XD) des expressions qui sont rattachées à des rédacteurs, même si leur usage est peut-être moins typique/fréquent que l'utilisation d'autres mots moins "remarquables/remarqués". On a une analyse différente à celle d'une machine quand on lit un texte.

Enfin, ça c'est ma compréhension de ce truc. En tout cas, c'était bien amusant.  :^_^:

----------


## Big Foot

Beau travail !  :;):

----------


## Helix

Marrant cet analyse.
Aller, histoire de chercher des poils aux oeufs : Laya, est-ce que tu as fait une validation croisée ?

----------


## atrepaul

Désolé, mais cette analyse a une faille, il manque le mot *"splendide"*, qui est l'indice infaillible qu'il s'agit d'un texte écrit par Ackboo  ::): 
Personne d'autre n'utilise ce mot.  ::P: 
Exemple dans le  numéro 401 page 32.

----------


## Laya

> Marrant cet analyse.
> Aller, histoire de chercher des poils aux oeufs : Laya, est-ce que tu as fait une validation croisée ?


Désolé je viens de voir, non j'ai pas fait de validation croisée, mais à vrai dire j'ai pas trop cherché à optimiser la prédiction.
J'ai d'autre chose en tête qu'il faudra que je teste quand j'aurais du temps  ::P: .

Splendide faudrait que je regarde si ça revient assez haut. si personne d'autre l'utilise il devrait revenir assez haut effectivement.

----------


## atrepaul

S'il n’apparaît pas, c'est peut-être parce que Ackboo ne l'utilise qu'une seule fois par article.

----------


## Izual

Je l'utilise tout le temps, désolé  ::ninja::

----------


## Helix

> Désolé je viens de voir, non j'ai pas fait de validation croisée, mais à vrai dire j'ai pas trop cherché à optimiser la prédiction.
> J'ai d'autre chose en tête qu'il faudra que je teste quand j'aurais du temps .


Pas de soucis. En fait je m'interrogeais sur la véritable capacité de prédiction du bouzin. Si tu as le temps, prends un nouvel article et regarde ce que ta classif te donne à partir de l'apprentissage déjà effectué.

----------


## Laya

> Pas de soucis. En fait je m'interrogeais sur la véritable capacité de prédiction du bouzin. Si tu as le temps, prends un nouvel article et regarde ce que ta classif te donne à partir de l'apprentissage déjà effectué.


Il faudra que je vérifie mais normalement c'est ce que j'ai fait. En faite dans ma tête la validation croisée c'était les types plus complexe genre k-fold cross-validation, mais si j'ai pas trop fait ça à l'arrache j'ai bien fait un train et un jeu de données test et donc vers les 80% de réussite. Faudrait que je regarde les échantillons si c'est représentatif aussi.

----------


## Helix

> Il faudra que je vérifie mais normalement c'est ce que j'ai fait. En faite dans ma tête la validation croisée c'était les types plus complexe genre k-fold cross-validation, mais si j'ai pas trop fait ça à l'arrache j'ai bien fait un train et un jeu de données test et donc vers les 80% de réussite. Faudrait que je regarde les échantillons si c'est représentatif aussi.


Oki. Je n'avais pas vu que tu avais séparé entrainement et test. Si c'est le cas, c'est encore plus amusant comme résultat  :;):

----------


## olih

Ces infos mériteraient tellement une mise à jour  ::love:: 
(Comment ça je remonte le topic, non non  ::ninja:: )

----------


## Laya

> Ces infos mériteraient tellement une mise à jour 
> (Comment ça je remonte le topic, non non )


Je compte bien refaire tourner ça, mais je réfléchis aussi à des améliorations possibles sympas, faut que je vois quand je débloque un peu de temps pour ça.

----------


## Laya

Deuxième saison basé sur un échantillon d'article (entre 50 et 100 pour la plupart) sur pas mal des rédacteurs et anciens rédacteurs (Même méthode qu'expliqué dans le premier post de ce sujet  :;):  ) :
Plus exactement :
Dandu           100 articles
Ellen Replay     87 articles
L-F. Sébum       84 articles
Izual            83 articles
Noel Malware     70 articles
Ackboo           68 articles
Kahn Lusth       64 articles
Maria Kalash     64 articles
Ivan Le Fou      62 articles
oni              55 articles
Netsabes         54 articles
Pipomantis       48 articles

(je peux probablement augmenter l'échantillon si ça intéresse pour une partie des rédacteurs, par exemple si vous avez l'impression que les résultats ne sont pas bons). Sachant qu'il y a pas mal de sections donc ça se trouve par exemple certain rédacteurs sont surtout testés sur leurs news et non sur leurs tests de jeux vidéo.

Normalement c'est basé sur les articles qui viennent sur le site donc probablement par ordre chronologique (les derniers articles).


*Le premier lot** j'ai gardé les mots avec + de 10 utilisations et les mots sans valeur (stop words)*. On va donc potentiellement voir apparaître des mots assez rare (10 utilisations minimum sur + de 50 articles) mais caractéristiques des rédacteurs
La dernière fois j'avais supprimés ces mots car ils ne sont pas porteur de sens, mais cette fois je les ais gardés pour mettre en avant les habitudes des rédacteurs de canards pc. Certains utilisent "on", "vous", "et" d'autres pas du tout etc...
Par exemple visiblement l'utilisation de 'il' ne va pas du tout de paire avec LF Sebum alors que Noel Malware l'utilise très couramment à priori ( en tout cas ça le distingue des autres rédacteurs).

Pour rappelle :
+ la *barre verte est haute +*  c'est caractéristique du rédacteur.
+ la *barre rouge est haute moins*  c'est caractéristique du rédacteur








Le deuxième lot arrive dans le poste suivant

- - - Mise à jour - - -

Suite du topic *au dessus*

*Dans le second lot** j'ai gardé les mots avec + de 30 utilisations et aucun stop words (enfin sur la liste que j'ai)*. On va donc potentiellement voir apparaître des mots + fréquemment utilisé et + porteur de sens caractéristiques des rédacteurs.








N'hésitez pas à demander si vous ne comprenez pas, ou si vous avez d'autre idée à explorer je peux faire assez facilement des graphiques dessus.
Je vais regarder un peu les résultats et voir les performances du modèle en général. (je vais sûrement mettre à jour un peu ce poste).

Pour donner une idée sur l'échantillon que j'ai le *modèle prédit le bon rédacteur dans 88% des cas* environ.
Ça veux dire que si vous lui donner un article au pif de canard pc, il devrait avoir 88% de chance de donner le bon nom du rédacteur qui l'a écrit. (en supposant que mon échantillon est représentatif ce qui peut se contester  ::P: ).

----------


## Izual

Wow, merci pour ce taf !

Et comment ça je suis le seul à dire "perso"  :tired:

----------


## Sylla

Vu que tu parles beaucoup de RPG, c'est logique, non  ::ninja::

----------


## Noel Malware

Ouais merci, c'est trop cool. Par contre je comprends pas : "Zelda" "Breath" "Wild" ? Est-ce un message caché ? Peut-être une danseuse...

----------


## Taï Lolo

> Ouais merci, c'est trop cool. Par contre je comprends pas : "Zelda" "Breath" "Wild" ? Est-ce un message caché ? Peut-être une danseuse...


Je sais pas mais hier, en regardant la 3è image avec les termes de Sebum, j'ai vu des enchaînements rigolos dans sa colonne verte : "horreur digne" et "mérite aux sorcières".

Comment ça, les fans de Doom des satanistes ?  ::ninja::

----------


## Monsieur Cacao

> Wow, merci pour ce taf !
> 
> Et comment ça je suis le seul à dire "perso"


Ya' même pas "Fallout" dans tes verts. Je suis déçu.

----------


## perenoel

J'adore ces analyses :D

Est-ce tu accepterais de refaire tes petites phrases de résumé du genre "tel rédacteur est obsédé par X et apprécie beaucoup Y, en revanche il n'aime pas A et B" ? :D

----------

