Le Sentiment et le Big Data – Les débuts

Tapez « Sentiment » dans un moteur de recherche et vous recevrez toutes les définitions du sentiment et plus particulièrement celle du sentiment amoureux.

le sentiment et le big data les debuts

Cherchez « Sentiment Analyse » : et là plus rien sur la psychologie ou l’introspection, uniquement des sites décrivant ce qu’est l’analyse de texte avec les outils nécessaires pour pouvoir l’effectuer. Plus rien avant la fin de la page 5 du résultat de la recherche qui propose des articles sur les sentiments de culpabilité ou d’insécurité…
Mais qui va jusqu’en fin de la 5 ème page du résultat d’une recherche de nos jours ?

C’est dire l’importance pour les entreprises de l’analyse de toutes les sources écrites de communication disponibles sur Internet qui se sont multipliées avec le Web 2.0 et l’éclosion des réseaux sociaux.

Aujourd’hui l’analyse de sentiment est reliée principalement au marketing.

Comment cela a-t-il commencé ?

Au début des années 2000, les premiers à se pencher de façon systématique sur des contenus écrits pour essayer d’en tirer des prédictions furent les traders et analystes quantitatifs qui opéraient sur les plateformes de tradings algorithmiques. Ils retraitaient déjà le Big Data représenté par toutes les données possibles concernant les instruments financiers qu’ils suivaient : prix, volume de transaction, nombre d’ordres, historique des Datas etc.

Leur course en avant fait qu’ils ont eu besoin rapidement de plus de data pour affiner leurs modèles. Ils ont donc utilisé des sources d’informations idéales : les agences de presse financières, les trois principales étant Bloomberg, Dow Jones et Reuters. A l’époque on parlait de text mining, pas encore de sentiment.

Les flux de dépêches de ces agences avaient pour eux :

  • D’émaner de sources dites fiables,
  • D’être structurés avec des méta tags et dans un langage stable,
  • D’avoir une profondeur historique permettant du backtesting,
  • D’être des flux suffisamment consistants en nombre de dépêches : plusieurs milliers par jour pour chacune des agences,
  • Une écriture homogène c’est à dire factuelle et sans état d’âme si l’on peut dire. Les jugements, l’ironie et autres éléments qualitatifs étant plus ou moins réservés aux éditorialistes dont les articles sont taggués en tant que tels.

Les premiers algorithmes étaient nourris de listes, de mots positifs ou négatifs à rechercher afin de déterminer des signaux faibles qui permettraient d’anticiper l’évolution d’un cours de bourse par exemple. Déjà malgré la qualité du matériel et des moyens mis en œuvre, la complexité était inhérente à l’analyse. Choisissons le mot « guerre » : très bon pour le cours de bourse d’un fabricant de matériel militaire et moins bon pour celle d’un parc de loisirs.

Cela a permis de commencer à créer des outils d’analyse sémantique de plus en plus performants. Puis est arrivé le Web 2.0 avec les réseaux sociaux et la production d’information continue par les consommateurs et non plus uniquement les professionnels que sont les journalistes.

A suivre Le Sentiment et le Big Data – L’évolution

A lire 
Opinion Mining et Sentiment Analysis :

Thierry Cadin, Alliances Business Manager (Altares D&B)

La rédaction
La rédaction
La rédaction est composée de plusieurs collaborateurs du Groupe Altares qui sont spécialisés dans leurs domaines respectifs (data science, data marketing, data intelligence, etc.) et qui partagent l'envie de faire part de leur passion de la Data à nos lecteurs.

Vous aimerez aussi...

X