Exploiter la puissance des LLM libre de droits pour les données privées dans le secteur minier

Résumé – TLDR

  • Un Grand modèle de langage (LLM) peut effectuer diverses tâches, comme la génération de texte. Il est aussi possible d’être multimodal (texte, images, audio). 
  • Les LL peuvent être intégrer autant sur le cloud qu’On-premise (serveur sur site) 
  • Utiliser des LLMs commerciaux comme ChatGPT, Claude, et Gemini peut être pertinent en autant d’encadrer l’utilisation avec une politique interne claire. 
  • Il est important de vérifier les informations, car un LLM peut faire des hallucinations. 
  • Les avantages pour l’industrie minières sont nombreux dont  
    • Optimisation des opérations et amélioration de la sécurité grâce à l’analyse des données. 
    • Extraction d’informations précieuses à partir de diverses sources de données. 
    • Générer des rapports comme : analyse des incidents de sécurité, aide à la formation, gestion des risques environnementaux, optimisation de la performance. 


Pour ceux qui ont le temps de lire, le voici.


Qu’est ce qu’un LLM? 

Un grand modèle de langage (LLM, pour “Large Language Model”) est un type de modèle d’intelligence artificielle conçu pour un éventail de tâches, allant de la classification simple, à la génération de texte de manière très avancée. Imaginez un outil qui a lu des millions de livres, articles et sites web, et qui peut utiliser cette connaissance pour écrire des textes, répondre à des questions ou même tenir une conversation. Ces modèles utilisent des algorithmes sophistiqués pour identifier des motifs dans le langage et prédire les mots ou phrases qui viennent ensuite. Ils sont appelés “larges” parce qu’ils traitent d’énormes quantités de données et de paramètres pour fonctionner efficacement. À terme, un LLM peut agir comme un assistant virtuel très intelligent capable de travailler avec du texte de manière presque humaine. 

Même si le langage est central aux LLMs, il existe également des LLMs multimodaux qui ne sont pas seulement limités aux données textuelles, mais qui peuvent traiter d’autres types, comme des images et de l’audio. 

Sur le site ou sur le nuage? (dans les nuages?)

Utiliser un LLM “on premise” (sur site) plutôt que sur le cloud présente plusieurs avantages importants, surtout pour les entreprises sensibles à la sécurité et à la confidentialité des données comme une minière.

Sécurité des données : En gardant les données sur site, on limite les risques de fuites ou de piratages qui peuvent survenir lors du transfert de données vers et depuis le cloud. Cela est particulièrement crucial pour les entreprises qui manipulent des informations sensibles.

Confidentialité : Les données restent dans l’entreprise et ne sont pas exposées à des tiers. Cela aide à protéger la propriété intellectuelle et les informations confidentielles.

Contrôle total : L’entreprise a un contrôle total sur son infrastructure et ses données. Elle peut personnaliser et optimiser le modèle en fonction de ses besoins spécifiques sans dépendre d’un fournisseur de services cloud.

Performance : Les modèles LLM peuvent être très gourmands en ressources. Dépendamment de la taille de l’entreprise, en les hébergeant sur site, on peut minimiser les latences (la latence du réseau est le délai de communication réseau. Elle indique le temps nécessaire au transfert des données sur le réseau.) et optimiser les performances en fonction de l’infrastructure disponible.

En résumé, avoir un LLM sur site permet de mieux protéger et contrôler les données tout en optimisant les performances et en répondant aux besoins spécifiques de l’entreprise.

Oui, mais ChatGPT, Claude et Gemini?

Utiliser un LLM commercial public comme ChatGPT ou Gemini en entreprise de manière sécurisée et sans compromettre la confidentialité des données est possible en se concentrant sur des applications courantes et à faible risque comme par exemple:

Rédaction de contenu : Ces outils peuvent aider à rédiger des articles, des rapports, des courriels ou des publications sur les réseaux sociaux. Ces tâches peuvent être accomplies sans divulguer des données confidentielles si on ne les inclut pas lors de la rédaction.

Brainstorming et idéation : Ces outils peuvent être utilisés pour générer des idées créatives, suggérer des solutions ou aider dans les sessions de brainstorming, sans compromettre la sécurité des informations.

En utilisant ChatGPT ou Gemini pour ces types d’applications, les entreprises peuvent bénéficier de ses capacités tout en maintenant un haut niveau de sécurité et de confidentialité des données.

Il est à noter que des versions entreprises de ces outils sont disponibles et disposent de termes et conditions plus sécuritaires pour les données qui lui sont envoyées. Rien n’est à toute épreuve et les conditions peuvent changer dans le temps sans que ce ne soit très explicite. Il est donc fortement recommandé d’être attentif et que l’utilisation de ces outils en entreprise soit encadrée d’une politique claire.

Ce qui est très important de bien comprendre c’est que l’information fournie par ces tiers peut être totalement ou en partie fausse et il faut être capable de juger le contenu généré et comprendre à partir de quoi il est généré. Donc des applications d’idéation ou de rédaction sont idéales pour ce genre d’outils dans leur état actuel.

Les entreprises ont accès à différentes méthodes de travail et politiques pour régir l’utilisation des LLM en ligne. Il est probable que ces outils soient utilisés déjà dans la plupart des entreprises et ce de façon non régit, car ils sont très utiles et permettent de haut gain en efficacité sur certaines tâches. Il est donc très important d’établir une politique interne et de mettre en place des moyens d’offrir ces solutions tout en protégeant vos données et vos secrets.

Des hallucinations?

L’hallucination des LLMs (modèles de langage de grande taille) se produit lorsqu’ils génèrent des informations incorrectes ou inventées qui semblent plausibles, mais ne sont pas basées sur des données réelles. En d’autres termes, c’est comme si l’IA “imaginait” des réponses au lieu de se baser sur des faits.

Exemple vulgarisé :

Imaginez que vous demandez à un ami des conseils sur un livre, et au lieu de dire “je ne sais pas” ou de chercher des informations, il invente des détails sur le livre. L’ami pourrait dire que le livre parle d’un dragon et d’un pirate alors qu’en réalité, le livre n’a rien à voir avec ça. C’est ce qu’on appelle une “hallucination” dans le contexte des modèles de langage.

Pourquoi cela arrive-t-il ?

Les LLMs, comme ChatGPT et Gemini, sont formés sur d’énormes quantités de texte provenant d’Internet. Ils apprennent à prédire les mots qui viennent après une séquence de mots donnés, mais ils ne comprennent pas vraiment le monde comme le ferait un humain. Parfois, pour s’assurer de donner une réponse complète, ils peuvent générer des informations qui ne sont pas correctes.

Comment éviter cela ?

Pour minimiser les risques reliés aux hallucinations, il est important de vérifier les informations fournies par l’IA, surtout si elles sont utilisées dans des contextes critiques ou nécessitant une grande précision. Utiliser l’IA pour des tâches où les erreurs sont moins graves, comme la génération d’idées ou l’assistance à l’écriture, peut aussi aider à éviter les problèmes liés aux hallucinations.

Libre de droits

Un modèle de langage de grande taille (LLM) libre de droits offre plusieurs avantages par rapport à un modèle commercial. Premièrement, il permet une transparence totale, permettant aux chercheurs et développeurs de comprendre et d’améliorer le modèle. Deuxièmement, il favorise l’innovation collaborative, car la communauté peut contribuer à son amélioration et à l’adaptation du modèle à divers besoins spécifiques. De plus, les modèles libre de droits sont souvent gratuits, ce qui réduit les coûts pour les entreprises et les particuliers qui souhaitent les utiliser. Un autre avantage crucial est la possibilité de déployer le modèle sur site, offrant ainsi un contrôle total sur les données et les opérations, ce qui est particulièrement important pour les entreprises avec des exigences strictes de confidentialité et de sécurité.

Le secteur minier

Dans le secteur minier, la gestion efficace des données est cruciale pour optimiser les opérations, améliorer la productivité et garantir la sécurité. Cependant, les entreprises minières sont souvent confrontées à des défis liés à la collecte, à l’analyse et à l’exploitation des données provenant de diverses sources, telles que les systèmes ERP (Enterprise Resource Planning), GMAO (Gestion de la Maintenance Assistée par Ordinateur) et les formulaires remplis par le personnel sur le terrain. Si elles sont avancées dans leur numérisation, les entreprises possèdent des outils de numérisation d’inspections et de données terrain comme Stelar ou autre.

Les données collectées via les formulaires remplis par le personnel sur le terrain sont souvent sous-utilisées. En appliquant des techniques de traitement du langage naturel à ces formulaires, les entreprises peuvent extraire des informations précieuses sur les conditions de travail, les incidents de sécurité et la performance des équipes. Cela permet d’améliorer les pratiques opérationnelles et de renforcer la sécurité sur les sites miniers. Il est ensuite possible de croiser ces données avec les dépenses du ERP, les maintenances de la GMAO et la condition des actifs dans le système d’intégrité des actifs. Plus les données générées et reçues par l’entreprise seront numérisées et stockées de façon constante et structurée, plus il sera possible de tirer profit de celles-ci.

Voici quelques exemples de rapports qui pourraient être générés à partir d’une telle solution en plus des rapports provenant directement de chacun des systèmes:

  • Analyse des incidents de sécurité (SST)
    À partir d’historique de rapports d’incidents (description, date, équipement impliqué, conditions externes, photos) et de la documentation des politiques et procédures de sécurité, générer une synthèse des incidents, de leurs causes récurrentes et des mesures correctives mises en place. Basé sur les politiques et procédures internes, suggérer des améliorations pour la prévention et la formation des employés. Évaluer la conformité aux politiques et procédures internes.
  • Aide à la formation
    À partir de l’historique des rapports/bons de travail, de maintenance, d’inventaires d’équipements, et de fiches techniques d’équipement, générer un plan de formation, manuels de formation et des procédures de maintenance pertinentes.
    Assister les nouveaux talents en temps réel à l’aide d’une application de clavardage ciblée sur du contenu spécialisé.
  • Gestion des risques environnementaux
    À partir de photos et de journaux de terrain, estimer la conformité des opérations en se basant sur des normes documentées. Générer une synthèse journalière des non-conformités probables pour analyse subséquente par un expert (pré-filtrage et triage par sévérité).
  • Optimisation de la performance
    Pour minimiser les arrêts non prévus, faire une synthèse des types d’équipements qui nécessitent un suivi plus régulier basé sur l’historique de maintenance (bon de travails, rapports).

Les LLMs sur site peuvent permettre d’interroger ces différentes sources de données d’un seul coup. Comme pour les outils en ligne, il faut rester vigilant, car bien que le travail soit grandement accéléré, ces outils peuvent commettre des erreurs et des hallucinations.

Flexibilité et évolutivité

Un avantage majeur de l’utilisation de modèles LLM libre de droits est leur flexibilité et leur capacité à évoluer avec les besoins changeants de l’entreprise. Les entreprises peuvent continuellement affiner et améliorer ses modèles en fonction des nouvelles données et des retours d’expérience, sans dépendre de solutions propriétaires coûteuses. (ABL: éventuellement ce serait intéressant d’avoir une comparaison de prix open source hébergé on premise vs propriétaire sur le cloud)

Conclusion

L’utilisation de modèles de langage de machine open source offre un potentiel énorme pour exploiter les données sur site dans le secteur minier. En intégrant et en analysant les données provenant de l’ERP, de la GMAO et des formulaires terrain, les entreprises minières peuvent non seulement améliorer leur efficacité opérationnelle, mais aussi découvrir de nouvelles opportunités d’innovation et de croissance.

Plus sur le SymbioLab

Numérisation de formulaire papier avec l’IA

Nous proposons un guichet de numérisation automatique des formulaires papier capable de lire les questions et les réponses, de consigner les réponses dans une base de données structurées et de transférer les résultats de formulaire dans les systèmes demandés.

Read more >

Concrétiser un plan numérique

Il n’y a aucune recette magique pour concrétiser un plan numérique. Il faut de la volonté et de la détermination sans toutefois se soustraire aux logiques d’affaires. Ici, nous lançons une thèse de travail, elle peut servir de base et plusieurs leçons apprises parsèment la démarche.

Read more >