📖

Qu'est-ce que Knowledge Graph ?

Un graphe de connaissances représente des entités du monde réel et les relations entre elles sous forme de réseau de nœuds et d'arêtes, permettant aux machines d'interroger, de relier et de raisonner sur des faits connectés.

Un graphe de connaissances est une manière d'organiser l'information sous forme de réseau d'entités (les choses du monde, telles que des personnes, des lieux, des produits ou des concepts) et des relations qui les relient. Au lieu de stocker des faits dans des tables ou des documents isolés, un graphe de connaissances les relie entre eux de sorte qu'un énoncé comme « Paris est la capitale de la France » soit représenté sous la forme d'un triple structuré : un sujet (Paris), un prédicat (est la capitale de) et un objet (France). Cette structure permet aux logiciels de parcourir les connexions, de suivre des chaînes de signification et de faire émerger des réponses qui vont au-delà de la simple correspondance de mots-clés.

Comment fonctionne un graphe de connaissances

Fondamentalement, un graphe de connaissances est construit à partir de triples exprimés dans un schéma formel, le plus souvent le Resource Description Framework (RDF) ou le modèle de graphe de propriétés utilisé par des bases de données telles que Neo4j. Chaque triple énonce un fait : (Marie Curie) — a découvert — (Radium). Les nœuds portent des propriétés et des types (par exemple, une « Personne »), tandis que les arêtes portent la nature de la relation. Un schéma ou ontologie définit les types d'entités et de relations autorisés, ce qui permet au graphe d'assurer la cohérence et de prendre en charge un raisonnement de base.

La construction suit généralement un pipeline d'extraction et d'intégration. Des documents sources, des bases de données ou des pages web sont analysés, des entités nommées sont reconnues, des relations candidates sont extraites (souvent à l'aide de modèles d'apprentissage automatique), et les résultats sont rapprochés d'un graphe existant pour fusionner les doublons. Des langages de requête comme SPARQL ou Cypher permettent ensuite aux applications de poser des questions en forme de graphe, comme « quels scientifiques ont travaillé dans des institutions financées par X et publié sur Y ? » — ce qui exigerait des jointures coûteuses dans une base de données relationnelle.

Pourquoi c'est important

Les graphes de connaissances offrent aux systèmes d'IA un substrat partagé et explicite de faits sur lequel s'appuyer. Les moteurs de recherche les utilisent pour alimenter des panneaux de réponse directe ; les systèmes de recommandation les utilisent pour trouver des éléments liés grâce à des attributs partagés ; et les grands modèles de langage s'en servent comme source d'informations ancrées et à jour via des techniques telles que la génération augmentée par récupération. En faisant des relations des éléments de premier plan, un graphe de connaissances rend également la provenance et le contexte traçables, ce qui est essentiel dans des domaines comme la santé, la finance et la gestion des connaissances en entreprise, où les hallucinations et les données obsolètes sont des risques réels.

Principaux types

  • Graphes de connaissances ouverts / publics — grands graphes à usage général tels que Wikidata, DBpedia et le Knowledge Graph de Google, construits à partir de sources publiques et utilisés pour enrichir la recherche et les assistants.
  • Graphes de connaissances d'entreprise — graphes privés qui unifient les données internes d'une entreprise (clients, produits, contrats, actifs) pour l'analytique, la conformité et les applications d'IA.
  • Graphes de connaissances de domaine — graphes ciblés sur un domaine spécifique, comme le biomédical (par exemple, UMLS, Gene Ontology) ou la science des matériaux, où le contrôle du vocabulaire et la curation importent plus que la couverture.
  • Graphes de connaissances multimodaux — extensions qui relient des nœuds textuels à des images, de la vidéo ou de l'audio, permettant la récupération et le raisonnement intermodaux.

Quelle que soit sa variante, la caractéristique définitoire d'un graphe de connaissances est que les relations sont aussi interrogeables que les choses qu'elles relient — transformant des faits dispersés en une carte navigable et lisible par machine d'un domaine.

Questions fréquemment posées

What is the difference between a knowledge graph and a database?
A traditional relational database stores data in tables with predefined schemas and relies on joins to connect records. A knowledge graph stores data as a network of entities and relationships, where the connections themselves are first-class and can be traversed directly. This makes knowledge graphs more flexible for highly connected, evolving, or semantically rich data.
How is a knowledge graph different from a large language model?
A large language model (LLM) is a neural network that learns statistical patterns from text and generates fluent responses, but it does not store facts in a structured, queryable form. A knowledge graph is an explicit, curated store of facts and relationships. They are often combined — the graph supplies verified, up-to-date facts while the LLM handles natural-language understanding and generation.
What is retrieval-augmented generation (RAG) and how does it use a knowledge graph?
Retrieval-augmented generation is a pattern in which a model first retrieves relevant information from an external source and then generates an answer conditioned on that information. A knowledge graph can serve as the retrieval source, allowing the system to pull specific entities and relationships rather than raw text passages, which improves precision and makes the grounding of each claim inspectable.
Do small teams need a knowledge graph, or is it only for large companies?
Public knowledge graphs such as Wikidata and DBpedia are freely available, and lightweight graph databases make it practical for small teams to build focused graphs for specific projects. The investment only pays off when the data is genuinely relational and the team needs to query connections directly; for simple structured data, a spreadsheet or relational database is usually sufficient.