Um grafo de conhecimento é uma forma de organizar informação como uma rede de entidades (as coisas do mundo, como pessoas, locais, produtos ou conceitos) e as relações que as ligam. Em vez de armazenar factos em tabelas ou documentos isolados, um grafo de conhecimento interliga-os, de modo que uma afirmação como "Paris é a capital de França" é representada como um triplo estruturado: um sujeito (Paris), um predicado (é a capital de) e um objeto (França). Esta estrutura permite que o software percorra conexões, siga cadeias de significado e apresente respostas que vão além da correspondência por palavras-chave.
Como funciona um grafo de conhecimento
No essencial, um grafo de conhecimento é construído a partir de triplos expressos num esquema formal, mais comummente a Resource Description Framework (RDF) ou o modelo de grafo de propriedades usado por bases de dados como o Neo4j. Cada triplo afirma um facto: (Marie Curie) — descobriu — (Rádio). Os nós transportam propriedades e tipos (por exemplo, uma "Pessoa"), enquanto as arestas transportam a natureza da relação. Um esquema ou ontologia define que tipos de entidades e relações são permitidos, o que permite ao grafo impor consistência e suportar raciocínio básico.
A construção é tipicamente um pipeline de extração e integração. Documentos de origem, bases de dados ou páginas web são analisados, entidades nomeadas são reconhecidas, relações candidatas são extraídas (frequentemente com modelos de aprendizagem automática) e os resultados são resolvidos em relação a um grafo existente para fundir duplicados. Linguagens de consulta como SPARQL ou Cypher permitem então que aplicações façam perguntas em forma de grafo, como "que cientistas trabalharam em instituições financiadas por X e publicaram sobre Y?" — algo que exigiria junções dispendiosas numa base de dados relacional.
Porque é importante
Os grafos de conhecimento fornecem aos sistemas de IA um substrato de factos partilhado e explícito a que recorrer. Motores de busca usam-nos para alimentar painéis de resposta direta; sistemas de recomendação usam-nos para encontrar itens relacionados através de atributos partilhados; e grandes modelos de linguagem usam-nos como fonte de informação fundamentada e atualizada através de técnicas como a geração aumentada por recuperação. Ao tornar as relações elementos de primeira ordem, um grafo de conhecimento também torna a proveniência e o contexto rastreáveis, o que é crítico em domínios como a saúde, as finanças e a gestão de conhecimento empresarial, onde a alucinação e dados desatualizados são riscos reais.
Tipos principais
- Grafos de conhecimento abertos / públicos — grafos grandes e de uso geral, como Wikidata, DBpedia e o Knowledge Graph do Google, construídos a partir de fontes públicas e usados para enriquecer a pesquisa e os assistentes.
- Grafos de conhecimento empresariais — grafos privados que unificam os dados internos de uma empresa (clientes, produtos, contratos, ativos) para análise, conformidade e aplicações de IA.
- Grafos de conhecimento de domínio — grafos focados num campo específico, como o biomédico (por exemplo, UMLS, Gene Ontology) ou a ciência dos materiais, onde o controlo de vocabulário e a curadoria importam mais do que a amplitude.
- Grafos de conhecimento multimodais — extensões que ligam nós de texto a imagens, vídeo ou áudio, permitindo recuperação e raciocínio entre modalidades.
Em todas as suas variantes, a característica definidora de um grafo de conhecimento é que as relações são tão consultáveis quanto as coisas que ligam — transformando factos dispersos num mapa navegável e legível por máquina de um domínio.