지식 그래프란 무엇인가요?

지식 그래프는 실제 세계의 개체와 그들 사이의 관계를 노드와 엣지의 네트워크로 표현하여, 기계가 연결된 사실을 쿼리하고, 연결하고, 추론할 수 있도록 합니다.

지식 그래프는 정보를 개체(사람, 장소, 제품, 개념 등 세상의 사물)와 그것들을 연결하는 관계의 네트워크로 구성하는 방식입니다. 분리된 표나 문서에 사실을 저장하는 대신, 지식 그래프는 이를 서로 연결하여 "파리는 프랑스의 수도이다"와 같은 진술이 주어(주어), 술어(~의 수도이다), 목적어(프랑스)로 이루어진 구조화된 트리플로 표현되도록 합니다. 이러한 구조 덕분에 소프트웨어는 연결을 순회하고, 의미의 사슬을 따라가며, 키워드 매칭을 넘어서는 답변을 제시할 수 있습니다.

지식 그래프의 작동 원리

핵심적으로, 지식 그래프는 형식적인 스키마, 가장 일반적으로는 RDF(Resource Description Framework) 또는 Neo4j와 같은 데이터베이스에서 사용하는 속성 그래프 모델로 표현된 트리플로 구축됩니다. 각 트리플은 하나의 사실을 주장합니다: (마리 퀴리) — 발견함 — (라듐). 노드는 속성과 타입(예: "Person")을 보유하고, 엣지는 관계의 성격을 담습니다. 스키마 또는 온톨로지는 허용되는 개체와 관계의 종류를 정의하며, 이를 통해 그래프는 일관성을 유지하고 기본적인 추론을 지원할 수 있습니다.

구축은 일반적으로 추출과 통합의 파이프라인으로 이루어집니다. 소스 문서, 데이터베이스 또는 웹 페이지가 파싱되고, 명명된 개체가 인식되며, 후보 관계가(종종 머신러닝 모델을 통해) 추출되고, 그 결과는 중복을 병합하기 위해 기존 그래프에 대해 해소됩니다. 그런 다음 SPARQL이나 Cypher 같은 쿼리 언어를 통해 애플리케이션이 "X로부터 자금을 지원받은 기관에서 일하며 Y에 대해 논문을 발표한 과학자는 누구인가?"와 같은 그래프 형태의 질문을 할 수 있습니다. 이는 관계형 데이터베이스에서는 비용이 큰 조인을 필요로 할 것입니다.

왜 중요한가

지식 그래프는 AI 시스템에 참조할 수 있는 공유되고 명시적인 사실의 토대를 제공합니다. 검색 엔진은 이를 활용하여 직접 답변 패널을 구동하고, 추천 시스템은 공유 속성을 통해 관련 항목을 찾는 데 활용하며, 대규모 언어 모델은 검색 증강 생성(RAG)과 같은 기술을 통해 근거 있고 최신 정보를 제공하는 소스로서 이를 사용합니다. 관계를 일급 시민으로 만듦으로써, 지식 그래프는 데이터의 출처와 맥락을 추적 가능하게 만들며, 이는 환각 현상과 오래된 데이터가 실제 위험인 의료, 금융, 엔터프라이즈 지식 관리와 같은 영역에서 매우 중요합니다.

주요 유형

  • 오픈/퍼블릭 지식 그래프Wikidata, DBpedia, Google의 Knowledge Graph와 같이 공개 소스에서 구축되어 검색과 어시스턴트를 풍부하게 하는 대규모 범용 그래프입니다.
  • 엔터프라이즈 지식 그래프 — 분석, 규정 준수 및 AI 애플리케이션을 위해 회사의 내부 데이터(고객, 제품, 계약, 자산)를 통합하는 사설 그래프입니다.
  • 도메인 지식 그래프 — 생물의학(예: UMLS, Gene Ontology)이나 재료 과학과 같이 특정 분야에 초점을 맞춘 그래프로, 어휘 관리와 큐레이션이 범위보다 더 중요합니다.
  • 멀티모달 지식 그래프 — 텍스트 노드를 이미지, 비디오 또는 오디오에 연결하여 크로스 모달 검색 및 추론을 가능하게 하는 확장 그래프입니다.

모든 변형에 있어, 지식 그래프의 결정적 특징은 관계가 그것이 연결하는 사물만큼 쿼리 가능하다는 점입니다. 이는 흩어진 사실을 한 도메인의 탐색 가능한 머신 리더블 맵으로 바꿔줍니다.

이런 글도 좋아하실 거예요

관련 포스트