디지털서비스마켓 씨앗

씨앗소식

씨앗 이슈리포트
[2021-08] 디지털서비스 이슈리포트 03 방대하고 복잡한 데이터를 시각화하는 그래프 데이터베이스 시장 현황과 분석 상세보기
[2021-08] 디지털서비스 이슈리포트 03 방대하고 복잡한 데이터를 시각화하는 그래프 데이터베이스 시장 현황과 분석 게시글 정보입니다.
2021.08.30 09:16 (수정 : 2021.08.30 10:43)
[2021-08] 디지털서비스 이슈리포트 03 방대하고 복잡한 데이터를 시각화하는 그래프 데이터베이스 시장 현황과 분석
03 방대하고 복잡한 데이터를 시각화하는  그래프 데이터베이스 시장 현황과 분석

최근 몇 년 동안 데이터 환경이 크게 바뀌었다. 다양한 소스에서 구조화된 데이터와 구조화되지 않은 데이터가 모두 생성되고 있다. 애플리케이션과 서비스는 그 어느 때보다 더 자주 애자일 방법론으로 개발되고 있으며 데이터 변경은 빠르고 중요하다. 또한 확장성 요구사항도 매우 중요한 데, 관계형 데이터베이스 관리 시스템(RDBMS)은 이러한 모든 문제를 처리하도록 설계되지 않았다. 따라서 기업들은 새로운 데이터 요구사항에 더 적합한 NoSQL 데이터베이스 솔루션을 사용한다. 그래프 데이터베이스는 NoSQL 데이터베이스 제품군에 속한다. 최근 몇 년 동안만 존재했으며 일반적으로 다대다 관계로 연결된 고도로 연결된 데이터를 저장하고 질의하는 데 사용한다. 따라서 그래프 데이터베이스 시장 현황과 각 공급업체들의 특징에 대해 자세히 분석한다.

그래프 DBMS 플랫폼 시장 현황과 분석

앞서 그래프 DBMS에 관한 관심과 활용이 꾸준히 증가하고 있다고 했는데, 그 증거로 2019년 가트너의 운영 데이터베이스 관리 시스템을 위한 매직 쿼드런트(Magic Quadrant)의 설문 조사 응답자 501명 중 27%가 이미 그래프 DBMS 플랫폼을 사용하고 있다고 보고했다. 추가로 20%는 2020년 안에 계획이 있고 그래프에 대한 가트너의 DBMS 분석가에 대한 문의가 많이 증가했다고 한다.1)

또한 가트너의 ‘2019년 조직 안에서의 인공지능’ 설문 조사에 따르면 설문에 응한 조직의 20% 이상이 인공지능 개발에 그래프 기술을 활용하고 있었다. 따라서 이들 공급업체는 수익과 세일즈 파이프라인이 계속해서 성장하고 클라우드 배포가 증가함에 따라 그래프 데이터베이스 활용 추세가 더욱 가속화됨에 따라 가시성이 극적으로 증가했다. 클라우드서비스 제공업체(CSP)는 자체 DBMS에 그래프 기능을 추가하고 Neo4j와 같은 경쟁력 있는 제품을 플랫폼에서 사용할 수 있도록 하고 있다.

그리고 또 하나의 추세는 신규 DBMS 배포는 클라우드서비스가 지배한다. 주도적인 공급업체 모두가 아직 그래프 DBMS 공간에서 적극적으로 경쟁하고 있는 것은 아니지만 이 분야가 성장함에 따라 달라질 것이다. 가트너는 전체 DBMS 시장에서 클라우드로 인한 수익의 비율이 2023년까지 50%를 초과할 것으로 예상한다. DBMS 시장 전반에서 보이는 트렌드는 클라우드 DBMS 시장에서도 나타나고 있다. 두 경우 모두 수익의 거의 85%가 소수의 지배적인 공급업체에서 발생한다.

기존 클라우드서비스 공급업체가 시장 점유율을 차지하기 시작하면서 파트너와 경쟁해야 하는 소규모 공급업체에 강력한 장벽이 되고 있다. 다른 전문 시장과 마찬가지로 소규모 공급업체들이 기업용 지식 그래프, 도메인 솔루션 또는 데이터 분석, 인공지능과 같은 특정 요구사항에 민첩하게 집중할 수 있는 능력을 갖추고 있고, 이러한 특별한 기능들이 리드를 유지하는 데 도움이 된다. 그러나 소규모 공급업체도 다른 시스템과의 통합에 중점을 두고 엔터프라이즈 수준의 준비 상태를 입증해야 한다.

2019년 전체 DBMS 시장 역학 조사 (출처: 가트너)


그림 1 2019년 전체 DBMS 시장 역학 조사 (출처: 가트너)

그래프 DBMS 도구에 제품을 추가하기로 선택하는 것은 기존 제품의 기능 평가로 시작해야 한다. 그래프 DBMS 전문 플랫폼은 데이터 시장 중심이 일부 데이터를 온프레미스로 유지하는 하이브리드 배포 기능에 기대어 차별화를 입증해야 한다. 다시 말해, 새롭고 다른 기술이 데이터 및 분석 포트폴리오의 일부가 되어야 하는 이유를 명확하게 설명해야 한다. 향후 그래프 DBMS에서 추가로 업그레이드 분야는 다음과 같다.

  • 규모 - 병렬 계산, GPU 활용
  • 로우코드/노코드 질의 및 스키마 개발
  • 애플리케이션 개발을 위한 플랫폼 제공
  • 데이터 변환 및 수집
  • 그래프 시각화
  • 그래프 데이터 모델을 위한 모델 옵스

이러한 첨단 기능을 개발하고 시장에 출시하고 지원하려면 상업적 성공과 투자가 반드시 필요하다. 데이터 및 분석 리더 그룹은 그림8에 나열된 공급업체와 같은 충분한 규모와 운영 효율성을 달성할 수는 없다는 점을 인식해야 한다. 따라서 앞으로도 자본력이 막강한 빅테크 업체들이 전문적인 공급업체들과 기업 또는 기술 합병이 일어날 것으로 예상한다.

포레스트 리서치가 평가한 그래프 데이터 플랫폼 Q4 2020 (출처: 포레스트 리서치)


그림 2 포레스트 리서치가 평가한 그래프 데이터 플랫폼 Q4 2020 (출처: 포레스트 리서치)

그래프 DBMS 시장에는 다른 전문 플랫폼 포트폴리오 내에서 제품을 포지셔닝하는 기존 공급업체 및 클라우드 제공업체뿐만 아니라 비교적 새로운 도전자 그룹들이 있다. 일부는 온프레미스에서 사용할 수 있고, 일부는 클라우드에서, 일부는 둘 다에서 사용할 수 있다.

포레스트 리서치는 27개의 메이저 그래프 데이터베이스 플랫폼 업체들을 리더(Leader), 강력한 성과자(Strong Performers), 경쟁자(Contenders) 및 도전자(Challengers)와 같이 4가지 그룹이 나누었다. 리더 그룹은 Neo4j, AWS 넵튠, 타이거그래프, 오라클과 MS 애저 코스모DB 등이며, 강력한 성과자 그룹들은 Franz사의 알레그로 그래프, 아랑고DB이다.2) 그렇다면 좀 더 이러한 공급업체들의 그래프 데이터베이스 플랫폼이 어떠한 특징을 가지고 있는지 살펴보도록 하자.

클라우드서비스의 그래프 데이터베이스 지존, 넵튠(Neptune)

AWS 넵튠은 완전 관리형 고성능 그래프 데이터베이스를 지원하고 광범위한 복잡한 관계 모음을 확장 가능한 서비스로 저장하도록 설계되었다. 지식과 복잡한 네트워크를 그래프로 표현하기 위한 다양하고 진화하는 표준을 지원하며 최근에 지원되는 광범위한 API에 그래프 스토어 프로토콜, 오픈사이퍼, 넵튠 ML 및 팅커팝 그렘린에 대한 지원을 추가했다.3)

AWS 클라우드에서 실행되는 넵튠은 점점 더 경쟁이 치열해지는 그래프 데이터베이스 분야에서 중요한 새 서비스이다. 특히, 그래프 데이터베이스를 포함하여 개발자, 엔지니어 및 설계자의 요구를 지원하는 가장 다양한 데이터베이스를 보유하고 있다. 나아가 아마존은 인공지능 서비스인 세이지메이커에서 AWS 넵튠으로 인공지능 루틴을 통합하는 데 주력하고 있다. 따라서 데이터를 저장하고 분석하는 하이브리드 도구를 만들기 위한 것이다.

또한 그래프 데이터베이스는 데이터베이스에 표시될 수 있는 개체, 사람, 아이디어 또는 기타 엔티티 간의 관계에 대한 대규모 컬렉션을 저장한다. 관계형 데이터베이스는 데이터 레코드 필드 및 일대다 연결에 적합하지만 그래프 데이터베이스는 누가 누구인지 알고 있는 소셜 네트워크 및 어떤 아이디어가 다른 아이디어와 연결되어 있는지 알 수 있는 콘셉트 네트워크와 같은 다대다 관계를 추적하는 데 최적화되어 있다. 예를 들어, 넵튠의 그래프 데이터베이스 모범 사례는 다음과 같다.

  • 1. 사기 탐지: 범죄 행위는 종종 예측 가능한 패턴에 속하며 그래프 데이터베이스는 이벤트 간의 연결을 기반으로 패턴을 찾는 데 유용하다. 예를 들어, 동일한 물리적 또는 IP 주소를 사용하는 일련의 불량 이벤트는 정밀 조사를 위해 동일한 주소로 향후 이벤트에 플래그를 지정할 수 있다.
  • 2. 추천 엔진: 그래프가 유사한 항목을 연결할 수 있는 경우 간단한 알고리듬은 사용자가 이 링크를 따라 새로운 친구를 찾거나 잠재적인 구매를 하는 데 도움을 줄 수 있다.
  • 3. 지식 그래프: 보다 정교한 옵션 중 하나는 추상적인 아이디어, 생각 및 개념 간의 관계 네트워크를 만드는 것이다. 따라서 보다 정교한 검색 알고리듬, 언어 번역 또는 방대한 데이터의 검색 형태 인공지능을 위한 기반으로 상호 작용할 수 있다.
  • 4. 자금세탁 감시자: 일부 규정은 금융 기관에 범죄 예방을 위해 통화 흐름을 추적하도록 요구한다. 그러므로 그래프 데이터베이스는 거래를 모델링하고 순 흐름을 감지하기 위한 자연스러운 서비스이다.
  • 5. 접촉자 추적: 역학자들은 사람들이 언제 어떻게 만나고 상호 작용하는지 추적하여 질병의 확산을 통제하기 위해 종종 노력한다. 그래프 데이터베이스에는 여러 단계를 통해 흐름을 추적하는 알고리듬이 있는 데 그것을 활용하면 접촉자 추적에 많은 도움을 준다.
AWS 넵튠의 지식 그래프 사용 예 (출처: AWS 넵튠)


그림 3 AWS 넵튠의 지식 그래프 사용 예 (출처: AWS 넵튠)

넵튠은 그래프 데이터 처리를 위한 속성 그래프와 '자원 기술 프레임워크(RDF: Resource Description Framework)'와 같은 두 가지 주요 개념 모델과 각각에 대한 다양한 질의 언어를 지원한다. 사용자는 데이터베이스 테이블을 생성할 때 특정 모델을 선택할 수 있지만 생성 후에는 쉽게 교체할 수 없다. 또한 개발자는 넵튠으로 작업할 수 있는 아파치 팅커팝 프로젝트에서 속성 그래프 데이터에 액세스하기 위한 그렘린과 Neo4j 데이터베이스에서 속성 그래프 데이터를 질의하기 위한 오픈사이퍼, W3C에서 RDF 데이터 검색을 위한 SPARQL, Neo4j의 오픈사이퍼 프로토콜의 바이너리 버전인 볼트 등과 같은 다양한 옵션을 제공하는데, 데이터를 삽입하거나 질의할 수 있다.

또한 소프트웨어를 설치하거나 소프트웨어를 효과적으로 확장하는 복잡성을 대부분 숨기기 위해 다른 아마존 데이터베이스처럼 설계되었는데, 넵튠은 데이터를 복제하여 데이터 센터 및 가용성 영역에서 읽기 전용 복제본을 만든다. 백업은 S3 버킷에 자동으로 트리거될 수 있고, 노드가 실패하면 다른 복제본이 자동으로 인계할 수 있다. 넵튠 가격은 컴퓨팅 성능과 스토리지 양, 질의 수 등 사용량에 따라 크게 달라진다. 무료 데이터 전송량이 있지만 첫 테라바이트 이후에는 볼륨에 따라 가격이 측정된다.

한편, 넵튠은 세이지메이커와의 통합함으로써 머신러닝 도구가 그래프 노드와 엣지를 속성 및 연결된 노드 또는 엣지의 속성에 따라 분류할 수 있는 기회를 제공한다. 또한 데이터셋 기반으로 가장 가능성이 높은 연결을 결정할 수 있어 예측 경로를 제공할 수 있다. 따라서 넵튠 머신러닝을 탑재한 애플리케이션에는 그래프 모델로 변환된 지리 데이터를 통해 경로 또는 경로 찾기와 같은 실제 세계의 작업을 포함한다. 지식 합성과 같은 더 추상적인 다른 작업은 텍스트 또는 개념적 네트워크로 구축된 그래프 모델에 의존한다.

마지막으로 넵튠이 모든 분야의 만병통치약은 아니다. 프로퍼티 그래프 및 RDF에 대한 지원은 넵튠이 두 아키텍처를 모두 사용하는 프로젝트를 포함하여 많은 프로젝트에 광범위하게 적용할 수 있다. 그러나 지원이 완전하지 않으며 다양한 표준의 모든 기능을 제공하지 않는다. 예를 들어, RDF 데이터에 대한 추론 질의는 성능 저하로 인해 아직 사용할 수 없다. 클라우드서비스로만 사용할 수 있는 AWS 넵튠은 핵심 소프트웨어를 오픈소스 배포로 사용할 수 없고 개발자가 로컬 버전을 실행하거나 AWS 하드웨어에서 이동할 수 없기 때문에 오로라와 같은 AWS 타 DB 제품과도 다르다.

리더 그룹으로 위치해 있는 빅테크 DBMS 업체들의 전략

마이크로소프트, 오라클과 SAP 같은 거대한 데이터베이스 업체들은 기존 데이터베이스에 다른 유형의 테이블로 그래프 기능을 추가하는 전략으로 네이티브 그래프 DBMS 업체들과 경쟁하고 있다.

첫 번째, 마이크로소프트는 애저 SQL, SQL 서버 및 애저 코스모 DB의 3가지 제품으로 그래프 기능을 제공한다. 클라우드에서 관리형 서비스로 배포되는 비 관계형 다중 모델 DBMS인 애저 코스모 DB 서비스에 속성 그래프 모델링 기능을 추가했다. 애저 코스모 DB는 속성 그래프 모델을 제공하고 아파치 2.0 라이선스를 준수하는 오픈소스인 그렘린을 질의 언어로 지원한다.4) 따라서 애저 코스모 DB는 프로비저닝된 처리량 용량과 서버리스 형태의 요청당 지불 소비하는 두 가지 가격 모델을 선택하여 제공한다.

애저 코스모 DB 그래프 API PaaS (출처: 마이크로소프트)


그림 4 애저 코스모 DB 그래프 API PaaS (출처: 마이크로소프트)

그래프가 있는 애저 코스모 DB를 사용하면 모든 종류의 애플리케이션을 빌드할 수 있다. 따라서 사용자가 애저의 지리적 영역에서 컴퓨팅 및 스토리지를 탄력적으로 확장할 수 있도록 하는 전 세계적으로 분산된 다중 모델 데이터베이스이다. 탄력적인 스토리지 및 처리량 규모, 다중 문서 생산성 트랜잭션, 자동 인덱싱 및 질의, 튜닝 가능한 일관성 수준 등을 지원하는 완전 관리형 그래프 데이터베이스이다.

시각적 디자인 질의 도구는 그렘린 에코시스템에서 가져와 그렘린을 사용하여 질의를 작성하여 자동으로 복제되는 노드를 검색할 수 있고, 노드 및 그래프 객체를 SQL 서버에 추가하여 다른 관계형 데이터와 함께 그래프 정보를 저장할 수 있도록 했다.

또 다른 애저 코스모 DB는 그렘린을 사용하여 큰 그래프를 효율적으로 모델링, 질의를 트래버스 해야 하는 애플리케이션에 그렘린 API를 제공한다. 따라서 플랫폼의 손쉬운 확장, 고객지원, 지리적 분포 기능, 자동 확장 기능, 다중 질의 API, 비용 효율성 및 빠른 가치 실현 시간을 할 수 있다. 또한 미션 크리티컬 트랜잭션 애플리케이션, 데이터 과학, 지식 그래프, MDM, Customer 360 및 소셜 네트워크에 애저 코스모 DB를 사용한다.

두 번째, 오라클의 솔루션은 오라클의 주요 데이터베이스 우산 아래에서 속성 그래프 또는 RDF 데이터를 모델링할 수 있다. 질의 언어에 그래프 검색 기능을 추가하고 그래프 기능을 사용하기 위해 기존 데이터셋을 쉽게 확장할 수 있도록 하는 그래프 스튜디오와 같은 도구 모음을 만들었다.

오라클은 2009년으로 거슬러 올라가 다중 모델 방식의 오라클 DBMS에 그래프 기능을 추가하여 그래프 DBMS 시장에 먼저 진출했다. 별도의 인스턴스를 유지할 필요 없이 RDF와 속성 그래프 기능을 모두 제공하는 시장에서 몇 안 되는 플랫폼 중 하나이다.5) RDF 그래프는 스키마가 없지만 구현할 수 있다. 관계형 스키마에서 자동(직접) 매핑 및 R2RML을 활용한 사용자 지정 매핑을 사용한다. 반대로 속성 그래프는 스키마가 없지만 스키마와 테이블을 사용하여 구현할 수도 있다. 그러므로 RDF 및 속성 그래프는 오라클 자율 데이터베이스, 엑사데이터 클라우드 및 AWS, 애저와 같은 공용 클라우드를 통해 온프레미스에서 사용할 수 있다.

한편, 오라클 DBMS는 SPARQL 및 PGQL을 지원하며 ISO의 SQL/PGQ 표준 활동에 오랫동안 참여해 왔으며 이 표준에 대한 지원했다. 사용자, 서버 또는 기업에 기반한 영구 라이선스로 오라클의 그래프 기술은 추가 비용 없이 온프레미스 및 클라우드 데이터베이스과 자율 데이터베이스에 포함한다. 그러므로 온프레미스, 멀티클라우드 및 하이브리드 배포에서 사용할 수 있다. 관리 서비스로 사용할 수 있으며 수십 개의 고성능 그래프 알고리듬 라이브러리가 포함되어 있다. 사용자는 병렬 알고리듬을 생성하는 컴파일러를 사용하여 자바 구문으로 사용자 정의 알고리듬을 개발할 수도 있고, 오라클의 자체 머신러닝을 포함하여 팬더스 또는 NumPy와 같은 파이썬 프레임워크를 지원하는 머신러닝 프레임워크를 사용할 수 있다. 또한 Graphviz 네이티브 그래프 시각화 컴포넌트 및 시각적 스키마, 질의 디자인 도구를 제공한다.

고객들은 오라클의 기술 지원, 클라우드 오퍼링, PGQL 기능, SQL과 유사한 구문으로 시작하기 쉬운 기능 및 중간 규모 성능으로 배포할 수 있다. 오라클에 대한 고객의 주요 사용 사례에는 데이터 과학, 사기 탐지, 금융 서비스, 네트워크 모니터링, 소셜 네트워크 등 타 업체와 유사한 수준으로 지원한다.

세 번째, SAP는 SAP 하나(HANA) 그래프 기능을 엔터프라이즈 에디션의 구성 요소로 제공한다. 현재 온프레미스 및 SAP 하나 클라우드의 멀티클라우드 관리형 서비스로 제공한다.6) 인메모리 컬럼형 RDBMS를 기반으로 하는 다중 모델 오퍼링인 하나 그래프는 그래프스크립트 언어, 오픈사이퍼 및 SQL스크립트를 통한 SQL 프로시저를 통한 질의로 속성 그래프를 지원한다. 온프레미스에서 사용한 메모리와 클라우드에서의 메모리 사용량을 기준으로 가격을 측정하는 데, SAP 그래프는 자체 그래프 알고리듬 라이브러리를 제공하며 사용자는 그래프스크립트를 사용하여 데이터베이스 프로시저로 사용자 정의 알고리듬을 구축할 수 있다. 끝으로 머신러닝을 위하여 SAP 하나 예측 분석 라이브러리 및 텐서플로와 같은 머신러닝 프레임워크를 지원한다.

전문 그래프 플랫폼 리더들의 우수성

포레스트 리서치의 그래프 DB 시장 분석에 의하면, Neo4j 와 타이거그래프는 신생 소규모 그래프 플랫폼 공급업체들로 리더 그룹에 속한다. 첫째, 2007년에 설립된 Neo4j는 선도적인 그래프 데이터베이스 플랫폼 회사 중 하나로 나사, 에어비앤비, 리프트, 이베이 등과 같은 기업이 사용하고 있다. 최초의 성공적인 그래프 데이터베이스 중 하나이다. 따라서 Neo4j는 꾸준히 성장했으며 최근 20억 달러 가치의 펀딩 라운드를 모금하여 스타트업과는 거리가 멀지만 이 분야에서 가치를 인정받았다. 모든 기술에 손을 대는 것보다 최고의 그래프 데이터베이스 생태계를 구축하는 데 중점을 두기 때문에 중간 규모의 회사로 유지했다.

Neo4j는 쉽게 인터넷에서 다운로드할 수 있어 기업에서 클라우드와 온프레미스 모두에서 실행할 수 있다. 소프트웨어는 주요 클라우드의 사전 구성된 도커 이미지 또는 Neo4j의 아우라 클라우드에서 로컬로 실행할 수 있다. Neo4j 엔터프라이즈 에디션에는 클러스터링, 다중 데이터 센터, 고급 보안 기능, 그래프 분석, 시각적 그래프 검색 및 탐색이 포함된다.

오픈소스 버전은 GPL3 라이선스 오픈소스 커뮤니티 에디션에서 사용할 수 있고, 수만 개의 커뮤니티 배포와 600명 이상의 고객들이 Neo4j로 연결된 데이터를 활용하여 사람, 프로세스, 위치 및 시스템이 어떻게 상호 연관되어 있는지 분석하고 공개한다.7) 사이퍼 언어와 오픈사이퍼 커뮤니티 프로젝트의 기여로 ISO 표준 GQL을 개발하기 위한 다중 공급업체 이니셔티브를 주도해 왔다. Neo4j의 기본 저장 및 그래프 데이터 모델 처리, ACID 규정8) 준수 및 온라인 트랜잭션 처리, 간편한 개념 증명 및 자동 크기 조정 기능을 지원한다. 종종 실시간 추천, 인공지능, 그래프 기반 검색, 데이터 과학, 마스터 데이터 관리(MDM) 분야에 플랫폼을 사용한다.

둘째, 타이거그래프는 큰 데이터셋을 처리하도록 설계되었으며 로컬 하드웨어에서 또는 타이거그래프 클라우드의 서비스 구독을 통해 사용할 수 있다.9) 아파치 하둡이나 스파크를 사용하여 더 큰 데이터셋를 처리하도록 설계되었고 질의는 GSQL로 작성한다. 타이거그래프의 속도와 API 지원이 추진력을 얻는 데 도움이 된다. 데이터 사일로를 연결하여 대규모 운영 분석을 제공하는 확장 가능한 그래프 데이터베이스이다.

비록 타이거그래프 데이터 모델은 속성 그래프를 기반으로 하지만, RDF 파일을 읽고 속성 모델에 포함할 수도 있다. 스키마 기반 데이터베이스로 사용자는 그래프 스키마 모델을 수동으로 구축하거나 코드가 없는 데이터 마이그레이션 도구를 사용하여 그래프 스키마를 자동으로 생성할 수 있다. 타이거그래프는 그래프스튜디오에 시각적 질의 빌더를 가지고 있어 드래그 앤 드롭 그래프 패턴을 통해 데이터베이스를 질의하는 코드가 없이 사용자 인터페이스로만 사용할 수 있는 도구를 가지고 있다.

그래프 플랫폼은 개발자가 C++ 언어로 작성된 사용자 정의 함수(UDF)를 추가하여 확장할 수 있다. 타이거그래프는 완전한 ACID 준수와 강력한 일관성을 제공한다. 모든 업데이트는 즉시 복제본에 기록되는데, 타이거그래프의 속도, 언어, 배포 용이성, 성능, 그래프 스키마/질의를 위한 시각적 도구, 동일한 인스턴스에서 트랜잭션 및 분석 사용 사례에 대해 지원한다.

강력한 성과자 그룹으로 리더에 도전하는 알레그로 그래프와 아랑고DB

그 외에도 몇 가지 다른 그래프 데이터베이스가 강력한 성과자 그룹에 포진하여 계속 성장하고 있다. 아랑고DB 와 Franz 사의 알레그로 그래프가 그 주인공들이다.

첫째, 아랑고DB는 자체 머신에서 실행하거나 주요 클라우드에서 사전 구성된 인스턴스로 실행할 수 있는 엔터프라이즈 버전을 제공한다. 소스 코드에 액세스하려는 사용자는 대규모 다중 머신 클러스터를 지원하기 위한 일부 기능이 없는 커뮤니티 버전도 사용할 수 있다. 또한 노드가 NoSQL 키/값 저장소, 그래프의 일부 또는 둘 다처럼 작동할 수 있기 때문에 자체로 “다중 모드”로 사용할 수 있다. 따라서, 광범위한 다중 모델 기능 내에서 그래프를 제공하고 단일 데이터베이스로 키-값, 문서 및 그래프 데이터 모델을 지원한다. 통합 질의 언어인 AQL과 오픈소스 데이터 질의 및 PIS용 조작 언어인 GraphQL을 제공한다.10)

그래프 데이터로 작업할 때 확장 가능한 질의는 AWS, 구글 클라우드 플랫폼 및 마이크로소프트 애저를 포함하여 온프레미스 및 클라우드에 배포할 수 있다. 또한 JSON 문서, 키-값 저장소 및 텍스트 검색엔진과 결합하여 개발자가 다양한 애플리케이션을 지원하기 위해 모든 데이터에 액세스하고 통합할 수 있다. 아랑고DB의 그래프 지원, 유연한 데이터 모델, 질의 언어 및 간단한 접근 방식으로 트랜잭션 및 운영 워크로드에 플랫폼을 사용하고 비즈니스 이니셔티브에 대한 빠른 가치 실현한다.

둘째, Franz 사의 알레그로 그래프는 지식 그래프를 위한 다중 모드 그래프 데이터 플랫폼을 제공한다. 알레그로 그래프는 독특하게 수평으로 분산된 의미 체계 그래프 데이터베이스인데, 컨텍스트를 기반으로 데이터를 처리하는 시맨틱 그래프 기술을 사용하여 데이터 연결이 더 지능적인 것이 특징이다.11) 알레그로 그래프는 스키마 없이 온톨로지를 스키마로 사용하여 작동한다. 따라서, 수평으로 분산된 아키텍처를 지원하기 위해 특허받은 인 메모리 연합 기능을 제공한다. JSON 문서, 비 RDF 그래프 및 RDF 그래프를 저장할 수 있는 데, CRUD 및 ACID 데이터베이스 액세스 및 OLTP 작업을 위한 최적화를 지원한다. 데이터 및 메타데이터는 자바, 파이썬, LISP 및 HTTP 인터페이스를 사용하여 관리할 수 있으며 SPARQL 및 프롤로그(Prolog)를 사용하여 질의할 수 있다. 주로 소셜 네트워크 분석, 지리 공간, 시간 및 추론 기능과 함께 제공한다.

마치며

오늘날의 기업은 여러 소스의 정보가 필요한 답변을 찾는 데 너무 많은 시간을 소비하고 있다. 소스에서 데이터를 수집하는 것은 간단하지만 기업은 의미 있는 통찰력을 신속하게 생성하기 위해 데이터를 연결하는 데 어려움을 겪는다. 이 문제를 해결하기 위해 기업은 연결을 단순화하는 새로운 그래프 기술을 채택하고 구현하고 있다. 그래프는 특히 복잡하거나 많은 양의 이질적인 데이터를 처리할 때 데이터를 연결하는 가장 빠른 방법이다. 그래프가 없으면 조직은 상당한 시간과 노력이 소요될 수 있는 복잡한 코드를 작성하기 위해 개발자에게 의존해야 한다. 경우에 따라 데이터의 복잡성으로 인해 비실용적이 된다.

그래프 데이터 플랫폼은 조직이 다르게 생각하고 개발 및 지원하기 어려운 새로운 인텔리전스 기반 비즈니스 기회를 창출할 수 있는 새롭고 신흥 시장이다. 그 가운데 27개 메이저 그래프 DBMS 플랫폼 업체 중 Neo4j, AWS 넵튠, 타이거그래프, 마이크로소프트 및 오라클이 선두를 달리고 있다. 그 이유는 데이터 연결을 빠르게 가능하고, 자동화, 확장성, 고급 질의 및 검색 등을 지원하고 있기 때문이다.

참고문헌

01) Gartner, Market Guide for Graph Database Management Solutions, 24 May 2021, https://www.gartner.com

02) Forrester, The Forrest Wave: Graph Data Platforms, Q4 2020, 16 November 2020, https://reprints2.forrester.com/#/assets/2/665/RES161455/report

03) VentureBeat, What is AWS Neptune?, 9 August 2021, https://venturebeat.com/2021/08/09/what-is-aws-neptune/

04) Microsoft, Introduction to Gremlin in Azure Cosmos DB, https://docs.microsoft.com/en-us/azure/cosmos-db/graph/graph-introduction

05) Oracle, Graph Database and Graph Analytics, https://www.oracle.com/database/graph/

06) SAP, The Graph Story of the SAP HANA Database, https://cs.emis.de/LNI/Proceedings/Proceedings214/403.pdf

07) Neo4j, 1000x Performance at Ultimate Graph-Native Scale,https://Neo4j.com/product/Neo4j-graph-database/scalability/?ref=home

08) ACID(원자성, 일관성, 고립성, 지속성)는 데이터베이스 트랜잭션이 안전하게 수행된다는 것을 보장하기 위한 성질을 가리키는 약어이다.

09) TigerGraph, TigerGraph Cloud is Now Available on All Three Major Public Cloud Marketplace, 5 August 2021, https://www.tigergraph.com/blog/tigergraph-cloud-is-now-available-on-all-three-major-public-cloud-marketplaces/

10) ArangoDB, AQL Fundamentals, https://www.arangodb.com/docs/stable/aql/fundamentals.html

11) AllegroGraph, The Amazing Applications of Graph Neural Networks, 26 June 2021,https://allegrograph.com/articles/the-amazing-applications-of-graph-neural-networks/