Neo4j基本使用与Cypher语言基础

Last updated on Dec 12, 2023 2 min read 数据库

图数据库简介
Cypher语言
图数据库示例数据集
图数据库图算法支持
Python操作Neo4j数据库
Nginx代理转发Neo4j服务

图数据库简介

什么是图？

图是由实体以及实体间的关系组成的结构，这种结构可以抽象表示现实世界中的事物及事物间的关系。我们可以用节点/Node/Vertex表示实体、用节点间的连边/Ralationship/Edge/表示节点间的关系。

举例来说，我们的朋友圈可以通过图结构进行抽象，每个人作为一个节点，若两个人之间存在关系则认为两个节点具有连边，由此构造出社交网络。

更多关于图的介绍或相关研究可以查阅图论、复杂网络科学，前者为侧重抽象数学层面的领域，后者更侧重对使用图结构对复杂系统的性质进行建模分析。

为什么需要图数据库？

众所周知，关系型数据库也可以存储“图‘结构的数据，我们可以通过设计一张MySQL表存储某一个实体（节点）的信息，每个实体所具有的属性对应着MySQL表的字段（列）。通过关联表或者外键关联关系等方式存储节点间的关系，这样的设计可以支持对图数据的存储和检索。那么，为什么需要在一般的关系型数据库之外，专门设计一种叫“图数据库”的东西呢？

这里提一句奥卡姆剃刀原则：“如无必要，勿增实体。“

那么，图数据库的必要性是？

主流关系型数据库的缺陷

所谓缺陷，其实不是绝对的缺陷，而是特定需求、场景下的缺陷。假设我们要对复杂网络相关的数据进行分析，其中可能会经常需要对节点的特征进行深度优先的搜索。在一般关系型数据库中，我们查询具有一阶关联关系的节点对信息需要使用JOIN关联两个表（一个节点吧，一个节点关系表）进行查询，如果涉及到多阶关系的查询（如查询节点的多阶邻居，甚至更复杂的多种关系），那么关系型数据库就需要同时JOIN多个表乃至使用子查询，而针对我们的关系查询需求而言，关系数据库的查询会变得非常复杂且效率不高。

假设你已经认同了关系数据库在涉及高阶关系查询上的困境，再进一步考虑一个场景：我们可能会需要经常对关系数据（包括关系的属性）进行更新！比如金融、商业领域的数据变化频率很高，关系型数据库既然在处理高阶关系查询时效率就低，那数据更新就更加不用期待了。

因此，我们需要一种专用的数据库，用于存储和处理图数据并能够在处理复杂关系查询/更新时有较高的效率，这就是图数据库，其中最具有代表性的一种实现就是Neo4j。

权衡（Trade Off）

当然，使用图数据库能够进行高效率复杂关系查询，但是在存储空间和内存需求上要求更高了。所以，如果你对数据库的需求不在于显式存储数据关系，那可以使用关系型数据库节省内存空间。

Neo4J生态工具

Neo4J Desktop: Neo4j的桌面端管理软件。

Neo4J Browser：Neo4J的在线浏览器接口，可以查询管理数据库中的数据，提供使用Cypher语言对图数据进行基本可视化的功能。也提供了很多快捷命令（如用户添加、角色添加等）

Cypher语言

基本介绍

类似SQL在MySQL、PostgreSQL等数据库中的作用，Cypher就是图数据库的一种查询语言。但Cypher的使用与SQL却有很多不同。总结起来，Cypher查询语句的特征可以总结为“模式”查询，即通过描述实体-关系的“模式”，并为模式各组成部分进行变量命名，将需要的变量返回即可得到查询结果，或者修改、删除对应变量即可完成对指定条件的数据进行变更。

Cypher CheetSheet：Cypher Cheat Sheet - Neo4j Documentation Cheat Sheet

Cypher文档：Introduction - Cypher Manual

一些工具：cypher-shell、neo4j-admin

关于Cypher的系统性学习可以注册Neo4j官网中的课程，完成后可以获得证书：

下面仅为个人笔记，便于查阅：

基本关键字

Cypher是对节点、节点间的关系及属性进行增删改查的类SQL语言。主要有如下关键字：

MATCH
MERGE
CREATE
SET
DELETE
DETACH DELETE
RETURN

查询节点

查询某种关系类型的根节点

MATCH (n:NodeType)
WHERE NOT EXISTS(()<-[:RelationType]-(n:NodeType))
RETURN n

查询关系

聚合查询

Cypher语言中的聚合函数与SQL中的命名类似，计算总数的函数为COUNT，计算总和的函数为SUM。

聚合函数及使用示例

COUNT
SUM

查询数据库中存在的节点和关系总数

MATCH ()-[r]->() RETURN count(r)

MATCH (n) RETURN count(n)

查询各类节点的数量

MATCH (n) RETURN labels(n), count(*)

查看各类关系的数量

MATCH ()-[r]->()
RETURN type(r), count(*)

模糊查询

模糊查询并非使用LIKE关键字，而是使用CONTAINS，如：

MATCH p=(n:NodeType)-->() WHERE n.name CONTAINS '需要模糊查询的关键字' RETURN p

批量变更关系类型

MATCH (a)-[r:OLD_RELATION]->(b)
CREATE (a)-[rNew:NEW_RELATION]->(b)
SET rNew = r
WITH r
DELETE r

删除数据

删除关系

MATCH (n)-[r:TEST_TYPE]->()
DELETE r, n

删除孤立节点

MATCH (n:NodeType) WHERE NOT (n)--() DELETE n

多跳查询

二跳查询

MATCH p=(n:NodeType{name:'NodeName'})-[r:Rel1]->()-[:Rel2]->(re)  RETURN re.name,re.id

递归多跳查询

在关系类型后加*符号即可实现递归查询

MATCH p=(n:NodeType{name:'NodeName'})-[r:Rel1*]->(re)  RETURN re.name,re.id

Neo4j查询结果集导出csv/json

通过Cypher命令查出的表格数据可以使用Neo4j Browser的Export CSV/Export JSON功能导出。

图数据库示例数据集

https://offshoreleaks.icij.org/pages/database

图数据库图算法支持

https://neo4j.com/docs/graph-data-science/current/

Python操作Neo4j数据库

py2neo github 1.2 star
neo4j github 800+ star

Nginx代理转发Neo4j服务

有时候可能希望将neo4j默认服务（neo4j browser等）开放给互联网上的用户使用，并且希望希望通过nginx进行反向代理，简单的做法可以参考如下流程：

配置nginx.conf文件，新建stream代理规则，用于支持neo4j采用websocket协议通信的服务.


stream {
        upstream neo4j {
                server 127.0.0.1:7687;
        }

        server {
                 listen       YOUR_PORT;
                 proxy_pass  neo4j;

        }
}

配置xxx.conf文件，新建http server代理规则，用于支持neo4j browser（http服务）.

server {
   listen      YOUR_PORT;
   server_name  YOUR_HOSTNAME_OR_IP;
   location /graph/ {
           proxy_hide_header Content-Security-Policy;
           proxy_hide_header X-Frame-Options;
           proxy_pass http://127.0.0.1:7474/;

   }
}

http://127.0.0.1:7474/是neo4j Browser的默认服务地址，当然也可以在配置文件修改默认端口。

这两条配置是为了让neo4j browser可以通过iframe嵌入到另一个站点，否则进行iframe嵌入会受到限制。

           proxy_hide_header Content-Security-Policy;
           proxy_hide_header X-Frame-Options;

Neo4j 数据库 Cypher 复杂网络