近日,信也科技联合浙江大学正式公开发布大规模动态图数据集DGraph,旨在服务图神经网络、图挖掘、社交网络、异常检测等方向的研究人员,为之提供真实场景的大规模应用数据,帮助推动整个图领域的发展。
1.场景真实
值得注意的是,DGraph 的源数据来源于信也科技的真实金融业务场景,并由信也科技对外开放共享给对图领域感兴趣的研究者。其构建逻辑贴近工业落地,为数据集的使用者提供了探索如何将图模型扩展到金融领域落地应用的机会。DGraph一方面可以作为验证相关图模型性能的标准数据,用于解决不平衡节点分类、链接预测、图分类等各种典型任务,另一方面可用于开展用户画像、网络分析等研究工作。
2.结构动态
信也科技相关负责人透露:“像此次DGraph公开的如此大规模、真实的动态图数据,据我们所知,在金融领域还是第一次。”DGraph作为一个有向无权的动态图,包含超过370万个节点和430万条动态边,支持大规模图模型的研究与评估。其用户关系采样自横跨27个月的业务场景,且网络结构会随着时间发生演化,为当前的动态图模型与挖掘研究提供了结构动态的数据支持。
3.规模庞大
此外,DGraph 中包含超过200万个“背景节点”,即并非分类或分析对象但实际存在、对业务逻辑有间接影响的节点。这些节点对于维持网络的连通性有着重要作用,在工业界广泛存在,可支持研究者深入探索背景节点的性质。合理处理背景节点可以在大规模数据场景下有效提升数据的存储空间和模型的运行效率。
如下图所示,DGraph中的节点表示信也科技服务的用户,有向边表示用户关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签。
DGraph动态图数据
研究团队此前发布的论文《DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection》从图异常检测的角度出发,对DGraph进行了深入的数据分析与实验,结果阐明DGraph具有巨大潜力推动图异常检测的发展,同时DGraph所包含的多种广泛存在的工业特点值得更进一步探索。
信也科技相关负责人表示:“目前DGraph网站已吸引了一批来自清华大学、中科大、上海交大、同济大学等国内外知名高校的研究者。”其中,清华大学计算机系知识工程研究室基于他们最新的图学习框架CogDL,为DGraph数据集提供了多种图算法的Baseline。
当前,信也科技围绕着DGraph举办的第七届信也科技杯图算法大赛正面向全社会开放报名,国内外高等院校、科研院所、互联网企业等均可报名参赛,角逐共计31万人民币奖金。期待结合赛事契机,DGraph公开数据网站的发布能够帮助激发更多相关领域研究,并融入拓展更多其他领域的数据和实际应用,从而支持对于图领域特性和跨领域算法的研究,携手共建开放的数字生态。
【免责声明】:本文仅代表作者本人观点,与本网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
- 最新文章