0%

thought-provoking-article

掘金

这个队列的思路是真的好,现在它是我简历上的亮点了。

一次 RocketMQ 顺序消费延迟的问题定位

最终一致性的方案

iot人

资损防控技术体系简介及实践

多活设计

读 RocketMQ 源码,学习并发编程三大神器

1024 程序员节,圆一个小小的梦

聊聊我与流式计算的故事

高吞吐低延迟:朴朴基于 Kafka 的延迟队列实践

《浅入浅出》-RocketMQ

太惨了,系统重构后出了线上事故,背了C绩效,不堪回首的两个月

复盘

个人职业复盘-我的路

有趣的网站

飞致云

other

一台不容错过的 Java 单元测试代码 “永动机”

蚂蚁金服开源 SOFAJRaft:生产级 Java Raft 算法库

Java编程技巧之单元测试用例编写流程

RocketMQ DLedger架构在小米的大规模实践

RocketMQ 在网易云音乐的实践

八股文

有趣的人

JavaGuide

生存

30岁之前透支,30岁之后还债。

鹅厂七年半,写在晋升失败的不眠之夜

概念

数据编织(Data Fabric)

什么是数据编织?

数据编织的真正价值在于它能够通过内置的分析技术进行学习,并主动提出有关数据应该在何处使用和进行更改的建议,使数据管理工作量减少70%,从而可以有效解决数据孤岛激增而人才供给不足的问题。

数据编织是一种通过连接的方式动态收集、管理与使用数据的综合架构,其结合了关键数据管理技术,例如数据目录、数据治理、数据集成、数据管道和数据编排。

数据编织与数据集成、数据湖、数据中台有何不同?

与数据集成比

数据集成是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等,其专注于复制、移动数据,如ETL加工、数据同步等。

数据编织是一种架构思想,跟数据集成本来是无法直接比较的,但由于数据虚拟化是实现数据编织架构中的关键技术之一,因此可以比较下数据虚拟化和数据集成的区别,数据虚拟化可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间,具体包括跨平台敏捷集成、统一语义、低代码创建数据API(支持SQL、REST、OData和GraphQL等技术)、智能缓存加速等功能,数据虚拟化跟数据集成还是有本质区别的,假如没有虚拟化能力,数据是很难编织起来的,当然,数据编织远远超越了数据虚拟化的范畴。

与数据湖比

很多企业机构通过建立数据湖汇总企业机构内外部的所有数据,但这种收集数据的形式仅限于数据的存储,容易产生“暗数据”,并且不利于实时处理跨越不同存储介质的数据。而数据编织的设计模式是帮助企业机构从传统的收集数据形式渐渐转换成连接数据,即数据不移动位置,而以连接形式继续使用数据‘

与数据中台比

数据中台是一个管理与使用数据的方法论与综合体系,不仅包含最基础且核心的数据管理和使用的相关技术组件,还包括与之相适应的企业组织机构、管理制度和业务流程、运营机制和考核办法等,只要企业机构中上述各方面相互匹配,数据中台方可顺利运转。而数据编织则更强调机器学习、人工智能、知识图谱等新技术的应用,重点在于新技术的应用逻辑与应用场景,即相较数据中台而言,数据编织的技术色彩更浓一些。

数据编织的典型5层结构

数据源层

数据编织可以连接各种数据源。这些资源可能存在于企业内部,例如企业的ERP系统、CRM系统或人力资源系统 。还可以连接到非结构化数据源,例如,支持 PDF 和屏幕截图等文件提交系统,支持物联网传感器的接入。数据编织还可以从公共可用数据(如社交媒体)等外部系统中提取数据。

数据目录层

与传统人工编目不同,数据编织强调采用新技术,例如:语义知识图、主动元数据管理和嵌入式机器学习 (ML),自动识别元数据,持续分析关键指标和统计数据的可用元数据,然后构建图谱模型,形成基于元数据的独特和业务相关关系,以易于理解的图谱方式描述元数据。

知识图谱层

数据编织必须构建和管理知识图谱。知识图谱的语义层使用 AI/ML 算法简化数据集成设计,使其更加直观和易于解释,使数字化领导者的分析变得容易。 基于知识图谱的数据应用,将合适的数据在合适的时机自动化推送给数据集成专家和数据工程师,让他们能够轻松访问数据并进行数据共享和使用。

数据集成层

数据编织提供自动编织、动态集成的能力,兼容各种数据集成方式,包括但不限于 ETL、流式传输、复制、消息传递和数据虚拟化或数据微服务等。同时,支持通过 API 支持与内部和外部利益相关者共享数据。

数据消费层

数据编织面向所有类型的数据用户,提供数据和服务,包括:数据科学家、数据分析师、数据集成专家、数据工程师等,既能够面向专业的IT 用户的复杂集成需求处理,也可以支持业务人员的自助式数据准备和分析。

参考文献

ETL

ETL是指抽取(Extraction)、转换(Transformation)和加载(Loading)的一种数据处理过程。ETL是将数据从源系统抽取出来,经过一系列的转换操作后加载到目标系统的过程。在ETL过程中,数据会被抽取并清洗、转换为适合目标系统的格式,然后加载到目标系统中进行存储和分析。ETL是数据仓库和数据集成的基础,用于解决不同数据源之间的数据一致性和集成问题,确保数据的准确性和完整性。

Gartner

Gartner是一家全球领先的技术研究和咨询公司,总部位于美国康涅狄格州斯坦福德。该公司通过其独特的研究方法和分析工具,提供关于技术市场、创新趋势和商业策略的洞察和建议。Gartner的研究主要聚焦于信息技术,包括硬件、软件、通信、云计算、人工智能等领域。该公司的客户包括世界各地的企业、政府机构和技术提供商。Gartner的研究报告和咨询服务被广泛认可,并在技术决策和战略规划中起着重要的作用。