• 当前位置:首页资讯圈子圈事
  • 大数据架构由哪些部份组成

  • 发表时间:2022-12-25 19:43:00  作者:admin  阅读资数:30
  • 每个大数据架构都是不同的,这取决于每个企业需要用其数据完成什么。然而,无论谁在使用该技术以及他们如何使用它,每个大数据架构都有一些共同的组件:

    1.数据摄取

    在您可以使用大数据从您的数据中获得可操作的见解之前,您需要一种方法将该数据导入系统。数据摄取是数据基础设施的关键组成部分,使组织能够从数据中获取商业价值。摄取通常涉及从各种来源收集原始的、非结构化的信息,然后将其整合到一个存储库中,以便根据需要进行处理。换句话说,如果您想收集和分析客户购买历史以及社交媒体对您品牌的评论,您可能必须从两个不同的地方收集这些信息,然后才能完全理解这些信息。

    为什么我们需要数据摄取?

    数据正变得比以往任何时候都更有价值,公司希望通过分析数据来获得可操作的见解,从而充分发挥数据的潜力。然而,由于数据来自各种来源和格式,您需要高效的工具和技术将其提取到一个中央平台,以便对其进行有效的处理、分析和存储。

    如果使用低效的方法或工具获取数据,则可能会延迟处理数据和从中获取见解的过程。由于格式不正确或其他技术问题,它还可能导致数据在被引入系统时损坏。随着大数据分析和机器学习 (ML) 的许多新兴用例,组织热衷于采用新的工具和技术来获取数据。

    数据摄取工具

    1. Flume
    2. Kafka
    3. Sqoop
    4. Nifi
    5. Embulk
    6. Lumberjack/Logstash Forwarder (LWF) aka beats
    7. Apache Storm and Trident

    什么是数据湖

    数据湖是一种存储数据的方式。虽然传统数据库非常适合结构化数据,但有时最好将非结构化数据存储在存储库中,您可以在其中查看其所有部分之间的关系。数据湖对此非常理想,因为它允许我们转储所有我们想要的无结构数据,然后在需要时应用该结构。

    湖中的每个数据元素都被分配了一个唯一的标识符,并使用一组扩展的元数据标签进行标记。当对数据执行业务查询时,系统使用元数据仅检索相关数据,而不是处理关系数据库中的所有结构化表。

    数据湖可以保存源系统数据的原始副本和用于报告和分析等任务的源系统数据的转换版本。如果您有多个组针对类似的表子集运行类似的查询,则每个组都可以构建针对自己的需求优化的结构,而不会影响数据仓库的其他用户。

    数据湖最适合以下情况:

    • 分析结构化交易数据和非结构化机器生成(社交媒体)或人工生成(调查回复)内容
    • 与准备、转换和加载此类内容到现有企业仓库相关的成本超过了您从能够查询它中获得的任何商业利益
    • 无需修改整体企业架构即可轻松组合不同类型的内容

    2.暂存层/存储

    一旦该信息被摄取,它就需要在某个地方存放,同时等待分析。在过去(我指的是前手机),这意味着建造巨大的仓库,里面装满服务器和硬盘驱动器,这些服务器和硬盘驱动器放在架子上,或者像图书馆的书一样堆成一排——“数据仓库”一词由此而来。最近(而且成本更低),企业开始将他们的大数据存储在由Amazon Web Services (AWS) 或Microsoft Azure等提供商提供的基于云的平台上。 

    这些服务使任何规模的大数据分析公司比以往任何时候都更容易访问可扩展的基础设施,而无需与直接购买设备或维护内部 IT 团队相关的巨额资本支出。

    数据仓库存储用于分析的清理过的历史数据。这里是清洗过的数据经过Staging Layer后全部发送到这里。

    3、处理层

    处理层是您将所有原始数据转化为有意义的东西的地方,方法是一次一个地解析单个记录,直到只剩下相关部分(然后分析这些部分)。 

    这种分析是通过编写自定义算法或使用专门为足够快地处理大量传入信息而设计的第三方软件来完成的,这样用户在访问过去查询生成的报告时不会注意到任何减速;无论哪种方式,由于计算机本身固有的局限性,总会有一些限制,因为它们不是能够 100% 运行的完美机器

    4. 表示/可视化层

    表示层是任何大数据架构中最关键的组件。在这里,洞察力以一种使决策者更容易理解数据并对其采取行动的方式呈现给决策者。这是通过可从 Web 浏览器或手机访问的报告和仪表板完成的。