数据质量 百科内容来自于: 百度百科

数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。

数据概览

为了充分实现数据资产的业务价值,您需要一个数据集成平台。而Informatica 平台则是一个强大的数据集成平台,也是唯一可以让您向扩展型企业交付及时、可信的相关数据的数据集成平台(任何数据、任何时间、任何地点),无论是内部预置还是在云中。
Informatica Data Quality能帮助企业找出并修正藏匿于任意位置、令您的公司动辄花费上百万的数据质量问题。揭露所有数据域、应用程序和地域。汇集所有相关人员并帮助他们承担责任。清洗数据并保持数据清洁。
IDQ转换了您的业务部门工作方式。它使每个人都可以始终相信满足其各类用途的所有数据。
IDQ扩展了 Informatica 平台的现有数据质量功能,通过一个统一平台,为所有项目和业务应用程序的所有相关人士、项目和数据域(无论在内部预置,还是在云中),提供普遍深入的数据质量控制
凭借 Informatica Data Quality,您的整个组织可以:
· 为所有应用程序主动清洗数据,保持数据清洁
· 共同肩负数据质量控制数据治理责任
· 建立对企业数据的信心和信赖感

主要特色

Informatica Data Quality通过一个全面、统一的平台,为所有项目和应用程序的相关人士、项目和数据域(无论在内部预置,还是在云中),提供普遍深入的数据质量控制。
· Informatica Data Quality结合了强大的数据分析、清洗、匹配、报告、监控能力和易于使用的界面,使业务信息所有者能够在整个企业范围内实施和管理数据质量计划。
· Informatica Data Quality Cloud Edition (云计算版)将普遍数据质量的功效和功能与最新云计算平台的灵活性、易用性和经济性相结合,向所有相关人士、项目和数据域交付数据质量。
· Informatica Identity Resolution是一款功能强大且高度可扩展的身份识别解决方案,让企业和政府机构能够批量且实时地搜索和匹配来自超过60种语言的身份数据。
· Informatica Data Explorer通过强大的数据探查、数据映射能力和前所未有的易用性的完美组合,让您轻松发现、监控数据质量问题。
· AddressDoctor为全球200多个国家和地区提供全球地址验证技术,其功能包括对多级地址(如街道级别)的支持,以及交付点验证和地理编码。

主要优势

降低成本
通过重复使用一组单一的规则和工具和单一的开发环境来管理数据质量,从而降低成本:
在所有应用程序中
适用于所有数据域
跨所有国家/地区和语言
适用于所有数据集成项目
更高效地运作
使业务分析师和数据管理员既可以查看和参与提高数据质量,又可以针对数据质量对其应用程序和流程的影响采取有效对策
通过使业务部门能够参与数据质量流程,更快地解决业务问题
通过给予业务分析师合适的工具来自行管理数据质量任务,从而减轻对 IT 部门的依赖
可以更为高效地协作,以便在几天(而不是几月)内设计和实施满足业务需求所必需的数据规则
凭借高质量的数据为合规性方案提供支持
提高 IT 部门工作效率
通过协作工具和通用的项目环境,加速 IT 和业务部门之间的规范与复查的周期
快速访问所有数据,从而更快完成数据质量项目
跨所有应用程序,轻松构建、集中管理和快速部署可重用的数据质量规则
通过运用能够为进行匹配和地址清洗提供数据探查和预建规则的开发环境,并在此熟悉的开发环境中构建数据质量映射,加快展开项目
利用中途探查来快速验证数据质量转换情况
成批或实时地部署数据质量规则,而不必重新编码
降低风险
防范于未然,找出、解决和避免数据质量问题,从而让您的客户不会因此破费和丧失竞争优势
构建可长期持续保持的数据质量流程并信任所有的企业数据
通过在全球所有应用程序中统一实施数据质量控制,提高对企业数据对数据治理流程的支持的信心
凭借久经考验的企业级部署技术,降低故障风险

控制方法

一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目,业务部门与 IT 部门的相关人员将各自具有明确角色和责任,配备正确的技术和工具,以应对数据质量控制的挑战。
Informatica 的六步法为帮助指导数据质量控制而设计,从初始的数据探查到持续监测以及持续进行的数据优化。业务部门与 IT 部门的数据使用者 — 业务分析师、数据管理员、IT 开发人员和管理员,能够在六个步骤的每一步中协同使用 Informatica 数据质量解决方案;并在整个扩展型企业的所有数据领域和应用程序中嵌入数据质量控制
步骤一:探查数据内容、结构和异常
第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查,可以识别数据的优势和弱势,帮助企业确定项目计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。
步骤二:建立数据质量度量并明确目标
Informatica的数据质量解决方案为业务人员和IT人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。
步骤三:设计和实施数据质量业务规则
明确企业的数据质量规则,即,可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。
步骤四:将数据质量规则构建到数据集成过程中
Informatica Data Quality支持普遍深入的数据质量控制,使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。
步骤五:检查异常并完善规则
在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。Informatica Data Quality可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。
步骤六:对照目标,监测数据质量
数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。Informatica Data Quality包括一个记分卡工具,而仪表板和报告选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。

方案组件

上面介绍的Informatica六步法,该方法运用Informatica数据质量解决方案,提供公司所需要的各种数据质量管理能力,并确保其所有数据均是完整的、一致的、准确的、通用的。该解决方案包括几个针对特定用途优化的组件:
Informatica Data Explorer运用基于角色的工具可促进业务部门与IT部门之间的协作,该数据探查软件发现和分析任何来源中任何类型数据的内容、结构和缺陷。
Informatica Data Quality软件执行清洗、解析、标准化和匹配流程并使得可视记分卡和仪表盘上的持续监测得以进行。与Informatica data Explorer类似,它特有基于角色的工具,业务部门和IT部门可以借此得以协同工作
Informatica Identity Resolution软件能使各机构从60多个国家/地区以及各企业和第三方应用程序中搜寻和匹配一致数据。

主要工具

Informatica数据质量解决方案为业务部门与IT部门间的协作提供基础。其基于角色的工具特色设计使得业务分析师、数据管理员、IT开发人员和管理员能够充分利用他们独特的技能体系,并在流程中与所有相关人员沟通。
Informatica Analyst:适用于业务分析师和数据管理员。通过用语义术语表述数据,该款基于浏览器的工具使分析师和数据管理员能够探查数据、创建和分析质量记分卡、管理异常记录、开发和使用规则,以及与IT部门展开协作。
Informatica Developer: 适用于IT开发人员。这个基于Eclipse的开发环境允许开发人员发现、访问、分析、探查和清晰处于任何位置的数据。开发人员可以为逻辑数据对象建模,将数据质量规则与复杂转换逻辑合并,并在逻辑制定后,进行中游探查以验证和调试逻辑。
Informatica Administrator: 适用于IT管理员。该工具为IT管理员带来集中配置和管理的能力。管理员可以监测和管理安全性、用户访问、数据服务、网格和高可用性配置。

主要特征

1. 协作性。 业务部门和IT部门为数据质量共同担责,业务分析师、数据管理员、IT开发人员和管理员各自将具有明确分工和适于其独特技能和视角的技术。
2. 前瞻性。业务部门和IT部门认识到所有机构都会不同程度地受到劣质数据的影响,有必要再劣质数据严重影响到企业业绩之前,积极探查数据以发现和纠正问题。
3. 可重复使用。有关数据探查与清晰的业务规则可被重复运用于任意数量的应用程序,而不论数据时内部预置、在合作伙伴处还是在云环境中。
4. 普遍深入性。数据质量方案将扩展至所有相关人员、数据领域、项目和应用程序,而不论数据是内部预置、在合作伙伴处还是在云环境中。

商业智能

主要角色

对于增强数据资产准确度和价值而言,将数据质量规则与活动(探查、清洗和监测)和MDM流程相集成显得十分关键。在启动任何MDM项目之前,您都需要了解源数据的内容、质量和结构。在数据源进行的数据探查使数据管理员和数据仓库管理员能够在数据进入MDM系统之前,快速发现和分析跨所有数据源的所有数据异常。此流程可极大加快从MDM实施中获取价值。
由于数据清洗增强了数据的准确度,带来了数据完整性,并从源头增进了数据的可信度,因此数据清洗改善了MDM系统中的数据一致性。一旦源数据进入MDM系统,它将接受数据质量处理,其中包括验证、更正和标准化。MDM系统存储了在数据清洗前后的整个历史记录,从而开发人员不必再跟踪数据仓库中的数据沿袭
最后,数据质量度量标准使数据仓库管理员能够更好地监控参考数据的质量,并确保可以长期持续使用高质量的数据。
因此,从技术角度看,实施MDM和Informatica Data Quality,作为数据仓库中主数据的确定来源,可以从提取、转换和加载(ETL)流程中简化数据集成。此方法可极大减低与数据仓库有关的整个开发和维护工作。通过建立数据质量度量标准和定义数据质量目标,数据仓库管理员和数据管理员能够更好地监控参考数据的质量,并确保随着时间的推移能够跨企业持续使用高质量的数据。MDM简化了对数据仓库维度更新的处理,因为用于确定更改内容的所有逻辑均封装在MDM系统中。
此外,MDM系统可以卸除大多数数据仓库的历史记录跟踪负担,使数据仓库仅管理它需要为进行聚合而应跟踪的变更。此系统可带来更小的数据仓库维度以及对负荷和查询性能的重大改进。运用MDM和Informatica Data Quality将最终降低数据集成的工作量,提高从商业智能和报表推导的洞察分析的质量,确保能够从为商业智能增效的数据仓库方案中获得预期的价值和投资回报。

关系分析

当无法通过商业智能系统和报告系统提供准确的数据时,业务总体上都会受到影响。以下是为创建报表的商业智能系统提供不可靠数据所造成的一些后果:
业务负责人:不准确的管理报告导致决策不够明智。
合规主管:合规性法案要求公司能为其财务和合规报表提供一定的透明度和可审计性。
业务分析师:如果业务分析师花费过多时间在多个商业智能系统间手动搜索和整理信息以更新和修正报表,则业务分析师的生产率会受到影响。此低效的工作会直接影响成本和营利能力。
这些业务问题的根源在于没有关于客户、产品、渠道合作伙伴和供应商的唯一真实版本。由于在处理每个业务流程的不同系统间收集、存储和管理这些数据(亦称之为参考数据或主数据),因此,需要正确地解析重叠和冲突的参考数据,以获得唯一真实版本,从而带来宝贵而可操作的洞察力。许多组织拥有数十或数百数据库,并且在这些数据库中有维护相同核心参考对象的数十个(有时为数百个)不同的应用程序,而这些核心参考对象还具有重叠的属性。
商业智能系统的用途是以中立的视角报告取自多个系统的现有数据。商业智能系统可以为维度分析进行一些累积工作,但是设计或配备商业智能系统并非为了创建唯一的真实版本。在取自应用程序孤岛的客户或产品数据中存在的不一致会对数据仓库中运行的分析可靠性产生消极的影响。
总而言之,企业的商业智能只会与企业的数据质量水平相当。

五种形式

商业智能已经发展成为多种形式,旨在满足企业不断增长的要求和任务关键型活动日益增长的水平。这些形式都有其自己的一套数据质量要求。
记分卡和仪表板
记分卡和仪表板正被广泛采用,越来越多的用户利用它们获取财务,业务和绩效监控的鸟瞰图。通过可视化的图形、图标和计量表,这些传输机制帮助跟踪性能指标并向员工通知相关趋势和可能需要的决策。提供集成视图所需的数据元素通常跨越多个部门和学科,需要绝对最新才能有效。
数据质量会影响记分卡和仪表板用户,因此这些用户必须能够:
1. 使用仪表板中计量表和刻度盘上的完整数据,并迅速采取措施
2. 获取集成视图并使用标准化数据进行协作
3. 利用具有一致数据的正式记分卡方法
4. 向下钻取以查看组或个人级别绩效的准确数据
5. 找到能够生成明显趋势且重复数据最少的业务流程
6. 推导关联性并通过验证的数据执行交叉影响分析
企业报告
企业报告为所有级别的个人提供来自企业资源规划(ERP)、客户关系管理(CRM)、合作伙伴关系管理(PRM)、发票和帐单系统,以及整个企业内其他源系统的各种运营报告和其他业务报告。这些报告分布广泛,而薪酬和其他激励计划通常与报告的结果有关。
数据质量会影响组织报告,因为组织必须:
1. 浏览多个报告,将它们显示到从不同来源聚合数据的多个表单中
2. 选择各种参数并通过标准化数据为用户定制报告
3. 利用各种性能指标的协调数据呈现多个表格和图表
4. 使业务用户能够利用高精准数据创建自己的报告,无需IT部门参与
5. 通过清洗和匹配的数据减少合规性管理的人工检查和审计
6. 利用完整财务数据直接从商业智能报告开具发票和帐单
OLAP分析
OLAP使用户能够即时以交互方式对相关数据子集进行“切片和切块”。同时,OLAP功能,比如向上钻取、向下钻取、或任意挖掘(跨业务维度)、透视、排序、筛选、以及翻阅,可用于提供关于绩效的基本详细信息。最为重要的是它能够回答存在的任何业务问题。这意味着调查深入到单个或多个数据仓库中可用的最原子级别的详细信息。
数据质量会影响OLAP分析,因为用户和组织需要:
1. 通过对目标数据的完全访问在所有维度中任意钻取以进行深入调查
2. 通过设置好格式的一致数据将OLAP轻松应用于任何维度子集
3. 利用一致的基本数据对象最大限地减少冲突报告,确保交互性
4. 利用多个维度的正确数据执行用户驱动的适时分析
5. 提供更新的同步数据来处理事务级数据分析
高级/预测分析
高级和预测分析使富有经验的用户能够充分调查和发现特定业务绩效背后的详细信息并使用该信息预测远期效果。此方法可能涉及高级统计分析和数据挖掘功能。为了推动积极决策和改进对潜在商业威胁的姿态,预测分析可能包括假设测试,客户流失预测,供应和需求预测,以及客户评分。预测建模可用于预测各种业务活动及相关效果。
数据质量会影响高级和预测分析,因为用户会寻求:
1. 为可定制报告创建跨越任何数据元素的报告过滤标准
2. 为标准化数据格式搜索模式和预测洞察力以促进积极决策
3. 通过一致数据获得信心,找出相互依存的趋势和预期成果
4. 对准确数据采用多变量复原和其他技术,以实现更好的预测
5. 在无数据重复的前提下定制数据分组,最大限度减少冲突
6. 使用经认证的数据检验假设并使用统计、财务和数字函数
通知和警报
使用电子邮件浏览器网络服务器和打印机、PDA或门户网站时,通过通知和警报在广泛的用户触点间主动共享信息。通过及时交付目标信息,关键相关人士和决策者可以识别潜在的机会领域并发现要采取措施的问题领域。这种“一线”BI传输机制使组织能够保持协调一致,与业务风险和机会并进,同时事件仍将保持新鲜和有意义以保证响应。
在此领域,数据质量会影响组织,因为组织会努力:
1. 从任何和所有数据源向最广泛的用户接触点发布警报
2. 确保标准化及非冲突数据集上各种订阅类型的高吞吐量
3. 使用户能够打开附件或点击链接,同时呈现一致、集成的数据
4. 通过预先评定并核准的数据质量来降低发布错误警报和通知的风险
5. 允许在多个事件数据符合特定阙值时实时触发警报
6. 利用经验证的数据进行内容个性化和组关联
$firstVoiceSent
- 来自原声例句
小调查
请问您想要如何调整此模块?

感谢您的反馈,我们会尽快进行适当修改!
进来说说原因吧 确定
小调查
请问您想要如何调整此模块?

感谢您的反馈,我们会尽快进行适当修改!
进来说说原因吧 确定