https://www.lizeo-group.com/var/site/storage/images/media/cn-impacts-dirty-data/26401-1-eng-GB/CN-impacts-dirty-data_large.png
Lizeo Group
Blog
竞品价格数据分析中脏数据的影响

竞品价格数据分析中脏数据的影响

利资欧市场部 于 20/04/2020
每一天我们都能看到海量的线上和线下轮胎市场价格数据。
这些价格数据的按不同格式呈现(因为展现在不同的电子平台,或者是因为收集的不同方式等原因)。这些异构格式的数据被称为“脏数据”。“脏数据”的存在,使得向价格团队提供清洁,统一和匹配的竞争对手价格数据以供分析的任务变成复杂费时。
 
在这个阶段,没有必要对这些数据开发智能分析,除非这些数据自己能说话。
让我们看看在轮胎行业背景下的竞争对手价格的“脏数据”,以及它们的影响。
 

什么是脏数据?

脏数据通常用来定义那些不准确、不正确、不一致、重复、不完整以及违反业务规则的数据统称。

下面列出了6中最常见的脏数据,并以轮胎行业的价格数据做了举例说明
  •  不完整数据
     
很明显,不完整数据缺少价格分析过程中必须的字段或数值。在轮胎行业中,轮胎的技术参数如载重系数、速度级别以及原配标识都对价格有很大的影响。比如:205/55R16 91V 和205/55R16 94H 就是两种不同的轮胎(载重系数和速度级别不同)。如果竞品价格数据库中缺少这些字段,你的定价分析将是错误的。
  • 重复数据
     
重复数据可能是最普通的一种脏数据。很多公司都处理过在CRM中重复的客户记录,在EPR或者主数据管理系统中重复的产品数据。对在线轮胎销售价格做分析时,重复数据会降低价格分析员的效率:比如由于拼写不一致,两个看起来不一致但实际是一样的轮胎(Michelin Pilot Sport 4 和 Mich PS4)。这样就需要将这些轮胎匹配到同一价格线。
  • 不正确数据
     
不正确数据可以定位为含有超过有效值范围字段的数据。在轮胎行业,这可以用不存在的轮胎尺寸来说明:比如195/25R23.
  • 不准确数据
     
数据准确与否可以用以下问题来考虑:此数据是否满足价格智能分析中您首先定义的要求?就是说,数据可能本质上准确,但是考虑到整体的业务规则又是不准确的。一个极端的例子是,在新加坡消费网站上抓取到的有关冰雪胎的价格数据。
  • 违反业务规则
     
务规则对于将标准价格数据转化为您对业务和市场的远景至关重要。这些数据需要满足行业整体规范和业务流程。 对于轮胎来说,季节信息对于准确的市场价格分析非常关键。将夏季胎和冬季胎的价格数据混在一起就是违反业务规则的。
  • 不一致数据
     
数据的一致性可以定义为一段时间内数据和/或字段数值的稳定性。换而言之,数据是在一个规范的和可预测的框架下定期产生的。对于轮胎来说,尺寸在电商平台的表达方式就是一个很好的例子 :205/55/R16或者205-55-R 16 或者20555R16。这可能会导致在一段时间内数据库中的数据不一致。

脏数据对于您的竞品价格监控有什么影响?

根据2017年的Gartner数据质量市场调查,公司处理脏数据的平均成本估计为1500万美金每年。

而这一成本可能还被低估,因为调查主要集中在营销部门,他们是主要的数据使用者,但不是唯一的使用者。
对于定价团队来说,脏数据的影响不仅存在于竞争对手的价格分析阶段,而且存在于整个定价过程中。
  • 定价过程中脏数据的影响
除了需要在清理竞品价格数据上花费额外时间以外,脏数据还会对定价过程产品直接影响。
在轮胎行业,由于轮胎价格数据中的各种问题,可能导致市场价格分析不准确,比如;
  • 是否带有原配胎标识
  • 同一轮胎的不同写法
  • 不统一的价格指标:单价混合了套装价格(2条或者4条胎)
  • 等等其他
这些脏数据也会对公司其他内部项目有直接影响,例如延迟部署新流程、新工具或新的解决方案,也会影响当前分析工具(BI工具)的准确性和可信度。 
对于定价工具和数据平台,脏数据将数据流匹配变成一场噩梦,定价策略的实施将无法实现预期的价值,比如:
  • 竞品价格数据和内部数据(SI价格、销量)之间的错误匹配。
  • 增加了BI平台上价格对比仪表盘开发的复杂性。
最终,可能仅仅因为一个糟糕的价格设置,对公司的潜在收入和市场份额都带来损失。
 
  • 脏数据对于科学定价项目的影响

数据员是21世纪最繁重的工种,作者:Jingles (Hong Jing)

根据指导的一项调查,数据员需要花费60-80%的时间来清理脏数据,然后才能开始他们擅长的工作:统计、建模等。
为了粗略估计科学定价项目中脏数据的成本,让我们先做一些简单的数学运算:

初级数据员的年平均成本是20万美元(根据Glassdoor的数据)。若他/她需要花60%的时间清理数据,每位数据员每年要花费12万美元。

而且,这些脏数据会还产生隐藏成本和间接成本,比如:
  • 数据项目和预期远景的延迟
  • 公司数据团队的工作动力倦怠
  • 无法运用机器学习或者人工智能工具

那么,如何解决脏数据呢?

如果没有标准的指导方针和流程来处理和维护竞品价格数据,脏数据问题很难避免。 
当价格分析员浪费时间检查他们正在处理的价格数据的准确性和可靠性,来完成他们的分析并为管理层提供远景时,他们的生产力就会急剧下降。同样的问题也会发生在数据员身上,他们的大半时间忙于先清理、标准化和准备数据,然后才能使用统计模型或人工智能工具。
总的来说,处理脏数据的第一步是数据清理。
如果你需要了解更多有关数据清理的问题:
回到顶部