1. 增量学习的概念

1.1 什么是增量学习

人类有终身不断获取、调整和转移知识的能力,虽然在我们的一生中,我们确实倾向于逐渐忘记之前学习过的知识,但只有在极少的情况下,对新知识的学习会灾难性地影响已经学到的知识,这样的学习能力被称为增量学习的能力。

具体来讲,「增量学习的能力就是能够不断地处理现实世界中连续的信息流,在吸收新知识的同时保留甚至整合、优化旧知识的能力。」

阅读全文 »

一、特征选择和特征提取

1
特征选择(feature selection)和特征提取(Feature extraction)都属于降维(Dimension reduction)

这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同。

1
2
特征提取的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。
特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。
阅读全文 »

今天和大家聊一个老生常谈的话题,如何设计DWS层?

对于数仓的分层,想必大家都不陌生。基于OneData方法论的三层数仓划分:

数据引入层(ODS,Operational Data Store)、数据公共层(CDM,Common Dimenions Model)和数据应用层(ADS,Application Data Store)早就深入人心。

当然啦,涉及到每一层具体该怎么开发、建模,可能大家都有自己的理解。

阅读全文 »

小A是一家大型互联网公司的数据分析师。

这是一个近年来非常高光的岗位,当年小A为了进入大厂做数据分析,花费了巨大的心血。他也非常珍惜这个机会。

在大厂中,想要更好地发展,唯一的途径就是晋升。

阅读全文 »

产品是公司销售活动中重要的维度之一,那你了解公司产品布局吗?公司的哪些产品是盈利的?哪些产品的占有率高?别总是一提到产品分析就开始头疼,不知道该从何下手;一面对海量产品数据,挠破头也想不出体现数据价值的办法。

今天给大家分享一个数据分析模型—-波士顿矩阵

波士顿矩阵(BCG Matrix),又叫做市场增长率-相对市场份额矩阵、四象限分析法、产品系列结构管理法等,是波士顿公司首创的一种用来分析和规划企业产品组合的方法。

阅读全文 »

与其说AAARR是用户生命周期模型,我更愿意称之为用户层次模型。

AARRR到底是什么模型?

  • 有人说是用户生命周期管理
  • 也有人说是产品运营周期管理

那到底哪一个是对的,好像也分辨不出来。

阅读全文 »

案例:例如网易新闻APP日活突然下降5%,需要尽快排查一下数据下跌的原因。

这是一道经典的数据分析师面试题,考察的重点不在于从哪些指标去分析,而是面对这样的问题时的分析框架与逻辑思维,这是一个优秀的数据分析师必须具备的能力。

针对数据异常类问题,可参考如下分析框架:

阅读全文 »

不懂沟通,人生处处不轻松

1、最能打动人心的,是差异化的东西。

2、把你的事情变成大家共同的事情,让他成为你的工作伙伴(让对方知道,他为什么要帮你,他帮你能获得什么)。

考虑下,让你的事情,是不是能给对方带来什么信息增量,或者是为对方带去什么价值,是最能打动他们的。

阅读全文 »

概述

随着大数据时代的带来,数据的应用也日趋繁茂,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。而且,数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提!如何保障数据质量,确保数据可用性是每一位数据人都不可忽略的重要环节。

数据质量,主要从四个方面进行评估,即完整性、准确性、一致性和及时性,本文将会结合业务流程和数据处理流程,对这个四个方面进行详细的分析和讲解。

数据,最终是要服务于业务价值的,因此,本文不会单纯讲解理论,而是会从数据质量监控这一数据的应用为出发点,为大家分享居士对数据质量的思考。通过本文,你将获得如下几方面的知识点:

阅读全文 »

为什么要数据建模

为什么要数据建模?

这是一个互联网的时代,也是大数据的时代,数据的价值不言而喻。虽然大家都知道数据很重要,但如果数据不能得到很好应用,那么数据就没有价值,数据建模就是为了能够将数据的价值更好的挖掘出来 ,所进行的一系列工作。

数据建模本身是一种组织、分析、存储、应用数据的方法论,尽然是一种方法论,那么就有衡量好坏的标准:性能、成本、效率、质量。因此,数据建模的工作,就是围绕这四个指标做出最优解而进行的努力。

阅读全文 »