生成式模型和判别式模型

决策函数$Y=f(X)$与条件概率分布$P(Y|X)$

决策函数$Y=f(x)$:输入一个$x$,它就输出一个$y$值,这个$y$与一个阈值比较,根据比较结果判定$x$属于哪个类别。

条件概率分布$P(y|x)$:输入一个$x$,它通过比较它属于所有类的概率,然后预测时应用最大后验概率法(MAP)即比较条件概率最大的类为x对应的类别。

阅读全文 »

Out of Vocabulary

why&what is OOV

未登录词就是训练时未出现,测试时出现了的单词。在自然语言处理或者文本处理的时候,我们通常会有一个字词库(vocabulary)。这个vocabulary要么是提前加载的,或者是自己定义的,或者是从当前数据集提取的。假设之后你有了另一个的数据集,这个数据集中有一些词并不在你现有的vocabulary里,我们就说这些词汇是Out-of-vocabulary,简称OOV。

For example, words such as “tensor” and “tensor” are present in the vocabulary of Word2Vec. But if you try to get embedding for the compound word “tensorflow”, you will get an out of vocabulary error.

阅读全文 »

Text Summarization

Definitions

Automatic text summarization is the task of producing a concise and fluent summary while preserving key information content and overall meaning.

自动文本摘要是生成简洁流畅的摘要,同时保留关键信息内容和整体含义的任务

阅读全文 »

全连接神经网络简介

对于全连接神经网络,相信很多读者一听到“网络”二字,头皮就开始发麻,笔者一开始学的时候也一样,觉得网络密密麻麻地,绝对很难,其实不然,这里的网络比我们现实生活中的网络简化了不止一丁点儿,但是它却能出奇地完成各种各样的任务,逐渐成为我们人类智能生活的璀璨明珠。当然,虽然全连接神经网络并不是最耀眼的一颗,但却是每一个初学的读者必须去了解的一颗,在这里,笔者认为全连接神经网络是每位读者深度学习之旅的开端。

全连接神经网络原理

光看名字,可能大家并不了解这个网络是干啥的,那么笔者先给大家附上一张图,如下图所示。它作为神经网络家族中最简单的一种网络,相信大家看完它的结构之后一定会对它有个非常直观的了解。

阅读全文 »

Model-based Dialogue Policy

Markov Chain - 马尔科夫链

马尔科夫链,它是假设某一时刻状态转移的概率只依赖于它的前一个状态。

举个形象的比喻,假如每天的天气是一个状态的话,那个今天是不是晴天只依赖于昨天的天气,而和前天的天气没有任何关系。当然这么说可能有些武断,但是这样做可以大大简化模型的复杂度,因此马尔科夫链在很多时间序列模型中得到广泛的应用,比如循环神经网络RNN,隐式马尔科夫模型HMM等,当然MC也需要它。

阅读全文 »

数据仓库

背景

1、数仓是什么,其实就是存储数据,体现历史变化的一个数据仓库。因为互联网时代到来,基于数据量的大小,分为了传统数仓和现代数仓。

2、传统数仓,使用传统的关系型数据库进行数据存储,因为关系型数据库本身可以使用SQL以及函数等做数据分析。所以把数据存储和数据分析功能集合为一体,加上一个可视化界面,就能从数据存储,数据分析,数据展示完整方案。

阅读全文 »