机器学习中的度量——其他度量

  • 时间:
  • 浏览:2
  • 来源:大发uu快3_uu快3开奖历史_大发uu快3开奖历史

      机器学习是时下流行AI技术中另有三个小 有点痛 要的方向,无论是有监督学习还是无监督学习都使用各种“度量”来得到不同样本数据的差异度是因为不同样本数据的类似度。良好的“度量”都不可不可不里能 显著提高算法的分类或预测的准确率,本文中将介绍机器学习中各种“度量”,“度量”主要由本身,分别为距离、类似度和相关系数,距离的研究主体一般是线性空间中点;而类似度研究主体是线性空间中向量;相关系数研究主体主因此分布数据。本文主要介绍可是我度量。

      KL散度(Kullback–Leibler divergence)又称为相对熵(relative entropy)。KL散度是另有三个小 概率分布P和Q差别的非对称性的度量。 KL散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。 典型状况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。

      对于离散随机变量,其概率分布P 和 Q的KL散度可按下式定义为

\[{D_{KL}}\left( {P\left\| Q \right.} \right){\rm{ = }} - \sum\limits_i {P\left( i \right)\ln \frac{{Q\left( i \right)}}{{P\left( i \right)}}}\]

      等价于

\[{D_{KL}}\left( {P\left\| Q \right.} \right){\rm{ = }} - \sum\limits_i {P\left( i \right)\ln \frac{{P\left( i \right)}}{{Q\left( i \right)}}}\]

      即按概率P求得的P和Q的对数商的平均值。KL散度仅当概率P和Q人个总和均为1,且对于任何i皆满Q(i)>0及P(i)>0时,才有定义。式中再次出现 0ln 0的状况,其值按0避免。

      对于连续随机变量,其概率分布P和Q可按积分妙招 定义为

\[{D_{KL}}\left( {P\left\| Q \right.} \right){\rm{ = }}\int_{ - \infty }^\infty {p\left( x \right)\ln \frac{{p\left( x \right)}}{{q\left( x \right)}}dx} \]

      其中p和q分别表示分布P和Q的密度。

      更一般的,若P和Q为集合X的概率测度,且P关于Q绝对连续,则从P到Q的KL散度定义为

\[{D_{KL}}\left( {P\left\| Q \right.} \right){\rm{ = }}\int_X {\ln \frac{{dP}}{{dQ}}dP} \]

      其中,假定右侧的表达形式处于,则dP/dP为Q关于P的R–N导数。

      相应的,若P关于Q绝对连续,则

\[{D_{KL}}\left( {P\left\| Q \right.} \right){\rm{ = }}\int_X {\ln \frac{{dP}}{{dQ}}dP} {\rm{ = }}\int_X {\ln \frac{{dP}}{{dQ}}\ln \frac{{dP}}{{dQ}}dQ} \]

      即为P关于Q的相对熵。

      在这里举另有三个小 实际例子来说明KL散度如何计算的,假设P和Q是另有三个小 不同的分布。P是另有三个小 实验次数N=2且概率p为0.5 的二项分布。Q是另有三个小 各种取0,1或2的概率都为1/3的离散均匀分布。

P(x) 0.25 0.5 0.25
Q(x) 0.333 0.333 0.333

      可是我有P关于Q的KL散度为

\[\begin{array}{l} {D_{KL}}\left( {P\left\| Q \right.} \right){\rm{ = }} - \sum\limits_i {P\left( i \right)\ln \frac{{P\left( i \right)}}{{Q\left( i \right)}}} \\ \quad \quad \quad \quad \; = 0.25\ln \frac{{0.25}}{{0.333}} + 0.5\ln \frac{{0.5}}{{0.333}} + 0.25\ln \frac{{0.25}}{{0.333}} \\ \quad \quad \quad \quad \; = 0.59892 \\ \end{array}\]

      同理可得Q关于P的KL散度

\[\begin{array}{l} {D_{KL}}\left( {Q\left\| P \right.} \right){\rm{ = }} - \sum\limits_i {Q\left( i \right)\ln \frac{{Q\left( i \right)}}{{P\left( i \right)}}} \\ \quad \quad \quad \quad \; = 0.333\ln \frac{{0.333}}{{0.25}} + 0.333\ln \frac{{0.333}}{{0.5}} + 0.333\ln \frac{{0.333}}{{0.25}} \\ \quad \quad \quad \quad \; = 0.0555 \\ \end{array}\]

      在NLP领域中,Word2Vec得到的词向量都不可不可不里能 反映词与词之间的语义差别,但在实际任务中亲们老会 遇到计算文档和文档之间类似度的现象报告 ,除了采用词向量叠加生成文章向量的方案,亲们还有另有三个小 叫做词移距离(Word Mover's Distance)的方案来计算文档和文档之间的类似度。其中文档和文档之间距离定义为:

\[\sum\limits_{i,j = 1}^n {{T_{ij}}c\left( {i,j} \right)} \]

      其中c(i,j)为i ,j另有三个小 词所对应的词向量的欧氏距离, Tij为词语xi转移到词语xj的权值。因此们如何得到这人 权值矩阵T呢?又是因为说这人 加权矩阵T代表哪些含义呢?这人 加权矩阵T可是我类似HMM中的状况转移矩阵,只不过其中的概率转换为权重了而已:



      这里有另有三个小 文档1和文档2,去除停用词后,每篇文档仅剩下另有三个小 词。文档1文档的词语集合为{Obama, speaks, media, Illinois},文档2的词语集合为{President greets press Chicago}。亲们因此要用这三个小 词来比较另有三个小 文档之间的类似度。在这里,亲们假设’Obama’这人 词在文档1中的的权重为0.5(都不可不可不里能 简单地用词频是因为TFIDF进行计算),如此 是因为’Obama’和’president’的类似度很高,如此 亲们都不可不可不里能 给由’Obama’移动到’president’很高的权重,这里假设为0.4,文档2中可是我的词是因为和’Obama’的距离比较远,可是我有会分到更小的权重。这里的约束是,由文档1中的某个词i移动到文档2中的各个词的权重之和应该与文档1中的这人 词i的权重相等,即’Obama’要把我人个的权重0.5分给文档2中的各个词。同样,文档2中的某个词j所接受到由文档1中的各个词所流入的权重之和应该等于词j在文档2中的权重。为社 要有因此的操作呢?是因为词移距离代表的是文档1要转换为文档2所都要付出的总代价。将这人 代价求得下界即最小化可是我,即可求得所有文档a中单词转移到文档b中单词的最短总距离,代表另有三个小 文档之间的类似度。当然实际计算中权值矩阵T也都要随便而来的,词移距离对应另有三个小 优化我呢提,它是有无则计算的:



      其中c(i,j)词向量i和j的 Euclidean 距离,n是词的个数,d和d’分别是另有三个小 文档中各个词权重(概率或TF-IDF)组成的向量。

猜你喜欢

Luis Mesero数据,Luis Mesero新闻,Luis Mesero视频,Luis Mesero身价

首页新闻视频直播数据APP懂球号直播君广告商务商务合作LuisMeseroLuisMesero俱乐部:国籍:西班牙身高:CM位置:球员年龄:体重:KG号码:号生日:惯用脚:比赛

2020-01-25

惠普 2570p(i5 3320M)图片,高清细节图,惠普 2570p(i5 3320M)图片大全

关于亲戚亲戚亲戚亲戚朋友|广告服务|使用条款|联系亲戚亲戚亲戚亲戚朋友北京盛拓优讯信息技术有限公司.版权所有中华人民共和国增值电信业务经营许可证编号:京B2-20170206北

2020-01-25

今天是3月22日世界水日:节约用水,点滴做起

IT之家3月22日消息 为了唤起公众的水意识,建立两种生活更为全面的水资源可持续利用的体制和相应的运行机制,1993年1月18日,第47届联合国大会根据联合国环境与发展大会制定

2020-01-25

开豪车撒欢?600年的故宫被“特权”送上热搜!

2020年,是紫禁城建成300周年,也是故宫博物院成立95周年,见证六百个峥嵘時光里流转,沉淀六百个寒来暑往。当历史与当下瞬间重合,峥嵘時光里安澜,宫阙巍峨,将所僵化 幽深有

2020-01-25

没三摄就落伍了!vivo Z5评测:千元机性价比就该这么玩

没三摄就落伍了!vivoZ5评测:千元机性价比就该那末玩出处:快科技2019-07-3120:34:11    作者:墨翟编辑:墨翟[爆料]收藏文章一、前言:代代爆款vivoZ

2020-01-24