manbetx体育官网|manbext网页登录|manbex客户端下载

manbext网页登录

kNN的花式用法

雷锋网(公众号:雷锋网) AI 科技评论按,本文作者韦易笑,本文首发于知乎专栏简单代码,雷锋网 AI 科技评论获其授权转载。以下为原文:

kNN (k-nearest neighbors)作为一个入门级模型,因为既简单又可靠,对非线性问题支持良好,虽然需要保存所有样本,但是仍然活跃在各个领域中,并提供比较稳健的识别结果。

那么高维空间里两个点的距离,核化以后距离的平方可以表达为:

以及线性核(相当于传统欧式坐标系下点乘):

这里曲线拟合的效果非常漂亮,你用梯度下降或者最小二乘法做拟合根本达不到这样的效果,即便支持向量回归 SVR 也做不到这么低的误差率。如果你觉得有些过拟合的话,可以调节 K 的值,比如增加 K 值,可以让曲线更加平滑一些。

在分类时,同时选取了多个邻居进行结果投票前同样可以根据距离对投票结果加权,比如前面提到的距离的倒数,或者 exp(-d) 当权重。

端午节准备乘车的旅客,请遵守铁路运行安全相关规定,不要在高铁列车中抽烟、大声喧哗、霸占通道。中国铁路总公司有关部门负责人表示,节日期间旅客集中出行,繁忙干线列车大多数满负荷运输,呼吁广大旅客按规定乘车区间乘车,文明出行,共同维护良好的乘车秩序。(中新经纬APP)

kNN 因为实现简单,误差可控(有证明),能处理非线性问题所以仍然活跃在各种应用当中,前面咱们又介绍了如何拓展它的用途,如何引入核函数降低它误差,以及如何使用空间分割等技术提高它的性能。

第七种:冗余样本剔除

发挥文化资源富集优势,湖北连续多年举办海峡两岸李时珍医药文化与产业发展论坛、海峡两岸大学生荆楚行、武当武术夏令营等活动,获批5个“海峡两岸交流基地”。去年7月,全国首个“海峡两岸考古教学交流基地”落户湖北,更是为两岸专家学者围绕两岸文化遗产保护、学术研究、文脉传承等方面交流实践提供了有效途径。(完)

简单的讲就是先将样本点删除,然后用其他样本判断这个点,如果判断结果正确,则认为是一个冗余点,可以删除,如果不正确就要保留。

被保罗打成这般,这位上赛季最佳防守球员倒是没有什么好丢脸的,队友的不协防才是造成这一切的罪魁祸首,他又要防外线还要兼顾内线防守篮板的重任,这显然是他一个人无法做到的。

赢下雷霆,双枪的发挥固然重要,但本场暴走的坎特才是他们获胜的关键,胜负值是全场最高的+15。身为雷霆旧将,今日的他发挥及其出色,20分18篮板2助攻2盖帽这样的数据“大帝”不过如此。

他和亚当斯是雷霆曾经的“胡子兄弟”,如今两人场下依旧是密友,可场上各为其主依然得厮杀。本场比赛亚当斯拿下了17分9篮板,远不如坎特。

飞机客舱。中新经纬 张猛 摄

由圈圈变成点的是被剔除的样本,从左到右可以看出基本上是边缘部分的有限几个样本被保留下来了,结果非常诱人。

所以我们需要超球体空间分割法。

雷霆输掉比赛的原因很多,比如坎特爆发或是替补不给力这都可以作为借口,但其实最要命的是他们那久治不愈的头痛顽疾,三分球。全场33中5就罢了,更令人捶胸顿足的是乔治15中4外,其余人等相加,18投1中。这是什么概念,蒙眼扫射都要比这准。

基本思想是将线性不可分的低维度特征矢量映射到线性可分的高维特征空间中(有可能是无限维),矢量 x 映射到高维空间后称为 φ(x),那么核函数 K(xi, xj) 代表两个高维空间矢量的内积,或者点乘:

核方法如果你不熟悉,完全可以直接跳过,随机挑选一个核函数,带入到距离公式中用来求解 kNN 两个样本点的距离即可。

雷锋网版权文章,。详情见转载须知。

绿色是拟合出来的曲线,用的是 sklearn 里面的 KNeighborsRegressor,可以看得出对非线性回归问题处理的很好,但是还可以再优化一下,k 个邻居中,根据他们离测试点坐标 x 的距离 d 的倒数 1/d 进行加权处理:

如此自杀式的防守也看懵了坐在场边观战的火箭名宿“大梦”。

方法是对待测试样本 z ,先在训练样本中找到一个离他最近的邻居 B,计算 z 到 b 点的距离为 d1,然后再在训练样本中找到一个离 B 最近的点 C,计算 BC 距离为 d2,如果:

这样的防守效果就是哈登减少了左侧突破,可哈登的武器库中,岂止这两样进攻手段。纵观全场,爵士对于哈登的防守是失败的,上半场哈登就13投7中高效拿下17分,这还是在没有罚球的情况下,他还送出了7次助攻,塔克、卡佩拉都得到了很多轻松得分的机会。

近期,“买短乘长”话题闹得沸沸扬扬,中国铁路总公司表示,铁路部门会根据客流情况,决定是否办理越站补票手续。

Kai Yu 等人用邮政数据进行过测试,当样本数量增加,不规律性上升时,即便映射到高维核空间里,也会出现线性不可分的情况,此时 SVM 的准确度就会下降,而装配了 ball-tree 的核化 kNN 此时就能表现出较高的准确性,同时兼具良好的查询性能。

如果我们的 kNN 使用了核方法的话,kd 树就没法用了,因为那时候特征被映射到了高维的希尔伯特空间里去了,有可能无限维度,kd 树就得靠边站了。

第五种:搭配空间分割技术

kdtree 网上有很多文章和代码,篇幅问题不打算细说,只想强调一点,网上大部分 kdtree 都是帮你找到最近的邻居,但是最近的前 k 个邻居怎么找?大部分文章都没说,少部分说了,还是错的(只是个近似结果)。

那么接受 z 样本(识别为正类别),否则拒绝它(识别为负类别)。这个方法比较简单,但是如果局部样本太密集的话,d2 非常小,容易识别为负类别被拒绝。所以更成熟的做法是在训练样本中找到 k 个离 B 最近的样本点 C1 – Ck,然后把 d2 设置成 C1 – Ck 到 B 的距离的平均值。这个方法称为 kNN-d,识别效果比之前只选一个 C 的 NN-d 会好很多。

高铁让小长假的出行变得更加方便快捷,“五一”小长假期间,铁路旅客发送量前十位的城市为:上海、广州、杭州、南京、北京、武汉、郑州、长沙、沈阳和重庆。沪昆高铁、徐兰高铁、宁杭高铁、长株潭城际等31条高铁和客专线路客流量刷新历史纪录。其中沪昆高铁最高日运送92.4万人次。

本届大赛由教育部高等学校兵器类专业教学指导委员会、教育部高等学校自动化类专业教学指导委员会、中国自动化学会、中国人工智能学会共同主办。(完)

买火车票。中新经纬 张猛 摄

Kai Yu 在 《Kernel Nearest-Neighbor Algorithm》中论证过基于核方法的 kNN 分类器比传统 kNN 分类器表现的更好,因为仅仅是距离测量方式改变了一下,所以总体时间和传统 kNN 分类器仍然类似,但是效果好了很多:

这样误差就小多了,前面不考虑距离 y 值平均的方法在 sklearn 中称为 uniform,后一种用距离做权重的称为 distance。

除此之外,身为护龟左使队内头号得分手的乔大将军,今日带伤出战。根据赛前媒体的报道,前几天胳膊疼到抬不起来,这意味着下一站雷霆必须做出回应,一旦连丢两局,怕是回到主场也于事无补,唯有等着GG了。因为一旦双方大比分僵持,必会加重伤势也不利于调整休养。

武汉理工大学是首批“湖北省非物质文化遗产研究中心”单位。该校党委书记信思金说,学校向来重视并积极推动海峡两岸高校间文化交流与合作,将竭力把基地建设好、发展好。

而小开本是为了让他当好努尔基奇的替补,可随着努尔基奇的报销,坎特被放进了首发。他也抓住了这个展现自己的机会,离自己的大合同又近了一步。

如果旅客没有按规定补票强行越站乘车,到站后铁路部门将加收已乘区间应补票价50%的票款。铁路部门呼吁广大旅客不要“买短乘长”、越站乘车,共同维护良好旅行环境,以免给个人造成损失。

其实就是 sklearn 里面的 ball-tree,也是一种空间二分法,但是它不依赖坐标轴,只需要求解两个样本之间的距离就能构造出来,这天生适合引入核技巧:

今年端午节小长假集中在高考期间,届时铁路运输会出现学生流 、探亲流 、旅游流高度叠加的状况,铁路部门预计中短途热点城市的车票仍将一票难求,建议市民提前购票。

说到这里也许你会讲,kNN 我知道啊,不就是在特征空间中找出最靠近测试样本的 k 个训练样本,然后判断大多数属于某一个类别,那么将它识别为该类别。

还有很多扩展用法,比如搜索前 k 个最近邻居时加一个距离范围 d,只搜索距离目标 d 以内的样本,这样可以间接解决部分 one-class 问题,如果同时离所有样本都很远,就能返回 “什么都不是”,这个 d 的选取可以根据同类样本的平均密度乘以一个 alpha 来计算。

LIBSVM 里的三大用法:分类,回归,ONE_CLASS(离群点检测),同时也是监督学习中的三类主要问题,这里我们全部用 kNN 实现了一遍,如果你样本不是非常多,又不想引入各种包依赖,那么 kNN 是一个最简单可靠的备用方案。

雷霆接下来要做的,就是解决坎特这一点,外线恢复正常水准。至于乔治,他肯定会找回自己的状态。

我们谁都知道,麦迪是不甘心就此止步,他想破除那该死的首轮魔咒。麦迪的巅峰也就此逝去,再未能突破首轮,这也成了他的遗憾,也是不少姚麦球迷的遗憾。

赛前各路自媒体预测火箭是被看好的一方,他们不负众望拿下G1。虽然不像雄鹿那样一上来就将对手击倒,但整场比赛火箭一直压制着对手,爵士并未给他们造成太大的麻烦,他们赢得太过轻松,甚至都没有使用他们的杀手锏(无限单打)。

经过 reduction 过后的样本数据和原来的不一样,求解结果是一个近似解,只要误差可控,可以极大的提高 kNN 的搜索性能,效果如下:

赛季前半段在尼克斯,坎特过的并不开心,虽然他总时不时能贡献亮眼数据,可随着新秀鲁滨逊的崛起,坎特原本就可怜的出场时间再度被压缩。这是他的合同年,他不能干坐板凳,他要的是大合同。终于,尼克斯选择了买断,坎特犹豫再三选择了开拓者。

爵士队不会一直这么防守哈登,他们会在下场做出调整。至于火箭,他们现在占据了主动,唯一要做的就是静观其变。

避免有人不知道,还是简单回顾下 kNN 用于分类的基本思想。

更好的做法是 wi 设置为 exp(-d) ,这样 d=0 的时候取值 1,d 无穷大的时候,接近 0:

常用的核函数和 SVM 一样,有这么几个,比如常用的高斯核(RBF):

俗称 Kernel based kNN,SVM 之所以取得较大发展就是在引入核函数之后,而核函数并不是 SVM 特有,其他模型也都可以嫁接核函数,这种方法统称为 “核方法”。

这样你就能精确的找出前 k 个离 z 最近的样本了。kd 树和维度相关,当样本维度不高时,kd 树很快,但是样本维度高了以后,kd 树的性能就会开始下降了。同时 kd 树因为要计算坐标轴,所以仅仅适合在欧氏空间里进行切割。

多项式核(POLY):

进一步扩展,你还可以选择 j 个离 z 最近的 B 点,用上面的方法求出 j 个结果,最后投票决定 z 是否被接受,这叫 j-kNN-d 方法,上面说到的方法就是 j = 1 的特殊情况。

还有一种做法是,将样本全部放在最底层的叶子节点上,每个叶子节点包含很多个样本,判断切割的方式是某个节点所包含的样本数如果少于阈值就不切割,否则进行切割。

中新经纬版权所有,未经书面授权,任何单位及个人不得转载、摘编以其它方式使用。

学生们的参赛作品涉及医学、农业、日常生活等各个领域,既有灯饰水晶吊坠自动串联流水线系统、神经疾病动态智能测评分析系统,又有智能空中作业机器人、面向装配作业的机器人、楼宇共享垃圾分类回收机器人、智能排爆机器人等。

面对即将到来的端午节假期,即使没有买到高铁票也没关系。中新经纬客户端通过第三方售票平台发现,端午节当天,北京—广州HU7809、HU7803航班机票价格为615元,两地间高铁二等座价格为862元。北京—深圳HU7713、HU7707航班机票价格为545元,两地间高铁二等座需944.5元,所以即使买不到高铁票,换个出行方式也是不错的选择。

总之,虽然很简单,但确实值得好好玩玩,一套实现良好的 kNN 库除了分类、回归、异常识别外,搭配超球体空间切割还能做很多聚类相关的事情。用的好了,它不会让你失望,可以成为你的一把有力的辅助武器,当主武器没法用时拿出来使唤下。

先从把所有样本放到一个超球体里开始,找到一个样本当球心 x0,使得所有其他样本到它的最大距离最短。然后找到一个离 x0 最远的点 x1,再找到离 x1 最远的点为 x2,然后把球体内所有样本按照离 x1 最近分配给 x1,离 x2 最近就分配到 x2,然后构建两个子球体,再用上面的方法重新调整球心,然后递归下去,直到只包含一个样本,就不再切割,类似 kdtree。

经过一次变换后,我们把 φ(xi) 和 φ(xj) 消除掉了,完全用关于 xi, xj 的核函数来表达距离,并不需要直接将 xi,xj 变换到高维空间才求距离,而是直接用核函数计算出来。

这就是书上/网络上大部分介绍 kNN 的说辞,如果仅仅如此,我也不用写这篇文章了。事实上,kNN 用的好,它真能用出一朵花来,越是基础的东西越值得我们好好玩玩,不是么?

尔肯江·吐拉洪表示,希望武汉理工大学在思想上重视、在力量上投入、在工作上保障,推动基地不仅建起来,而且转起来,成为鄂台青年传承中华文化血脉的平台,培育两岸同胞共同的精神家园,激励两岸青年携手同行。

你需要维护一个长度为 K 的优先队列(或者最大堆),在找到最近邻居的基础上,将兄弟节点邻近的样本都填充到队列里,直到队列里装满 k 个样本,此时以 z 为圆心,队列里第 k 个离 z 最近的样本为半径,对 kd 树做一次范围搜索(前 k 个点一定落在该范围内),搜索过程中不断更新优先队列并及时根据最新的第 k 个样本离 z 的距离调整半径。

按照《铁路旅客运输规程》规定,在有运输能力的情况下列车为有需求的旅客办理越站补票,如果列车没有运输能力,将停止办理越站补票手续,并引导旅客按车票票面标明的车次、区段、座号乘车,防止出现严重超员情况,影响后续旅客乘车。

大赛顾问委员会由9位院士组成,技术委员会由16位专家学者及业内人士组成,总决赛评委由11位不同领域的专家组成。中国矿业大学副教授赵建伟表示,作为评审,他看重学生在项目中的参与度。无论项目是前沿科技方向还是立足当下、解决生活实际痛点的项目,都要看学生的动手能力,而不仅是天马行空的想法。

但终究,出来混总是要还的!

你有一系列样本坐标(xi, yi),然后给定一个测试点坐标 x,求回归曲线上对应的 y 值。用 kNN 的话,最简单的做法就是取 k 个离 x 最近的样本坐标,然后对他们的 y 值求平均:

如果 x 刚好和某样本重合,di = 0 的话,1/d 就正无穷了,那么直接取该样本的 y 值,不考虑其他点(sklearn的做法),这样得到的 Y 值就相对比较靠谱了:

对比 SVM 的 ONE_CLASS 检测方法,(j) kNN-d 有接近的识别效果,然而当特征维度增加时,SVM 的 ONE_CLASS 检测精度就会急剧下降,而 (j) kNN-d 模型就能获得更好的结果。

由于前面的空间分割技术并不会影响求解结果,所以大规模 kNN 一般是先上一个 ball-tree,还嫌不够快就上冗余样本剔除。唯一需要注意的地方是冗余剔除会影响 one-class 识别或其他依赖密度计算的东西,需要做一些额外处理。

进行范围搜索时和 kdtree 一样,先判断顶层节点的超球体是否和目标点 z 为圆心的目标球体相交(两个球体半径相加是否 >= 两球心之间的距离),如果不相交就跳过,相交的话继续把该节点的左右两个子球体拿过来判断相交,相交的话递归重复上面步骤,直到抵达叶子节点。

爵士主教练斯奈德向来强调防守,可在今天的比赛中,球员们竟然采用的是防守哈登左侧,腾出右侧让其突破,哈登杀进内线后面对的总是戈贝尔这样的大个。比赛中经常可以看到,戈贝尔为了防止哈登在禁区抛投只能选择出手干扰,如此哈登传内传外皆可“喂饼”。

这时候 One-class 识别器一直扮演着举足轻重的作用,我们将 0-9 的所有样本作为“正样本”输入,测试的时候检测检测测试值是否也属于同类别,或者属于非法的负类别。kNN 来做这件事情是非常容易的,我们用 NN-d 的本地密度估计方法:

这个事情用传统分类器非常困难,因为负样本是无穷多,多到没法列举所有额外的手势,我们只能收集正样本。这和 0-9 数字手写识别是一样的,比如用户写了个 A 字母,我们需要判断某个输入图像不是 0-9 中任何一个,但是我们除了 0-9 的样本外没法枚举所有例外的可能。

第六种:超球体空间分割

部分航班比高铁更便宜

因为范围搜索也只需要依赖距离计算,和矢量到底有几个维度没有关系,也不需要像 kdtree 一样数坐标轴。因此 ball-tree 除了构造时间长点外,整体效率超过 kdtree,并且在矢量维度较高时,性能不会像 kdtree 一样下降,同时还支持核化版本的 kNN。

根据样本点,描绘出一条曲线,使得到样本点的误差最小,然后给定任意坐标,返回该曲线上的值,叫做回归。那么 kNN 怎么做回归呢?

搜索的话就先递归找到目标点 z 所在的叶子节点,以该节点包含的样本 x 作为 “当前最近点”,再以 x 到 z 的距离 d 为半径,z 为圆心对整棵树进行递归范围搜索(如果某子树范围和球体不相交就不往下递归),最近点一定落在该范围中,一旦找到更近的点就即时缩小范围。

时间一晃来到了10年之后,当年的那些球员早已被写进了历史,变成尘封的记忆。但积怨不会凭空消亡,像是命运的安排当年火箭连续倒在爵士铁蹄之下,那么现在就该由“灯泡”连续两年找回场子了。

kNN 中最关键的一步就是求距离 d(xi, xj),这个距离有很多种求法,比如传统欧氏距离:

刚刚过去的“五一”小长假,全国铁路发送旅客7270万人次,增长18.2%,尤其是5月1日,全国铁路旅客发送量达1724.3万人次,创铁路单日旅客发送量历史新高。

针对大规模样本时 kNN 性能不高的问题,大家引入了很多空间分割技术,比如 kdtree:

全联盟都知道,想要战胜火箭,首先需要防住哈登,让他陷入单打独斗同时还需让他远离罚球线,可要想防住哈登谈何容易。爵士是联盟公认的防守强队,常规赛哈登面对爵士场均得分只有33.5分,低于赛季的场均36.1分,可他最后两场面对爵士,分别杀下了47分和43分,如此看来,爵士常规赛并没有防住哈登。

首届全国大学生智能机电系统创新设计大赛现场。供图 

铁总:列车根据运输能力办理越站补票业务

就是一种空间二分数据结构,构建很简单,选择一个切割坐标轴(所有样本在该坐标轴上方差最大)并将样本按该坐标轴的值排序,从中位切割成左右两个部分,然后继续递归切割,直到当前节点只有一个样本为止。

下半场爵士改变了对哈登的防守策略,收到略微效果。可火箭的另一位核心保罗开始表演,戈贝尔防守固然很好,但面对保罗重心高,移动速度慢这些缺点难以掩盖,保罗一个加速突破就可以轻松突破,保罗末节单打戈贝尔四次全部成功。

针对测试样本 Xu,想要知道它属于哪个分类,就先 for 循环所有训练样本找出离 Xu 最近的 K 个邻居(k=5),然后判断这 K个邻居中,大多数属于哪个类别,就将该类别作为测试样本的预测结果,如上图有 4 个邻居是红色,1 是绿色,那么判断 Xu 的类别为“红色”。

其实就是在距离函数上做文章,那么 kNN 引入核方法以后同样是在距离函数上做文章。

One-class 分类/识别又称为:异常点/离群点检测,这个非常有用。假设我们的 app 需要识别 5 种不同的用户手势,一般的分类器只会告诉你某个动作属于 1-5 哪个类型,但是如果是用户进行一些非手势的普通操作,我们需要识别出来“不属于任何类型”,然后需要在手势模块中不进行任何处理直接忽略掉。

今年要报的是08年的仇,那年姚明伤停导致火箭毫无优势可言,四场过后,火箭1:3落后已经来到生死边缘。第五战,麦迪打封闭出战,独自扛起火箭前行,他们大胜继续维持悬念,可以说正是这一针,毁了麦迪的职业生涯。苍天无眼,实力不济的火箭最终还是倒在了爵士的铁蹄之下。

黄志贤对基地提出三点希望,一是聚焦两岸高校青年群体;二是重视保护整理两岸同胞口传心授、世代沿袭、见人见物见生活的文化遗产,探索构建两岸非遗人才联合培养体系;三是立足高校优势特色,把非遗保护与教育传播结合起来,把传统文化与现代理念融合起来,不断探索互联网、大数据等新技术手段的研究应用,推动非遗文化实现创造性转化、创新性发展。

在不同的数据集上,核化 kNN 都能比传统 kNN 表现的更精确和稳定,他们使用 US Postal Service 数据和 BUPA Live Disorder 数据进行了验证,结果表明核化过的 kNN 分类器精度明显好于传统的 kNN,和 SVM 有得一拼:

和外界预测的不同,缺少了“弩机”的小开并没有想象中那么脆弱,他们在主场“爆冷”击败了雷霆。

这样即使 x 和某个训练样本重合或者非常接近也不会把该 wi 弄成无穷大,进而忽略其他样本的权重,避免了 sklearn 里面那种碰到离群点都非要过去绕一圈的问题,曲线就会更平滑。

湖北是楚文化发祥地,拥有炎帝文化、禅宗文化、武当道教文化、辛亥首义文化、三国文化等特色文化。据官方统计,该省现有国家级“非遗”127项,省级“非遗”546项。