从数据、信息、算法三者的关系谈谈算法优化

?

摄影:Pexels

信息的作用是消除不确定性[1]。当信息时代和工业时代被移交时,如果思想没有改变,很容易被消除。

谷歌可以击败雅虎的最重要原因之一是谷歌使用数据而不是专业人士来消除页面排序的不确定性。

在互联网发展初期,由于网页数量较少,雅虎可以使用导航方法对网页进行分类。此时的排序并不那么重要。但是当网页数量呈指数级增长时,也就是说,当不确定性增加时,这种思维方式就会过时。

信息是一个更抽象的概念,在信息时代,它将以数据的形式呈现。数据可以理解为加密信息。

Google所做的是使用PageRank算法解密网页之间的数据并获取网页的排名信息。 PageRank的想法非常简单,但效果非常显着。

网页排名是PC时代的一个例子。智能手机时代有许多类似的例子。最重要的例子是个性化推荐。

如今,电子商务,视频和新闻平台都使用个性化推荐作为武器。原因在于,在智能手机时代,平台可以获得更多数据,因此可以解密更多信息,并且可以更大程度地消除不确定性。

无论是产品,视频还是新闻应用,您拥有的数据都可以分为三类。

最重要的是用户在APP上的操作记录。将记录对应用程序的任何用户操作,例如何时何地查看哪些项目,转发了哪些新闻以及喜欢哪个视频。

第二类是用户的基本属性,例如姓氏,年龄,永久地址,消费能力等。

第三类是商品/视频/新闻的基本属性。例如,产品类别,价格,视频导演/演员,新闻主题等。

相应的信息是用户对产品的偏好(/video/news)。个性化推荐的目的是利用上述三个方面的数据来解密越来越准确的偏好信息。

信息的减少程度代表了算法的优缺点。当然,这种判断方法更抽象,更具体和有效的方法是AB测试。关于AB测试,我稍后会写另一篇文章。

由于它是解密过程,因此算法优化必须具有上限,因为我们在解密后获得的信息量不超过数据中包含的信息量。

因此算法优化有两个主要方向:

一个是提高解密水平,减少信息丢失,并从当前数据中找出尽可能多的信息。特征工程,算法调整,使用不同模型或混合不同模型属于此类别。

第二是引入更多数据。更多数据通常意味着更多信息,并将提高算法的上限。

然而,由不同数据表示的信息可能是相关的,并且两个数据的信息量小于各个信息量的总和。为了获得更多信息,优选使用不太相关或甚至正交的信息的组合。

例如,在电子商务推荐数据中,如果引入了用户在产品上的积极行为数据,例如点击,添加愿望清单,添加购买和购买数据,则在此处引入评论和喜欢等积极数据。时间,通常比增加曝光。这种负面数据。

各种行为数据之间的相关性小于行为数据与用户基本属性之间的相关性。因此,在使用行为数据之后,应首先引入用户的基本属性,而不是尝试查找更多行为数据,以获得更大的效果。

[1]吴军,《信息论》 - 发布词语信息时代每个人的必修课

[2]吴军,《信息论》-13 |信息正交性:如何在大量信息的情况下做出决定?

96

学习技巧

2019.07.30 11: 08

字数1144

摄影:Pexels

信息的作用是消除不确定性[1]。当信息时代和工业时代被移交时,如果思想没有改变,很容易被消除。

谷歌可以击败雅虎的最重要原因之一是谷歌使用数据而不是专业人士来消除页面排序的不确定性。

在互联网发展初期,由于网页数量较少,雅虎可以使用导航方法对网页进行分类。此时的排序并不那么重要。但是当网页数量呈指数级增长时,也就是说,当不确定性增加时,这种思维方式就会过时。

信息是一个更抽象的概念,在信息时代,它将以数据的形式呈现。数据可以理解为加密信息。

Google所做的是使用PageRank算法解密网页之间的数据并获取网页的排名信息。 PageRank的想法非常简单,但效果非常显着。

网页排名是PC时代的一个例子。智能手机时代有许多类似的例子。最重要的例子是个性化推荐。

如今,电子商务,视频和新闻平台都使用个性化推荐作为武器。原因在于,在智能手机时代,平台可以获得更多数据,因此可以解密更多信息,并且可以更大程度地消除不确定性。

无论是产品,视频还是新闻应用,您拥有的数据都可以分为三类。

最重要的是用户在APP上的操作记录。将记录对应用程序的任何用户操作,例如何时何地查看哪些项目,转发了哪些新闻以及喜欢哪个视频。

第二类是用户的基本属性,例如姓氏,年龄,永久地址,消费能力等。

第三类是商品/视频/新闻的基本属性。例如,产品类别,价格,视频导演/演员,新闻主题等。

相应的信息是用户对产品的偏好(/video/news)。个性化推荐的目的是利用上述三个方面的数据来解密越来越准确的偏好信息。

信息的减少程度代表了算法的优缺点。当然,这种判断方法更抽象,更具体和有效的方法是AB测试。关于AB测试,我稍后会写另一篇文章。

由于它是解密过程,因此算法优化必须具有上限,因为我们在解密后获得的信息量不超过数据中包含的信息量。

因此算法优化有两个主要方向:

一个是提高解密水平,减少信息丢失,并从当前数据中找出尽可能多的信息。特征工程,算法调整,使用不同模型或混合不同模型属于此类别。

第二是引入更多数据。更多数据通常意味着更多信息,并将提高算法的上限。

然而,由不同数据表示的信息可能是相关的,并且两个数据的信息量小于各个信息量的总和。为了获得更多信息,优选使用不太相关或甚至正交的信息的组合。

例如,在电子商务推荐数据中,如果引入了用户在产品上的积极行为数据,例如点击,添加愿望清单,添加购买和购买数据,则在此处引入评论和喜欢等积极数据。时间,通常比增加曝光。这种负面数据。

各种行为数据之间的相关性小于行为数据与用户基本属性之间的相关性。因此,在使用行为数据之后,应首先引入用户的基本属性,而不是尝试查找更多行为数据,以获得更大的效果。

[1]吴军,《信息论》 - 发布词语信息时代每个人的必修课

[2]吴军,《信息论》-13 |信息正交性:如何在大量信息的情况下做出决定?

摄影:Pexels

信息的作用是消除不确定性[1]。当信息时代和工业时代被移交时,如果思想没有改变,很容易被消除。

谷歌可以击败雅虎的最重要原因之一是谷歌使用数据而不是专业人士来消除页面排序的不确定性。

在互联网发展初期,由于网页数量较少,雅虎可以使用导航方法对网页进行分类。此时的排序并不那么重要。但是当网页数量呈指数级增长时,也就是说,当不确定性增加时,这种思维方式就会过时。

信息是一个更抽象的概念,在信息时代,它将以数据的形式呈现。数据可以理解为加密信息。

Google所做的是使用PageRank算法解密网页之间的数据并获取网页的排名信息。 PageRank的想法非常简单,但效果非常显着。

网页排名是PC时代的一个例子。智能手机时代有许多类似的例子。最重要的例子是个性化推荐。

如今,电子商务,视频和新闻平台都使用个性化推荐作为武器。原因在于,在智能手机时代,平台可以获得更多数据,因此可以解密更多信息,并且可以更大程度地消除不确定性。

无论是产品,视频还是新闻应用,您拥有的数据都可以分为三类。

最重要的是用户在APP上的操作记录。将记录对应用程序的任何用户操作,例如何时何地查看哪些项目,转发了哪些新闻以及喜欢哪个视频。

第二类是用户的基本属性,例如姓氏,年龄,永久地址,消费能力等。

第三类是商品/视频/新闻的基本属性。例如,产品类别,价格,视频导演/演员,新闻主题等。

相应的信息是用户对产品的偏好(/video/news)。个性化推荐的目的是利用上述三个方面的数据来解密越来越准确的偏好信息。

信息的减少程度代表了算法的优缺点。当然,这种判断方法更抽象,更具体和有效的方法是AB测试。关于AB测试,我稍后会写另一篇文章。

由于它是解密过程,因此算法优化必须具有上限,因为我们在解密后获得的信息量不超过数据中包含的信息量。

因此算法优化有两个主要方向:

一个是提高解密水平,减少信息丢失,并从当前数据中找出尽可能多的信息。特征工程,算法调整,使用不同模型或混合不同模型属于此类别。

第二是引入更多数据。更多数据通常意味着更多信息,并将提高算法的上限。

然而,由不同数据表示的信息可能是相关的,并且两个数据的信息量小于各个信息量的总和。为了获得更多信息,优选使用不太相关或甚至正交的信息的组合。

例如,在电子商务推荐数据中,如果引入了用户在产品上的积极行为数据,例如点击,添加愿望清单,添加购买和购买数据,则在此处引入评论和喜欢等积极数据。时间,通常比增加曝光。这种负面数据。

各种行为数据之间的相关性小于行为数据与用户基本属性之间的相关性。因此,在使用行为数据之后,应首先引入用户的基本属性,而不是尝试查找更多行为数据,以获得更大的效果。

[1]吴军,《信息论》 - 发布词语信息时代每个人的必修课

[2]吴军,《信息论》-13 |信息正交性:如何在大量信息的情况下做出决定?