近日,重庆研究院大数据挖掘及应用中心团队在挖掘推荐系统的信息核方面取得进展,该研究成果在保证推荐功能的前提下对推荐网络进行结构压缩,为推荐算法处理大规模数据集提供了新思路。
个性化推荐技术,在理论层面和应用层面都具有十分重要的意义。一方面,个性化推荐可以看作是稀疏矩阵的完备问题,另一方面,个性化推荐已经成为在线网站的核心技术,取得了巨大的经济和社会效益,切实改善了人们的工作和生活。
在线系统中,推荐系统要做的就是分析用户的上网行为,主动为用户推荐可能感兴趣的对象,比如新闻、商品、好友、音乐等。到目前为止,大多数的工作主要研究如何提高推荐算法的性能,例如推荐系统的准确性、多样性和效率等,只有极少量的工作试图研究推荐系统的工作原理,以及推荐算法有效的原因。
一般地,推荐系统可以简化为一个用户—商品的二部分图。近年来,蓬勃发展的复杂网络研究为推荐系统研究提供了新的理论和方法,基于网络的推荐系统逐渐成为一个重要的分支,在理论和应用中都取得了很好的成果。另一方面,复杂网络的发展也为研究人员更深刻地理解推荐系统提供了有力的工具。其中,对给定数据集,如何在众多推荐算法中找到合适的推荐算法是一个相当重要而又非常困难的问题。针对上述问题,中科院重庆研究院大数据中心尚明生研究员及其研究团队提出并研究了推荐算法和数据集的特征关联问题,提出一种使得通过事先分析数据集的特征就能找到适合该数据集的推荐算法[1]。
同时,该研究团队进一步提出并研究了推荐系统的数据压缩问题,通过提取用户—商品二部分网络的信息核[2]或者信息骨架[3],大幅提升推荐算法的计算效率。信息核定义为推荐系统中小部分核心用户,这些用户携带了大量的信息。研究表明,当推荐算法只考虑信息核的信息时,算法有时候比用所有信息得到的推荐精确度还要高;最差的情况下,也能达到91.4%的精确性。但该算法只考虑了一些简单的网络结构,比如网络中的四边形。
为了弥补现有方法的不足,该研究团队提出基于用户和商品邻居节点的信息,提取用户—商品二部分网络的信息骨架[4]。测试结果表明,该方法要明显好于现有的信息骨架提取方法。进一步深入分析所提取的信息骨架的结构特征,发现该方法提取的信息骨架具有较高的聚集系数,这从一定程度上揭示了该算法优于现有算法的原因。以上研究已获得国家自然科学基金项目支持。