近日,我院桂志鹏副教授及测绘遥感信息工程国家重点实验室吴华意教授团队在国际综合类学术期刊《自然·通讯》发表题为“Clustering by measuring local direction centrality for data with heterogeneous density and weak connectivity (一种面向密度异质与弱连接的局部方向中心性聚类算法)”的论文。该论文基于边界搜寻思想,提出一种局部方向中心性聚类算法(简称CDC)。该算法能够有效克服现实数据分布中普遍存在的密度异质和弱连接性问题,从而提升聚类的精度与稳定性,论文通过多类数据集上与基准算法的对比实验验证了算法的有效性。审稿人对论文给予了高度评价,认为该方法是优雅、简洁和创新性的(“The algorithm is extremely elegant, simple, and innovative”)。
论文第一作者彭德华为我院14级本科生及18级硕士研究生,目前在测绘遥感信息工程国家重点实验室读博(一导为吴华意教授);通讯作者桂志鹏副教授为我院地理信息工程系教师,是彭德华的本科班主任、硕士生导师及博士生第二导师。论文中细胞识别相关实验分析得益于论文合作者武汉大学生命科学学院周宇教授和王得和博士的大力指导与帮助,并得到武大超算中心的计算资源支持;其他合作者包括我院22届硕士毕业生马云骋(现在测绘遥感信息工程国家重点实验室读博)和我院22级硕士生黄子晨。同时,该研究工作得到国家自然科学基金、国家科技部重点研发计划及武汉大学知卓时空智能研究基金等项目的资助。
CDC算法的多个应用场景和scRNA-seq数据的处理流程及聚类结果
聚类是一种强大的非监督分类机器学习方法,其根据数据在特征空间中的邻近性挖掘数据背后隐藏的群体分布模式,因此被广泛应用于信息科学、生物学、地球学和经济学等领域。尽管已有不计其数的聚类方法被提出,但现实数据分布中普遍存在的密度异质和弱连接特性仍然给聚类分析带来巨大挑战,导致不同密度的类簇很难通过统一的聚类参数设置被完整识别,而存在弱连接的不同聚类簇被误合并,严重制约了聚类分析的精度与鲁棒性。该论文提出的局部方向中心性聚类算法CDC,通过度量每个点的K最近邻(KNN)分布均匀性来区分内部点和边界点。由于边界点能够形成封闭的笼子约束内部点的连接,从而防止跨簇连接,实现弱连接簇的有效分离,也避免了密度异质对类簇识别的影响。该研究在48个不同类型数据集上(单细胞RNA序列、质谱流式细胞、合成数据集、UCI数据集,人声语料库,人脸图像)将CDC与38种专业或通用基准算法进行了性能对比,结果表明CDC较主流聚类方法有更高的精度和参数鲁棒性,并表现出较好的伸缩性与数据适应性,因此具有广泛的潜在应用价值。
桂志鹏老师团队活动合照
论文链接:
https://www.nature.com/articles/s41467-022-33136-9