新闻网讯(通讯员姚轩)近日,测绘遥感信息工程国家重点实验室教授吴华意及遥感信息工程学院桂志鹏课题组在国际综合类学术期刊《自然·通讯》发表题为“Clustering by measuring local direction centrality for data with heterogeneous density and weak connectivity (《一种面向密度异质与弱连接的局部方向中心性聚类算法》)”的论文。
该论文基于边界搜寻思想,提出一种局部方向中心性聚类算法(简称CDC)。该算法能够有效克服现实数据分布中普遍存在的密度异质和弱连接性问题,从而提升聚类的精度与稳定性,论文通过多类数据集上与基准算法的对比实验验证了算法的有效性。
论文第一作者为测绘遥感信息工程国家重点实验室博士生彭德华,通讯作者为桂志鹏。论文中细胞识别相关实验分析得益于生命科学学院教授周宇和博士生王得和的指导与帮助,并得到武汉大学超算中心的计算资源支持。测绘遥感信息工程国家重点实验室博士生马云骋、遥感信息工程学院2022级硕士生黄子晨均为该论文作出贡献。
CDC算法的多个应用场景和scRNA-seq数据的处理流程及聚类结果
聚类是一种强大的非监督分类机器学习方法,其根据数据在特征空间中的邻近性挖掘数据背后隐藏的群体分布模式,因此被广泛应用于信息科学、生物学、地球学和经济学等领域。尽管已有不计其数的聚类方法被提出,但现实数据分布中普遍存在的密度异质和弱连接特性仍然给聚类分析带来巨大挑战,导致不同密度的类簇很难通过统一的聚类参数设置被完整识别,而存在弱连接的不同聚类簇被误合并,严重制约了聚类分析的精度与鲁棒性。
该论文提出的局部方向中心性聚类算法CDC,通过度量每个点的K最近邻(KNN)分布均匀性来区分内部点和边界点。由于边界点能够形成封闭的笼子约束内部点的连接,从而防止跨簇连接,实现弱连接簇的有效分离,也避免了密度异质对类簇识别的影响。该研究在48个不同类型数据集上(单细胞RNA序列、质谱流式细胞、合成数据集、UCI数据集,人声语料库,人脸图像)将CDC与38种专业或通用基准算法进行了性能对比,结果表明CDC较主流聚类方法有更高的精度和参数鲁棒性,并表现出较好的伸缩性与数据适应性,因此具有广泛的潜在应用价值。
该研究工作得到国家自然科学基金、国家科技部重点研发计划及武汉大学知卓时空智能研究基金等项目资助。
论文链接:
https://www.nature.com/articles/s41467-022-33136-9
(供图:遥感信息工程学院 编辑:相茹)