政府统计处
为促进数字化转型,统计处正致力推动以下两项重要发展:
统计处每日处理约七万份进出口报关单,全年共约一千八百万份,用以编制对外商品贸易统计数字。二零二三年,有关处理程序涉及核实近三百六十万项货物分类及其申报单价,并涵盖八千项统计类别。
统计处须在短时间内准确验证大量数据,以便按时完成编制每月贸易统计数字,所面对的挑战甚大。多年来,审查货物说明时均需要大量人力,因为这些说明通常采用自由文本格式,难以由传统上以规则为基础的电脑系统有效处理。
由二零一八年起,统计处不断探索使用AI模型分析大量非结构化的文本数据,目标是利用AI提升数据验证过程的质素和效率。
由部门内部开发的AI模型采用了深度学习算法,通过对数百万条已标记的货物描述进行训练,以预测每份贸易申报的货物编号,并验证其单位价格。
自动货物编码和单位价格异常检测方法十分创新,大大减少了人手检查的需求,同时也提升了数据质素。在新冠疫情期间,此举措更有助统计处应对当时的严峻挑战。
今年年初,新方法已在工作流程中全面实施,令所需人力减少了四成。有关资源获重新分配,用以在统计处设立了两个策略性的新科别:数据科学科及社会数据发展科。此外,部门亦在其他涉及大数据的统计范畴加强了人手安排。这使统计处能够更好地为日新月异的大数据时代作好准备,并在各个领域提供更完备的统计分析服务。
除了传统的抽样调查外,统计处也一直探索用于编制统计资料的新数据来源,以降低数据收集成本和减轻受访者的负担,同时确保编制统计数据的质素。
统计处计划由2026年人口普查开始,更广泛和有系统地运用各政府部门收集的行政数据,而应用范畴主要包括以下两方面:
第一方面,是以行政数据替代人口普查中的部分问题(如公共房屋租金、福利金额等问题),从而减少数据收集的成本和受访者的负担。统计处采用自行研发以AI技术为基础的记录连接工具,在屋宇单位层面高效准确地把普查样本数据与行政记录进行配对。
第二方面,是以行政数据取代2031年人口普查中覆盖约九成住户的「短问卷」。目前,统计处已全面运用匿名化的出入境记录,编制更精确的人口估计数字,无须再依赖「短问卷」,从而显著缩小操作规模并降低成本。
新的方式会纳入更多行政数据,并重新设计工作流程,预计可大幅降低成本。统计处估计2026年和2031年人口普查的总成本将减少四成,按现时价格计算,大约能节省六亿八千万港元。
除上述两项发展外,统计处具前瞻性的大数据策略亦涵盖前沿技术的探索与应用,例如以无人机辅助和网页抓取技术进行智能数据收集、用于文件处理的电脑视觉技术等。全方位的能力建设计划涵盖数据科学培训、跨部门数据科学项目合作,以及资讯科技基础设施升级。透过此计划,统计处把握数字化转型机遇的能力已大为提升。
这些举措充分展示了统计处致力应用AI技术的决心,确保我们在日趋数字化的世界保持智慧统计的领先地位。