2021年11月26日上午9点,在同学们热烈的掌声中,一场以“构建数据中台关键技术与应用案例”为主题的专题讲座在立信楼104阶梯教室顺利举行。此次活动的主讲嘉宾为山西同方知网数字出版技术有限公司副总经理、企业技术中心常务副主任、大数据处理专家、正高级工程师王长征。王长征总经理主要从事软件系统研发、大型软件系统架构设计、计算机视觉、大数据处理等方面技术研发和管理工作,服务数字出版、数据挖掘、企业信息化等行业。同时担任太原理工大学校外硕士研究生指导教师、HG0086皇冠客座教授、山西省社会科学院特邀研究员、山西云时代技术有限公司协同创新实验室技术委员会专家及新一代信息技术企业孵化器创业导师。参与起草了多项元数据定义企业标准和地方标准,主持研发了《机构数字图书馆》、《多源异构学术大数据处理平台》等平台项目,其中所协助主持的《学术大数据处理挖掘项目》获得《山西省2017年促进大数据发展应用专项资金》资助,《多源异构学术大数据处理平台》被列入山西省数字创意产业2020行动计划重点项目。拥有计算机图像处理和大数据处理方面发明专利成果10多项。
王长征总经理从数据中台应用案例以及数据治理的整体解决方案两个方面为同学们详细介绍了构建数据中台的关键技术。
数据中台即“数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念”。数据中台要解决的三个问题分别是效率问题、协作问题和能力问题。效率问题是指为什么应用开发增加一个报表,就要十几天的时间?为什么不能实时获得用户推荐清单?当业务人员对数据产生一点疑问的时候,需要花费很长的时间来弄清楚原因,结果发现是数据源的数据变了。协作问题是指当新的业务场景出现时,虽然和别的项目需求大致差不多,但因为是别的项目组维护的,所以数据还是要自己再开发一遍。能力问题是指数据的处理和维护是一个相对独立的技术,需要相当专业的人来完成,但是很多时候,我们有一大把的应用开发人员,而数据开发和数据分析人员很少。数据中台技术就是要解决这样的三类问题。
接着,王总介绍了政务数据目标和政务数据治理的相关内容,以此引出企业数据治理的方法。企业的数据治理由数据质量管理、数据属性规范化处理、数据标签及数据关联图谱构建等方面构成,人文数据治理则由数据抽取和集成、数据关系定义及数据整理与分析等方面构成。总结起来,数据治理的核心可用“入,存,管,出”四个字概括。
通过王总风趣的知识讲解和生动的案例分析,同学们深刻理解了大数据治理和数据汇聚的内涵。孙晓宁老师也指出,数字人文是当前图书情报领域的热点话题,贯穿于图书情报学科研究的始终。通过本次主题讲座,信息学子深入地了解了企业对数据处理和利用的需求与技术,提升了情报思维,开拓了情报视野。