计算机专业必须学习数值分析(哈工大教授刘川意)
共话网络安全
今年是《网络安全法》实施五周年,《数据安全法》实施一周年,网络安全建设、数据安全治理已经步入新征程。在2022年广东省网络安全宣传周举办之际,南方都市报专访哈尔滨工业大学(深圳)数据安全研究院执行院长、计算机科学与技术学院教授刘川意。其特别提到,数据出境保护的重要性,并具体解释了挖掘数据价值应遵从的原则。
今年广东省网络安全宣传周由省委网信办牵头会同省委宣传部、省委编办、省教育厅、省公安厅、省国资委、省广电局、省政务服务数据管理局、省总工会、团省委、省妇联、省通信管理局、人民银行广州分行主办,广东省互联网业联合会、南方都市报、N视频联合承办,持续到9月11日。
挖掘数据价值建议遵从四大原则
南方都市报(以下简称“南都”):数据已成为基础性、战略性资源,在你看来如何对数据进行整体安全防护?
刘川意:《网络数据安全管理条例(征求意见稿)》提出数据处理者应按照网络安全等级保护要求,加强数据处理系统、数据传输网络、数据存储环境等安全防护。这些安全防护都是保障数据安全的基础安全防护。
要开展数据安全治理工作,相关政企应尽快摸清家底,对数据资产进行盘点,摸清数据资产以及个人信息数据分布情况,制定重要数据和核心数据目录。识别重要数据、核心数据,对数据进行分类分级和打标,基于数据分类分级结果、敏感数据和重要数据的流转及使用情况,构建数据脉络,并结合场景化的数据安全险分析及数据安全能力需求分析,制定数据安全策略和技术防护保障措施。在数据安全管理上,要根据数据分级分类做到精细化防护,不同类别、不同级别要求的保护措施不同。
南都:数据安全技术的制高点是解决数据价值挖掘与数据隐私保护之间矛盾,如何在保护数据安全前提下,最大限度挖掘数据的价值?
刘川意:建议遵从“四大原则”:为了防止数据滥用,建议采用“数据不动程序动”的原则;为了保障数据隐私安全,建议采用“数据可用不可见”的原则;为了更好地开放共享数据价值,建议采用“分享价值不分享数据”的原则;为了实现数据的确权,建议采用“保留所有权释放使用权”的原则。
具体而言,设置安全可信环境要求,如构建一个可信隐私计算平台,在安全可信隐私计算平台中进行数据分析挖掘,原始数据不离开本地,数据分析方需将数据分析程序发到可信隐私计算平台中运行,在保护数据隐私的前提下充分发挥数据价值。《信息安全技术 网络安全等级保护基本要求》《信息安全技术 关键信息基础设施安全控制措施》两份文件对特权账号安全访问过程作出了明确安全性要求,确保数据资源可知、可管、可控、可查。
同时,建议采用调试环境与运行环境分离的数据流通交易架构,构建一个安全可控的数据分析环境,提升数据融合计算过程中的安全等级,实现数据融合计算过程中的可用不可见,同时使得数据分析算法和模型精度折损微小。在可信隐私计算平台上进行数据分析挖掘,形成分析结论和人工智能模型等数据衍生品。这些数据衍生品流出可信隐私计算平台时,采取信息过滤技术和白名单审核机制,限制输出内容不夹带原始数据。由此确保数据的共享、流通、交易过程只分享价值不分享数据。
方滨兴院士早在四年前创新性提出上述四个原则,以及破局隐私保护与数据挖掘矛盾的“AI靶场”新技术理念,已被国家发改委《全国一体化大数据中心协同创新体系算力枢纽实施方案》采纳。我们依托于哈工大(深圳)数据安全研究院,组建产研深入融合的核心团队,基于上述架构扎实进行了三年多的核心技术攻关和系统研发工作,该系统已完成样板项目试点和行业场景应用,已有多方数据安全托管至AI靶场,充分发挥数据要素价值,包括“广东省网民网络安全感满意度调查数据挖掘比赛”,安全开放140万问卷数据,120支分析团队深度挖掘出38条重要结论,构建了60 个评价模型,实现最大程度的“集智”;基因组数据在医疗和制药领域蕴含巨大潜在价值,但同时包含个人基因的隐私信息,AI靶场安全开放了千万条国家基因库数据,举办了“猛犸杯”国际组学数据创新大赛。此外,AI靶支持了深圳企业高质量发展分析项目以及国际大科学计划—一带一路多语言机器翻译比赛,建立了安全的数据编程接口,支持安全的数据挖掘和AI建模。
数据安全化处理主要有四大途径
南都:目前,对于数据安全化处理主要有哪些途径?
刘川意:针对大数据背景下数据安全化处理途径主要有四类:
一是数据安全治理和分类分级。数据方梳理自身数据资产,并根据所在行业数据分类分级标准对自身数据进行分类分级,建立数据分类分级保护制度,对数据进行分类分级保护。同时,基于数据分类分级确定重要数据资产和敏感级别较高的数据进行重点保护。
二是数据加密。在存储和传输过程中,通常对数据进行加密处理。尤其是在数据传输的过程中,密码技术是数据不被“拿走”的最后一道防线;因为“黑客”偷走的只是加密后的数据,没有任何实际价值。我们团队自主研发的国产密码仿真调试平台能容纳50 以上信息系统的密钥管理,实现密钥集中统一管理。该系统能满足高安全要求(等保三级),适配高复杂环境(国内外、云环境、本地环境),实现密码技术与网络安全密切配合,是今后数据安全项目的标杆。
三是脱敏和匿名化。在进行数据交互和共享时,将数据中的敏感信息如个人身份信息进行脱敏或匿名化处理。但脱敏和匿名化方法已被证明存在一定安全风险,当攻击者掌握一定量信息时,是可以重识别出脱敏或匿名后数据对应的个人。
四是仿真数据生成。数据分析过程中,数据分析师查看数据不可避免,在对高度敏感的数据进行数据探索时,为了防止数据分析师查看数据造成隐私泄露,通过合成与真实数据近似的仿真数据代替真实数据供数据分析师查看。在仿真数据这方面,我们团队自主研究了一系列仿真数据合成方法,测试结果表明研究成果合成的仿真数据质量已接近真实数据,超过目前国际先进的方法。我们为此申请了多项仿真数据合成专利,预期引领国际潮流。
南都:在你看来,广东网络安全建设需要重点关注哪些方面,有什么建议?
刘川意:随着《数据安全法》《个人信息保护法》《数据出境安全评估办法》等法律法规的颁布,对广东深圳这样数字经济在GDP占比30.6%的城市,数据安全、数据出境保护尤为重要。深圳有超过万家企业有跨境业务,企业需在开展跨境业务、管理境外分支机构、境外上市、跨境数据流动等满足数据跨境传输、流转时面临的合规和合法监管需求。
站在企业角度,首先要做的是保障合规,即帮助企业满足数据安全法、个人信息保护法、数据跨境监管相关条例等合规要求;其次是可查可检,满足企业正常业务开展同时清晰掌握业务数据、重要数据、个人信息等敏感数据跨境流动详情;最后是及时止损,可以帮助企业避免名誉受损、经济受损,同时避免被通报处罚。
企业数据安全一个重点是“防泄漏”。必须重点关注“内鬼”,大量真实案例已经证明内部员工并不能完全可信,尤其对管理员、技术员、操作员这“三员”管理,不能仅仅依靠制度,而要靠技术,做到能审查、能告警、能拦截。在供应链开发、交付、使用三大环节中,每个环节都可能引入风险,且上游环节的安全问题会被传递到下游并放大,只要有一点漏洞就能层层渗透。
在人工智能、大数据、物联网、5G等新一代网络技术推动作用下,我国数字经济规模持续增长,数据与土地、劳动力、资本、技术并列上升为新型生产要素,成为支撑数字经济发展的核心力量。但隐私泄露事件频发,隐私保护政策日趋严格,各行业管理者在共享开放数据方面顾虑重重,既保证数据安全,又能充分发挥数据的最大价值,以此助推数据的生产要素化和数字经济的快速发展,也是作为数字经济城市需要重点关注方向。
出品:南方都市报 南都大数据研究院
策划:戎明昌 刘江涛
统筹:邹莹 凌慧珊
采写:南都记者 袁炯贤 设计:刘寅杉
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com