摘要:两大开源框架轻装上阵,解决行业长期痛点
2022年7月25日,国内隐私计算“四小龙”之一的翼方健数正式推出隐私安全计算开源技术——翼数开源,包括翼数联邦学习框架及翼数安全计算框架,向全球开发者开源数据安全流通关键技术。
翼方健数表示,开源对隐私计算意义重大,尤其将在安全性验证、平台互联互通等方面推动行业蓬勃发展,并有助于进一步推广隐私计算在各行各业的应用,期待隐私计算行业所有参与者能以开源为契机,携手为全社会发掘更大数据价值。
(资料图片仅供参考)
翼方健数首席科学家张霖涛博士表示,目前翼数联邦学习框架和翼数安全计算框架已于7月25日正式开源,希望通过上述开源框架让更多用户更便捷地使用隐私计算技术。在这两个框架开源的引领下,翼方健数计划在未来逐步开源其他自研技术栈。
翼方健数作为国内隐私计算领域技术专精型企业代表率先投身开源,或预示隐私计算赛道的竞争格局与发展模式将迎来升级——技术服务商既要手握核心技术“王牌”保持竞争优势,又要敢于亮出开源“底牌”接受各方检验。
事实上,过去一年开源正在成为隐私计算领域的热点和趋势之一。在近日由中国信息通信研究院、隐私计算联盟主办的2022隐私计算大会上,“隐私计算积极拥抱开源”入选2022隐私计算十大观察。
翼数开源:两大框架轻装上阵
相比互联网几十年的开源史,隐私计算开源尽管时间不长,却丝毫不输前辈。其中由著名开源社区OpenMined在2017年主导的多方安全计算及联邦学习开源框架PySyft可以看作是早期代表。其后两年,谷歌、脸书等国际巨头也都发布了可信执行环境、多方安全计算、联邦学习相关开源框架和平台。
据中国信通院总结,自2019年起,微众银行、蚂蚁集团、字节跳动等都推出了开源框架和平台,越来越多的企业加入了隐私计算开源队伍,有底层技术协议,也有企业的平台类项目。
这些开源平台呈现出四大特点及趋势:一是易用性,方便流程简易部署方便,用户能快速上手。二是可扩展性,产品架构可分为底层算法协议、算子层和应用层等,各层之间可独立开发,并支持模块化。三是完备性,能支持包括联合统计、隐私集合求交、建模等多种功能,每种功能也有满足不同性能与安全要求的算法。四是兼容性,能为未来互联互通做准备,架构设计上能兼容其他框架。
可以看出,翼方健数投身开源不仅顺应了隐私计算向开源发展的时代趋势,相关框架的设计与表现也完全呼应了目前隐私计算开源平台的特色。张霖涛介绍说,翼数开源的两大框架体现了翼方健数对开源理念的深刻理解与创新实践,其中轻量化是重要原则之一,即两大框架各自独立、分工明确,实现“专用系统做专用事情”。
据了解,翼数联邦学习框架(XFL)是安全高效的联邦学习引擎,全面覆盖联邦学习算法,支持多种联邦学习模式。翼数安全计算框架(XSCE)是安全密文计算算法库,支持多种隐私加密算法,应用部署灵活。这两大框架均为翼方健数隐私计算框架XDP平台的核心组成部分。
从开发角度来看,轻量化设计易于开发,规避了庞大系统的复杂性,便于用户各取所需、快速上手、开发扩展。从应用角度来说,这样的设计商业友好,更容易适配不同场景,部件化应用可集成可重用。
使用体验轻量化的背后是扎实“内功”的支撑。在性能方面,两大框架近期刚刚通过中国信息通信研究院「多方安全计算 性能专项评测」和「联邦学习 性能专项评测」双认证,各项计算时间均优于参评项目平均值。在安全性方面,翼数联邦学习框架采用一次一密、CKKS及 Paillier同态加密算法等安全技术,确保计算安全性。并且翼数联邦学习框架还支持多种主流深度学习框架,如TensorFlow、PyTorch等。
翼方健数团队还着力提高代码质量,解决了现有各类多方安全计算开源代码偏重学术研究、不适于产业应用的问题,重新测试、修改、增强了相关算法,包括PSI/PIR/联合统计/特征工程/逻辑回归/线性回归/深度学习模型推断等,令翼数安全计算框架拥有更加高效、全面的算法库,并可与联邦学习结合,形成完整的工作流。
此外,翼数开源还赋予用户极大的开放性。基于Apache License 2.0软件许可证,用户拥有充分空间使用和修改相关代码。张霖涛认为,这样的宽松度更便于用户在他人工作的基础上贡献自己的智慧,把整个系统越做越好,无需从头开始或“重造轮子”。
他还强调,开源在技术层面有利于提升隐私计算安全性,但更重要的还是能让更多人了解和利用隐私计算技术。翼方健数虽然是一家年轻的公司,却已是隐私计算领域的“老兵”,愿意把多年技术积累和市场经验开放给更多终端行业使用,开源正是理想的分享与推广方式,有利于扩大隐私计算的整体市场规模。
与业界一起“做大蛋糕”正是翼数开源的核心愿景之一。翼方健数联邦学习研发负责人同样认为,借助联邦学习技术加速数据价值流通,赋能千行百业。翼方健数多方安全计算研发负责人也表示,MPC技术具有数据隐私高安全和参与方地位平等的特点,在业界同仁的通力合作下定能加速MPC技术规模化落地应用。
精准解决安全与互通两大痛点
隐私计算拥抱开源绝非偶然,开源本身就是整个软件产业的重要模式和趋势。
中国信通院云计算与大数据研究所副主任姜春宇指出,开源模式正在“吞噬”整个软件产业,近年来我国在政策层面鼓励开源软件、开源项目的发展。从基础软件到新技术领域,开源都在逐步变成软件研发迭代,甚至商业模式的主要形式,整个软件产业走向开源模式已经成为明显趋势。
对隐私计算来说,开源的最大必然性就在于有望彻底解决隐私计算长久以来急需自证清白、亟待互联互通的迫切需求。
中国信通院云计算与大数据研究所所长何宝宏表示,隐私计算作为数据流通的基础设施,除了开源的通用优势外,由于数据全流程的安全性非常重要,将代码开放会让安全性变得更加易于验证;开源社区内的交流和反馈也会激发技术创新,创造满足不同场景需求的多种技术方案。
在闭源模式下,自证清白可谓是隐私计算的一个先天难题。尤其在推进商业落地的过程中,隐私计算技术服务商始终难以从根本上向用户证明数据在隐私计算过程中的安全性。开源意味着用户可以直接在代码层面检验相关系统机制,为用户提供了彻底的安全性验证。
张霖涛表示,尽管绝对安全并不存在,但相比闭源,开源无疑是隐私计算在自证清白这条路上迈进了一大步。
当然,心存恶意的技术服务商毕竟是极少数。除了自证清白外,开源提升安全性的更常见场景是把代码交给更多人检验,发现bug及时修补。纵观软件发展史,业界或用户通过开源为技术服务商“捉虫”的案例经常发生,对于改进代码,提升系统安全性起到了重要作用。
互联互通也是近年来隐私计算领域面对的又一大难题。各家技术服务商纷纷推出隐私计算平台,在为各行各业消除数据孤岛的同时,这些隐私计算平台却各自为政,形成了新的孤岛。以宏观和长远眼光来看,这样的局面仍然阻碍了数据价值发掘的效率,也影响了隐私计算产业的发展。
近两年,隐私计算业界一直在努力解决互联互通问题。中国信通院云计算与大数据研究所工程师吕艾临表示,目前业界技术专家形成的共识是,隐私计算互联互通在于如何实现算法的互通,其中算法的开源程度正是关键指标。算法开源程度越高,建立信任就更容易,实现互联互通就越简单直观。
对此张霖涛认为,隐私计算平台的互联互通需要基于共识,还要有实实在在的基础和抓手,代码就是基础,开源正是抓手和推动力。开源有利于各方形成共同代码,继而建立连接。翼数开源也秉承了这一理念,令用户可以很容易与其他隐私计算平台建立连接。
近年来,翼方健数一直致力于在更大范围、更高维度上打通数据。翼方健数相信,隐私计算平台的演化会经历单体、联盟、生态网络三大阶段,分别包括单体平台(局域网)、平台联盟(专业网络)及数据和计算互联网IoDC (Internet of Data & Computing)。
张霖涛表示,梅特卡夫定律揭示网络价值与连接用户数的平方成正比,用户越多,网络价值越大。互联网如此,数据网络也是如此,IoDC的建设就是希望促进数据流通,建立更广泛的数据连接,让数据产生更大价值,相信开源能够起到桥梁与催化剂的作用。
技术之上:商业模式的创新契机
时至今日,开源的涵义早已超越了开放源代码,而是开启了软件业创新商业模式的新契机。隐私计算进入开源时代,同样将对技术服务商、用户、产业带来深远影响。
中国开源软件推进联盟《2021中国开源发展蓝皮书》指出,全球范围内开源商业模式正在逐渐成熟。在一些特色领域,开源软件的商业价值甚至超过闭源软件,开源相关风险投资交易总量与金额急剧增长,并涌现出一大批上市公司,国际高度分工的数万亿美元开源核心技术生态体系已经形成。
姜春宇表示,隐私计算开源具有重要意义。对于隐私计算领域的开发者来说,开源是企业社会责任的体现,有助于提升企业影响力,在商业上则有助于构建更广泛的上下游生态圈,布局更完善的商业模式。对于使用者来说,开源令用户可以方便地下载和使用源代码,从而降低开发门槛,缩短开发时间,开发成本进一步降低,选择更加丰富自由。对整个隐私计算行业来说,开源可以促进不同用户群体间的交流,丰富行业应用、易于发现问题、激发技术创新。
张霖涛认为,伴随技术发展,越来越多的行业玩家都已具备相当技术实力,想要进一步拉开竞争差距,就必须对行业有更深入的洞察,而不再是纯技术问题。人工智能等新科技领域的开源历史已经给隐私计算提供了借鉴参考,当有更多人都能训练出优秀的人工智能模型,获得绝对技术优势也就变得更难。TensorFlow、PyTorch等开源框架的出现,就在技术竞争之上转向吸引更多人进入AI赛道,推动AI的整体发展。
他希望隐私计算也会遵循相似路径,从发展初期大家争相比拼技术,到通过开源降低行业门槛,让更多用户和行业使用隐私计算并发掘数据价值,共同把整个隐私计算行业做大做强。
当然,要让开源真正实现初心愿景并非易事,往往意味着大量技术与运营资源投入,许多国际上成功的开源项目或基于开源信念由众多个体参与者自发投入,或由实力雄厚的互联网巨头投入主导。相比之下,以创业公司的姿态投身开源,意味着对开源这件事有更客观和清晰地认识,翼方健数已然做好准备。
张霖涛坦言,翼方健数在技术上并未选择一开始就采用“重”投入策略,翼数开源两大框架以轻量化为特色正是基于这样的考量,开源初期搭建起灵活的框架,吸引更多社区力量做出贡献。
然而不可忽视的是,开源在给隐私计算用户带去“福利”的同时,也对技术服务商提出了更高要求,带来挑战甚至是风险。
姜春宇就指出,开源虽然有很多好处,但也伴随风险,需要长期关注,其中主要是合规风险和代码安全漏洞风险,如泄露自身商业秘密,未遵守或识别知识产权问题导致违法等。另外,开源的“灵魂”或价值核心——开源社区也会带来不少艰辛与挑战,如吸引和留存用户,社区治理等。
事实上,开源的一大“副作用”就在于,把长期的技术积累公开示人相当于把竞争优势拱手相让,同行或对手不仅能获取相关技术,甚至能以此为基础一举超越代码原创者。
对此张霖涛坦言,风险确实存在,但应该正面看待。相比风险,开源更大的价值是提升商业格局。翼方健数面对市场竞争方面并不担忧,而是相信能通过开源做大市场,这样所有参与者都将成为受益者。
对于安全漏洞与攻击,张霖涛指出,这些风险本质上并非直接源于开源,即使在闭源模式下也可能发生,开源反而能让更多人帮助技术服务商发现bug,尽早修补。而在社区建设方面,翼方健数自身也是这两大框架的积极用户,会投入足够技术资源持续开发和改良。
尽管需要投入,也必然有挑战和风险,但事实已经证明,成功的开源项目可以形成价值巨大的商业体系,如MongoDB市值近200亿美元、微软以75亿美元收购 GitHub、IBM花费340亿美元收购Red Hat等,许多国内外新兴开源项目也吸引了大量资本涌入。
可以预见,隐私计算领域的开源也将带来商业模式的一场变革。张霖涛并不讳言,开源除了在技术上有助于自证清白,证明团队技术实力外,还激发了翼方健数对商业模式创新的思考。
他希望,开源能为公司获得更多市场认可,吸引更多客户。隐私计算技术服务商的盈利模式并不在于单项技术或为客户完成项目,而应该始终紧抓数据价值,从构建全栈技术打通数据链路、促进数据流通等方面入手,最终实现以发掘数据价值为盈利模式。在这样的思路下,数据网络的扩展和用户社区的扩大都将有望给公司带来更大经济效益。
《2021中国开源发展蓝皮书》指出,未来10年中国将迎来世界级优秀开源公司,一个商业化开源公司的成功需要方方面面,它需要整个团队往前推,不仅仅是技术团队在往前走,而是所有人同心协力往前走。要保证团队具备技术之外的壁垒,要补足团队的短板,比如开发者关系、市场契合度、设计团队甚至树立公司的品牌形象,都需要去做。
隐私计算领域是否能诞生现象级的开源商业标杆,翼方健数已在开拓前行,正如张霖涛所说:“开源推动技术发展,开源时代已来,翼方健数赴约而来”。
一场胜负在于是否有全局观,数据价值链路的挑战远不止于此。但敢于亮出数据流通的底牌,至少说明这是一张实力过硬的王牌。
【广告】
(免责声明:此文内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,请自行核实相关内容。广告内容仅供读者参考。)
关键词: