红红火火,恍恍惚惚,大模型从GPT开始爆发到现在,越来越多人加入这场科技界的“诸神之战”。不可否认,大模型确实为我们展示出了人工智能的强大之处。但在当下的狂热气氛中,大家仿佛都变成了“追星”的狂热粉丝。
(资料图)
但技术终究要落地到垂直细分产业中,才能发挥其应有价值,这是一个积淀、积累的过程,之后才能走向真正的成熟。从大模型在金融垂直细分领域的落地来看,马上消费正加速驯服大模型这匹“野马”,为其套上“笼头”,增加“马鞍”“马镫”。
驯服金融大模型“野马”
大模型本质上是一种更高压缩比的知识库,这在当下已经成为共识。大模型不仅能存储和运用隐含于训练数据中的知识,还能新生成有逻辑的组合知识。
具体来看,大模型之所以能表现出如此强悍的能力,主要经历了“原材料筛选”、“原材料配方”、“粗加工技术”“精加工技术”等四个步骤。大模型在对海量的网页文本数据进行质量判断和选取后,用于初步训练,然后将大量的知识编码,再精调模型,选取问题供人工标注。
对比搜索引擎,大模型可以更高效帮助我们提取有用的知识和信息,用“问题(prompt)”代替“传统query”从大模型中查询和提取知识。对于新知识的获取从“主动搜索”到“直接问专家”,就像从买菜做菜变成了直接用预制菜,而且专属机器秘书可以记住你已有的知识水平,在此基础上像老师一样把你现在不知道的必要知识点自动加入进来,逐步教会你新知识。
作为重庆唯一获得国家级高新技术企业认定的金融机构,马上消费连续2年入围国家工信部“新一代人工智能产业创新揭榜单位”,也正研究如何沿着Human Feedback这条ChatGPT已经验证好的路径将金融领域知识注入大模型。
马上消费人工智能研究院院长陆全表示,“如果把通用大模型看作一匹资质超群的‘野马’,打造专注于金融垂直领域和细分场景的大模型应用就相当于对野马的驯化。”
首先,需要用专有的经过加工的垂直领域的数据作为“草料”来“喂养”它。当前马上消费的整体数据量已经超过40PB,服务器超过8000台,每日数据交换量超过950亿,其中实时数据接入量350亿,每日投放数据量超过190亿,而风控Hbase调用量超过40万次/s,相关指标均在消费金融领域处于领先位置。
其次,要在垂直领域对模型进行精调对齐训练,相当于为野马套上“笼头”,再用大模型的推理加速技术为它加上“马鞍”、“马镫”,让这匹骏马跑得更快、更可控。
“由于100亿以下参数的模型无法具备很多能力”,马上消费人工智能研究院李宽补充道,“为此我们必须克服GPU和经验的不足,以获得对这种大小模型的‘精调训练’和‘推理使用’的能力,并在自身数据上做模型精调;其中包括:基于自身数据,设计和训练‘问答对’,以保证既要保留原有大语言模型的常识和通用推理能力,又要能在独有的金融垂直细分数据上产生类似的能力扩展。”
最后,要有足够的应用场景来供这匹骏马奔驰和迭代,使用的人越多,评估反馈越多,模型迭代越快,才会越来越好。而在这一方面,马上消费等大型消费金融机构具有先天优势,能够产生很强实际使用效果。
陆全院长还表示,相比来说,摆在中小型金融机构面前的首道难关就是资源门槛,在强大动力需求的作用下,它们会向金融行业内大型机构或具备技术优势的金融科技平台需求协助,建立起相关的科技能力。
据最新数据显示,马上消费的注册用户已突破1.5亿,累计发放消费贷款超过4000亿元,合作金融机构超200个,合作商户超100万,形成了全渠道全场景开放生态。
布莱恩·阿瑟在《技术的本质》一书中曾提到,技术从本质上来说是自创生的,所有新技术都不是无中生有被发明出来的,新技术都是从现存技术中组合出的一组新的要素。
在马上消费副总经理兼首席信息官蒋宁看来,ChatGPT巧妙地叠加了Transformer、有监督微调训练、强化学习等技术,成功展现了由于模型规模带来的突现能力,经过近几年不断迭代部署,量变的积累产生质变,形成了ChatGPT的语言智能。
大模型的“金融产业之战”
需要注意的是,大模型对我们来说是做好赋能。陆全院长认为,大模型对我们社会生活的最终影响是“秘书平民化”。
比如,大模型可以帮助我们进行各种写作工作,讲稿,邮件,论文,代码等都可以先由AIGC生成供你修改的草稿;还可以进行归纳性文字类工作,机器秘书可以按要求浏览大量指定文章,从中生成摘要;对于新知识的获取从“主动搜索”到“直接问专家”,而且专属机器秘书可以记住你已有的知识水平,逐步教会你新知识;专属机器秘书会记住和更了解你的各种偏好,帮你做个性化复杂的决策建议等等。
当然,大模型可能会淘汰掉一些物种,但也会让一些原有物种获得新能力,比如智能客服。在这方面,马上消费对待大模型有着更为清醒的认知,高效的智能客服可以替换人工座席。
陆全院长还表示,在智能交互方面,通过配备机器人客服将金融知识及产品相关信息一条条添加到知识库里,尽管“喂养”了很多数据,也避免不了机器人回答的机械化和准确性欠佳,因为它的识别能力是有限的,更多充当协助人工客服的角色。而大模型本身具备大量通用知识,除了金融常识外,对于其他特殊内容,可以通过知识注入的方式给到大模型,并且通过持续、充分的训练,能够使大模型具备更加精准的语义理解能力和强大自然语言生成能力。自然而然,大模型可以成为懂金融的“专家”。
不久前,全国首个数字警察“警小灵”,在重庆防范经济犯罪宣传启动仪式现场亮相。“警小灵”就是由马上消费提供的技术支持,可以实现24小时不间断为群众提供专业、精准、高效的咨询服务。
需要注意的是,随着大模型的能力越来越强大,大模型标准的制定也越来越急迫,因为大模型的可控性仍然较差。
为此,马上消费积极推动人工智能生成内容(AIGC)标准的制定,从规范约束和风险监控两个方面来保证机器智能生成内容的可信合规。截至目前,依托科技研发创新,马上消费已参与超30项金融科技标准编制工作,涉及研发运营一体化能力成熟度、开发平台通用能力要求等,获得28项人工智能与交易安全领域备案认证,在标准及认证方面表现优秀。
在当下这个充斥着技术诱惑的时代,我们更需要在技术工具面前保持足够的清醒。正确认识科技价值,才能实现“科技让生活更美好”的目的。
关键词: