语音(yīn)交互是机器人用来表达的(de)出口,大数据是机(jī)器人用来更加准确判!
金融行业是大(dà)数据与人工智能落地最具潜力的行业之一。金融行业(yè)是数据密集型行业,金(jīn)融数(shù)据具(jù)有更(gèng)高的实时性、安全性和稳定(dìng)性(xìng)的要求,结(jié)构化数据占比高,应用场景广泛。但与此同时,金融行业还有(yǒu)赖于利用(yòng)第三方数据来为客(kè)户提供更好的服务,自身业务特(tè)点(diǎn)也对金融(róng)数据的数据安全和个人(rén)隐私保(bǎo)护带来了极大的困难,数据孤岛现象严重,这(zhè)也是为何联邦学习首(shǒu)先在微众银行这样的创新金融(róng)企业落地和(hé)开花结(jié)果的原因(yīn)。
随着深度(dù)学习神经网络的(de)提出、算法改(gǎi)善和算(suàn)力的提升(shēng)、以及大数据(jù)的广泛应(yīng)用,人工智能迎(yíng)来了一波新的(de)高峰。2016 年的「人机大战」AlphaGo 战胜(shèng)围棋(qí)世界冠军(jun1)李世(shì)石,不仅展示了(le)以大数据驱动的人工智能的巨大潜(qián)力,也让(ràng)人们更加期待一个(gè)人工智能在各行(háng)各业(yè)中(zhōng)得以实(shí)现的新时代的到来。
然(rán)而理想很丰满,现实很骨感——在实际应用中,大多数(shù)应用(yòng)领域均存在数据有限且(qiě)质量较差(chà)的问题,在某些专业性(xìng)很(hěn)强的细分领域(如医疗(liáo)诊断)更是难以获(huò)得足以支(zhī)撑人工智能(néng)技术实现的标注数据。同时在不同数据(jù)源(yuán)之间存(cún)在难以打破(pò)的壁垒,「大数据(jù)」往往只是越来(lái)越多的「数据(jù)孤岛」的总称。
语言建模成功是有原因的(de)!它是一(yī)项非常困难的工作,为了(le)有(yǒu)机会解决这个难题,模型(xíng)需要学习(xí)语法,语义(yì)以及(jí)某些世界常识。给定足(zú)够的(de)数据(jù),大(dà)量参(cān)数(shù)和足够(gòu)的(de)计算能力,模型(xíng)就(jiù)可以有不错的学习成果。根据过往的实验来看,语言建模比翻(fān)译或自动(dòng)编码等其它预训练工作更(gèng)有效。
最近(jìn)对人类语言的预测率失真 (PRD) 的分析 (Hahn and Futrell, 2019) 研究表明(míng),人类(lèi)语言和语言建模(mó)都具有无穷高的统计复杂性,但语言建模可以在较低(dī)层次上模(mó)仿逼近(jìn)人类语言。这一观察结果有两(liǎng)个(gè)启(qǐ)示:1)我(wǒ)们可以用相对较小的模型(xíng)以获得较为精准(zhǔn)的结果;2)我们(men)的模型有(yǒu)很大的拓展潜力。对于(yú)这两种启示,我们都有充足证据,我(wǒ)们(men)可(kě)以在下一节中(zhōng)看(kàn)到。
简单的(de)做法可以(yǐ)是在预训练的模(mó)型之上添(tiān)加一个或多(duō)个线性层,通常(cháng)是在(zài) Bert 基础(chǔ)上增加。或者我(wǒ)们也可以使用模(mó)型输出作为另一(yī)个(gè)模型的输(shū)入。当目标任务需要预训练的嵌入有一些(xiē)交(jiāo)互作用但目(mù)前的预训(xùn)练模型执行不了时,这通常是有帮助的(de),例如以 BERT 为(wéi)预训练模型但需要词汇(huì)表征或建立跨(kuà)句子关(guān)系模型(xíng)。
我们希(xī)望这样做的原因之一可能是为了适(shì)应结构(gòu)不同(tóng)的设定目(mù)标,例如(rú)一个(gè)具有多个输(shū)入序列的任务。在这种情况下,我们可以(yǐ)使用预训(xùn)练的模型尽可能初始化结构(gòu)不同(tóng)的设定模型。我(wǒ)们还可(kě)以(yǐ)应用于特定项目的修改,例如添加(jiā)、跳过或连接或警示。最后,修改目标任务的参(cān)数(shù)可以通过在(zài)预(yù)训练(liàn)的模型(xíng)层之间添加瓶颈模块 (适配(pèi)器(qì))来减少需要精(jīng)细调整的参数数量。
同时随着大(dà)数据(jù)的(de)发展,重视数据隐私和安(ān)全已经成(chéng)为一种(zhǒng)世界性的趋势,而欧盟「数据隐私保护(hù)条例」(General Data Protection RegulaTIon,GDPR)等一(yī)系列条例的出(chū)台更(gèng)是加(jiā)剧了数据获取的难度,这也(yě)给人工智能的(de)落地(dì)应用带来(lái)了前所(suǒ)未有(yǒu)的挑战。