商议东说念主员垄断300万天Apple Watch数据训导疾病检测AI

当Yann LeCun还担任Meta首席AI科学家时,他提议了探究镶嵌揣度架构(JEPA),这一架构实质上是雷同AI推断缺失数据的含义,而非数据自身。
换句话说,当解决数据空缺时,模子学习揣度缺失部分所代表的含义,而不是试图料到和重建其精准数值。
以图像为例,当某些部分被掩蔽而其他部分可见时,JEPA会将可见和被掩蔽的区域镶嵌到分享空间中(因此称为探究镶嵌),让模子从可见的落魄文推断被掩蔽区域的暗示,而不是推测被覆盖果暴露内容。
Meta在2023年发布名为I-JEPA的模子时这么讲解注解说念:
自从LeCun的原始JEPA商议发表以来,这一架构已成为探索"寰球模子"限制的基础,这与大谈话模子和GPT系统的Token揣度要点有所不同。
事实上,LeCun最近甚而离开了Meta,创办了一家所有专注于寰球模子的公司,他以为这才是通向AGI的果真说念路。
回到面前商议。几个月前发表的论文《JETS:用于医疗保健作为数据的自监督探究镶嵌时辰序列基础模子》最近被NeurIPS的一个研讨会接受。
该商议将JEPA的探究镶嵌门径合乎于不轨则多变量时辰序列,比如长久可衣服建立数据,其中心率、就寝、作为和其他测量数据在时辰上出现不一致或存在大批空缺。
商议显现:
真义的是,只好15%的参与者领有标志的医疗历史用于评估,这意味着在传统监督学习门径中,85%的数据将无法使用。相背,JETS最初通过自监督预训导从好意思满数据汇注学习,然后在标志子集上进行微调。
为了使扫数这个词系统运作,他们将数据制作成对应于日历、数值和地点类型的三元组。
这使他们好像将每个不雅测值转化为Token,然后流程掩码解决、编码,并通过揣度器(用于揣度缺失补丁的镶嵌)。
完成这些后,商议东说念主员将JETS与其他基线模子(包括基于Transformer架构的JETS早期版块)进行相比,并使用AUROC和AUPRC这两个AI辩认阳性和阴性病例才气的步调节量进行评估。
JETS在高血压方面达到了86.8%的AUROC,房扑为70.5%,慢性疲惫空洞征为81%,病窦空洞征为86.8%等。虽然,它并非老是得胜,但上风越过昭彰,如下所示:
值得强调的是,AUROC和AUPRC严格来说不是准确率地点。它们是显现模子对可能病例进行排序或优先级分拨才气的地点,而不是揣度正确的频率。
总的来说,这项商议提议了一种真义的门径,最大化那些可能被以为不好意思满或不规则数据的知悉和救生后劲。在某些情况下,健康地点仅在0.4%的时辰内被纪录,而其他地点在99%的逐日读数中出现。
这项商议还强化了这么一个不雅念:在探索Apple Watch等等闲可衣服建立仍是网罗的数据方面,新式模子和训导本领具有很大远景,即使它们并非100%的时辰齐在捎带。
Q&A
Q1:JETS模子是什么?它有什么非凡功能?
A:JETS是一种自监督探究镶嵌时辰序列基础模子,成心用于解决医疗保健作为数据。它的非凡功能是好像解决不轨则、不好意思满的可衣服建立数据,通过揣度缺失数据的含义而非精准数值来进行疾病检测。
Q2:JETS在疾病检测方面证据怎么?
A:JETS在多种疾病检测方面证据优异,高血压检测的AUROC达到86.8%,房扑为70.5%,慢性疲惫空洞征为81%,病窦空洞征为86.8%。这些地点显现了模子在辩认阳性和阴性病例方面的宏大才气。
Q3:为什么JETS好像解决不好意思满的数据?
A:JETS基于JEPA架构,禁受探究镶嵌揣度门径,学习推断缺失数据的含义而非重建精准数值。即使只好15%的参与者有标志医疗历史,模子也能通过自监督预训导垄断85%的未标志数据,然后在标志数据上微调。

