重磅突破!NEJM | 一种精确且快速校准的语音神经假体
肌萎缩性侧索硬化症(ALS)是一种严重的进行性神经退行性疾病,常常导致患者在疾病晚期丧失运动功能,最终完全失去言语能力。这种病症使得患者难以与外界沟通,极大影响了他们的生活质量。脑机接口(Brain-Computer Interface, BCI)技术的出现,为这些患者提供了新的沟通方式,通过解码大脑皮层活动,将患者试图表达的语言转化为计算机上的文本或语音。然而,传统BCI系统在准确性和所需训练时间方面存在局限性,且通常难以实现长期稳定的效果。
本文探讨了一种新型语音神经假体系统的设计与应用。研究团队通过植入微电极阵列,记录一名ALS患者的皮层神经活动,并解码这些神经活动,将其转化为文本和语音输出。该系统的主要目标是通过较短时间的训练,实现高准确率的语音解码,并保持长时间的稳定性。研究的参与者为一名45岁的ALS患者,他在左侧腹中央前回植入了4个微电极阵列,记录了256个皮层内电极的神经活动。研究的结果显示,即使在非常有限的训练数据下,该系统也能够实现高精度解码,并在随后的8.4个月内保持了良好的长期稳定性。
研究方法
参与者
研究的主要参与者为一名45岁男性ALS患者,该患者的ALS病程已达5年,导致他全身瘫痪,尤其是四肢无法自主运动,并且发展为严重的构音障碍。在研究中,该患者接受了微电极阵列的植入手术,以记录其大脑的皮层神经活动。具体来说,研究团队在患者的左侧腹中央前回植入了4个微电极阵列,每个阵列包含64个电极,总共记录了256个电极的皮层内神经活动。这些电极能够高精度地捕捉到患者试图发声时的大脑皮层活动,为后续的语音解码提供了数据基础。
实验设计
实验的设计旨在通过逐步校准和扩展解码器的词汇量,达到高精度语音解码的效果,同时测试系统的长期稳定性。实验设计分为以下几个阶段:
1. 手术植入与初步训练:
在研究的初期,患者接受了微电极阵列的植入手术,随后进行了初步的皮层神经活动记录。为了获取初步的训练数据,研究团队设计了一个简单的句子提示任务,让患者尝试发声。通过这一过程,研究团队记录了患者在试图发声时的神经活动,并用于初步的解码器校准。
2. 语音解码器的校准:
在手术后第25天,研究团队开始使用初步训练数据来校准语音解码器。校准过程利用30分钟的皮层记录数据,生成了213个句子,这些句子涵盖了患者在尝试发声时的常见语音模式。解码器通过这些数据进行训练,使其能够实时解码患者的发声尝试,从而转化为计算机文本和语音输出。
3. 扩大词汇量与提高精度:
在初步校准后,研究团队着手扩展解码器的词汇量,以提高系统的实际应用能力。词汇量从初期的50个单词扩展到12.5万个单词,以此模拟患者在日常生活中可能使用的广泛词汇。研究团队通过额外的1.4小时训练进一步提升了解码精度,确保系统在处理更多样化语言表达时仍然具有高准确性。
4. 长期使用测试:
为了评估系统的长期稳定性,研究团队在随后的8.4个月中定期对系统进行测试。这一阶段的测试主要目的是观察系统在长时间使用下的表现,尤其是解码准确性是否会随着时间的推移而发生变化。通过这一长期观察,研究团队能够进一步了解系统的耐久性以及患者在实际使用过程中的体验。
图2. 对话模式用户界面。展示了参与者在对话模式下使用语音神经假体的照片。神经假体仅基于神经活动检测参与者何时尝试说话,并在6秒的语音不活动后或通过眼睛追踪选择屏幕上的按钮来结束。当解码的句子最终确定后,参与者通过眼睛追踪选择屏幕上的确认按钮,以指示解码的句子是否正确。
数据分析
为了评估解码器的性能,研究团队使用了音素错误率(Phoneme Error Rate, PER)和单词错误率(Word Error Rate, WER)这两个关键指标。音素错误率通过比较解码结果与预期句子的音素差异来衡量解码器在语音解码中的细节捕捉能力,而单词错误率则直接反映了解码器在转化整句语言表达时的准确性。这些指标为研究团队提供了系统在不同阶段解码精度的详细信息,并帮助他们识别出可能影响系统性能的因素。
研究结果分析
1. 初步结果:
在手术后的第25天,系统在50个单词的词汇量下达到了99.6%的准确率,这表明即使在非常有限的训练数据下,系统也能够实现极高的解码精度。这一初步结果展示了系统的潜力,特别是在应对简单任务时,表现出了卓越的精度。这一阶段的成功校准为后续的词汇量扩展和复杂性增加奠定了坚实基础。
2. 词汇量扩展与性能提升:
随着词汇量的扩展到12.5万个单词,系统的解码准确率仍然维持在90.2%的高水平,这表明系统在应对更加复杂和多样化的语言输入时仍然具有较强的解码能力。通过进一步的训练,系统在8.4个月的测试期内,单词错误率逐渐降低到2.5%。不仅如此,系统在处理自然语言表达时的解码速度也得到了显著提升,达到了每分钟32个单词的水平。这一表现表明,系统不仅适用于简单的语音指令,而且能够处理更复杂的日常对话,具有实际应用的广泛潜力。
图3. 在线语音解码性能。音素错误率(上部)和单词错误率(下部)分别针对两个词汇量大小(5万和12.5万个单词)的每次会话进行了展示。这些指标是将音素或单词错误数量与预期解码的总音素或单词数量的比率计算出来的,结果以百分比表示。每个会话的平均综合错误率显示在图中;误差条表示95%置信区间。水平轴下方的“小时”行显示了用于训练该会话语音解码器的累积神经数据小时数。垂直虚线表示引入解码器改进的时间。图S20展示了各个区块的音素和单词错误率。
3. 系统的耐久性:
在研究的最后阶段,系统在长达8.4个月的测试中,表现出卓越的耐久性。解码器在各个评估阶段的表现稳定,单词错误率保持在低水平,这表明系统在长期使用中能够维持高水平的解码精度。此外,系统的稳定性还体现在不同的使用环境中,即使在患者的身体状态发生变化时,解码器仍然能够提供准确的语音转录和输出。这一结果进一步证明了系统的实用性和可靠性,为其未来的广泛应用提供了有力支持。
图4. 参与者主动使用神经假体进行语音交流。A板展示了参与者在结构化研究会议和个人使用中使用语音神经假体进行交流的累积小时数。对于用蓝色标出的会话,对话模式解码的准确性被量化,如B板所示。B板展示了在对话中925个已知真实标签的句子的语音解码准确性的直方图(见原文S1.09节)。平均单词错误率为3.7%(95%置信区间,3.3至4.3)。C板展示了参与者报告的每句话的解码准确性(这与单词错误率不同)在所有对话模式数据中(21829个句子)。
4. 其他发现:
研究还发现,患者在使用系统的过程中逐渐适应了新型的沟通方式,这也反映在解码准确性的不断提升上。随着时间的推移,患者在使用系统时表现出更高的熟练度,这不仅增强了患者的沟通能力,也提高了他们的生活质量。研究团队还观察到,系统在处理特定语境下的常用词汇时,表现出更高的准确性,这可能与解码器在训练过程中积累的特定语言模式有关。
讨论
该研究展示了一种新型语音神经假体系统在ALS患者中的应用潜力。通过简短的训练,这一系统能够快速校准,并在长期使用中保持高精度的解码能力。与传统的BCI系统相比,该系统在减少训练时间和提高解码准确性方面具有显著优势。研究结果显示,即使在非常有限的初期数据下,该系统也能够实现高精度解码,并且在随后的8.4个月中保持了良好的长期稳定性。这为未来ALS患者的沟通提供了新的可能性。
然而,该研究也存在一定的局限性。首先,研究仅涉及一名患者,因此尚不清楚其他患者是否能够取得类似的结果。个体差异、疾病的进展程度和大脑皮层的神经活动模式可能会对系统的表现产生不同影响。其次,虽然该系统在本研究中表现出色,但其在更长时间内的表现和在其他疾病患者中的适用性尚需进一步研究。例如,是否可以在不同类型的神经退行性疾病患者中使用该系统,以及系统是否能够适应不同患者的个性化需求,仍然是未来研究的重要方向。此外,随着技术的发展,未来的研究可以进一步优化解码算法,提升系统的实时性和处理复杂语言输入的能力。随着人工智能和机器学习技术的进步,解码器的性能有望得到进一步提升,使得系统能够更好地适应自然语言的多样性和复杂性。与此同时,硬件的进一步微型化和植入技术的改进,也将使得这类语音神经假体系统在临床中的推广变得更加可行。
总之,该研究为语音神经假体技术的发展提供了新的思路。通过高效的校准和精确的解码,该系统展现了其在实际应用中的巨大潜力。这一成果为ALS患者提供了新的沟通方式,未来有望通过进一步的研究和改进,扩大其应用范围,造福更多的患者。在未来的研究中,随着技术的进步和临床应用的推广,这类系统有可能成为神经退行性疾病患者恢复沟通能力的重要工具,显著改善他们的生活质量。
仅用于学术分享,若侵权请留言,即时删侵!
本文来自新知号自媒体,不代表商业新知观点和立场。 若有侵权嫌疑,请联系商业新知平台管理员。 联系方式:system@shangyexinzhi.com