金融界 2024 年 7 月 12 日消息,天眼查知识产权信息显示,北京罗克维尔斯科技有限公司申请一项名为“车载多音区声源分离方法、装置、设备、介质和车辆“,公开号 CN202310042199.3,申请日期为 2023 年 1 月。
专利摘要显示,本公开涉及一种车载多音区声源分离方法、装置、设备、介质和车辆,该方法包括:获取车内的视频图像和音频信号;基于视频图像对车内发声对象的发声信息进行识别,得到发声对象的发声信息;根据发声信息,从音频信号中分离出特征与发声信息相对应的目标子音频信号;将发声信息对应的发声对象所在的音区,确定为目标子音频信号对应的音区。本公开识别车内视频图像中包含的发声对象的发声信息,来辅助分离车内音频信号中关于发声对象的目标子音频信号,并将目标子音频信号对应的音区确定为发声对象所处的音区,提高了车载多音区场景下声源分离方法的准确性和鲁棒性。
本文源自金融界
渝公网安备50010502503425号
评论·0