5月31号上午,应信息學院邀请,上海交通大学陳諧副教授在百全楼作“多语言同声传译和语音驱动的数字人”專題學術講座。讲座由信息學院院长刘浩主持,盘算机科学与技术、网络工程和软件工程等专业部门师生聆聽。
講座中,陳諧首先通過場景演示方式介紹了跨媒體語言智能實驗室的在對話式人工智能、視聽文感知及語言認知方面的主要研究情況,重點分享了在多語言同聲傳譯和語音驅動的數字人方面做的一些探索和嘗試。陳教授介紹了團隊最新的流式語音識別和機器翻譯前沿研究,並直接演示了多語言同聲傳譯系統,通過團隊搭建的語音識別系統直接識別同聲傳譯原文,同時通過同傳系統轉換成越南語。在語音驅動的數字人方面,提出一種兩階段模型將輸入音頻信號同步到數字人的口型上,首先通過語音魯棒特征提取形成一種音頻特征映射到面部運動和姿勢体现,其次通過動態時間規整DWT等對其技術將面部運動和姿勢体现渲染到視頻,從而基于少量的精標數據就可以搭建一個性能不錯的語音驅動的數字人原型系統。陳教授的報告通俗易懂、深入淺出,將複雜的模型演變成清晰有趣的應用展現在師生的面前。

陳諧,上海交通大学盘算机科学与工程系长聘教轨副教授,博士生导师,获国家外洋高条理人才(青年)项目资助。2009年本科畢業于廈門大學電子工程系,2012年碩士畢業于清華大學電子系,2016年博士畢業于劍橋大學信息工程系,博士畢業後先後在劍橋大學從事博士後研究,美國微軟研究院任高級研究員,資深研究員,2021年9月加入上海交通大學。主要研究偏向爲深度學習和智能語音信號處理,在本領域的國際權威會議和期刊發表論文60余篇。(圖/文:彭智朝;一審:彭智朝;二審:王愛軍;三審:劉浩)