课程简介:
在人工智能领域,整合视觉信息和语言理解已成为发展智能系统的关键技术之一。视觉与语言导航(Vision-and-Language Navigation,简称VLN)探索了计算机视觉、自然语言处理和机器人技术的交叉点,重点研究如何让机器人智能体通过视觉输入和自然语言指令,在真实环境中进行导航。
本课程将全面介绍VLN领域的核心技术和挑战,包括视觉感知、语义理解和空间推理等内容。学生将通过实践,学习如何设计和训练能够解读复杂指令、处理视觉数据并做出导航决策的模型。课程内容涵盖视觉场景理解、多模态学习、基于强化学习的导航方法,以及人机交互等前沿技术。
通过本课程的学习,学生将掌握开发能够实时理解并响应语言指令、在物理空间中进行导航的系统的知识与技能。该课程非常适合对人工智能、机器人学和机器学习感兴趣的学生,同时也适合那些希望从事自主系统、智能助手等领域的研究与开发的同学。
授课教师:
吴琦,男,澳大利亚阿德莱德大学副教授,2023年获南澳大利亚杰出青年科学家称号,主要研究方向为视觉语言导航、计算机视觉与自然语言处理。2019年获得澳大利亚科学院罗素奖,担任 CVPR,ICCV 2023 Area Chair。在CVPR、ICCV、ECCV、TPAMI 等顶会与期刊上发表论文130余篇。目前在澳大利亚机器学习研究中心里担任视觉与语言研究方向的实验室主任,同时也成立了自己的实验室“V3A Lab”。
授课形式:
线上授课
课程号:
SQ0391002H