10月28日~11月1日,环球顶级多媒体会议ACM Multimedia(ACMMM)2024 在澳大利亚墨尔本成功召开。
明略科技个人多模态团队与北京大学独特成功的最新钻研成绩《Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding》在泛滥论文中锋芒毕露,荣获最佳论文提名(Best paper nomination)。 明略科技个人开创人、董事长兼CEO吴明辉,多模态大模型部门担任人赵晨旭,明敬算法担任人苏安炀受邀赴墨尔本缺席此次会议。
明略科技个人开创人、董事长、CEO兼CTO吴明辉
明略科技个人多模态团队在 ACMMM 2024 会议现场 (左起:苏安炀、吴明辉、赵晨旭)
ACMMM会议是由国际计算机学会(ACM)主办的多媒体畛域的顶级国际学术会议,同时也是中国计算机学会介绍的A类国际学术会议(CCF-A)。自1993年举行以来,往年是第32届。会议议题涵盖多媒体计算的各个方面,如多媒体内容剖析、多媒体检索、多媒体安保、人机交互、计算机视觉等。
ACMMM 2024 会议现场发布最佳论文提名奖项
针对AI畛域在视频内容了解方面关键聚焦于客观层面,缺少客观层面的测量规范,以及机器模拟人类客观感触的有效手腕的开展状况, 明略科技的最新钻研成绩整合脑电、眼动信号等多种非标模态,构建了全新的多模态大言语模型范式,在机器了解和模拟人类客观感触的钻研方向,迈出了关键一步。
明略科技多模态团队论文荣获 ACMMM 2024 最佳论文提名奖项
(超图多模态大言语模型:运行脑电和眼动模态来评价异质人群观看视频时的照应)
吴明辉*,赵晨旭*,苏安炀*,狄东林,傅天宇,安达,何敏,高贵,马萌,颜鲲,王平(*为独特第一作者)
对视频创意和内容的了解往往因人而异,不同年龄、职业和性别的人的关注点和认知水平也存在差异。目前不足这方面的钻研,没有可以启动评测的基础,大少数现有的基准都存在几个缺陷:
1)模态数量有限,标题多为选用题,难以测量逻辑推理环节;
2)视频中的内容和场景过于干燥,仅触及到对视频内容的客观形容。
为了弥合与实践运行的差距,明略科技引入大规模的视频客观多模态评价数据集Video-SME。经过搜集不同人群在观看相反视频内容时脑电图 (EEG) 和眼动追踪区域的实在变动,设立了新的义务和协定,剖析和评价不同受试者对相反视频内容的认知了解水平。
附丽新的评测规范,明略科技翻新研发了超图多模态大言语模型 (HMLLM),探求不同人口统计、视频元素、脑电图和眼动追踪目的之间的关联。HMLLM可以弥合丰盛模态之间的语义差距,并集成帧与帧之间的信息以口头逻辑推理。明略科技在Video-SME和其余基于视频的生成功能基准上设计了试验,少量试验评价证实了该方法的有效性。
测量不同人群观看广告视频的客观照应有何意义?
人在观看广告视频时,关于素材元素的认知水平、心情高下、眼睛注视水平高下都是人的客观感触,不异性别、年龄、职业、身份的人群都会有所不同。
假设机器能够模拟不同人群观看广告视频时的不同客观感触,那么相当于可以对广告视频的内容、创意等启动有效的测量,指点广告成片环节,节俭广告投放老本。
让机器学习、了解和模拟人类的客观感触,或者是赋予机器客观看法的开始。 明略科技提出的新基准Video-SME有望成为该畛域的新终点,标记着机器对视频的了解从客观维度向客观维度的转变。作为一种全新的范式,明略科技多模态大模型HMLLM的研发,努力于为该畛域钻研人员处置非规范模态疑问提供贵重阅历与启发,从而促成大模型畛域向人机协同的美妙未来迈进。
本钻研课题由科技部科技翻新2030——“新一代人工默认(2030)”严重名目允许。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/9123.html