Skip to content

Commit ddc9f78

Browse files
committed
add complete institution
1 parent 4f27371 commit ddc9f78

11 files changed

Lines changed: 58 additions & 64 deletions

File tree

config/_default/params.yaml

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -47,7 +47,7 @@ header:
4747

4848
footer:
4949
copyright:
50-
notice: '© {year} XMU-DeepLIT This work is licensed under {license}'
50+
notice:
5151
license:
5252
enable: true
5353
allow_derivatives: false

content/authors/Ante Wang/_index.md

Lines changed: 0 additions & 58 deletions
This file was deleted.
-613 KB
Binary file not shown.

content/contact/index.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -9,7 +9,7 @@ sections:
99
content:
1010
title: 联系我们
1111
text: |-
12-
我们非常高兴地邀请你加入我们的课题组。
12+
1313
email: jssu@xmu.edu.cn
1414
address:
1515
country: 中国

content/environment/index.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -5,7 +5,7 @@ type: landing
55
sections:
66
- block: markdown
77
content:
8-
title: LDK风采
8+
title:
99
subtitle:
1010
# text: Add any **markdown** formatted content here - text, images, videos, galleries - and even HTML code!
1111
design:

content/post/1/index.md

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -8,6 +8,7 @@ IJCAI会议(International Joint Conference on Artificial Intelligence,国际
88
- 论文标题:Boosting Visual Knowledge-Intensive Training for LVLMs through Causality-driven Visual Object Completion
99
- 录用类型:IJCAI2025
1010
- 论文作者:Qingguo Hu+, Ante Wang+, Jia Song, Delai Qiu, Qingsong Liu, Jinsong Su\*
11+
- 完成单位:厦门大学,云知声
1112
![](1.jpg)
1213
- 论文简介:
1314
本研究提出了一种创新的自我改进框架,用于增强视觉语言模型(LVLMs)的视觉感知与推理能力。该框架基于因果驱动的视觉对象补全任务(CVC),要求以明确的推理链形式,利用图像中的可见上下文信息来推断被遮挡的对象,从而将感知密集的复杂推理能力引入LVLMs。类似于人类通过反复试错来提升解决复杂问题的能力,该框架采用试错学习来强化LVLM对CVC的掌握程度,从而提升其全面的视觉能力。首先,该框架采样LVLM的多个推理路径(试验),然后挑选出对训练有价值的样本,最终将这些自我生成的试验用于LVLM的自我改进。因此,LVLM的视觉能力可以在不依赖人类或更先进 LVLM 的情况下得到全面的自我提升。实验证明,该框架在多个通用测试基准和高难度专项任务上均优于对应的基线模型,尤其在更具挑战性的任务中,如MMVP和Winoground,分别实现了10.0%和8.2%的提升。

content/post/2/index.md

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -8,6 +8,7 @@ Neural Networks是国际著名的学术期刊,专注于神经网络及深度
88
- 论文标题:Towards Better Text Image Machine Translation with Multimodal Codebook and Multi-stage Training
99
- 录用类型:Neural Networks
1010
- 论文作者:Zhibin Lan, Jiawei Yu, Shiyu Liu, Junfeng Yao, Degen Huang, Jinsong Su\*
11+
- 完成单位:厦门大学,大连理工大学
1112
![](1.jpg)
1213
- 论文简介:
1314
当前图文翻译任务在跨模态理解与语言生成领域受到广泛关注,但现有方法仍面临两大核心挑战:一方面,主流方法普遍采用OCR识别与文本翻译串联的级联结构,导致OCR误识别会严重影响最终翻译结果;另一方面,缺乏大规模、高质量的公开图文翻译数据集也限制了模型能力的进一步提升。为此,本研究人工标注并公开了首个中英图文翻译数据集OCRMT30K,并借助自动翻译工具将其扩展到中德语言对上,为该领域提供了宝贵的训练资源与评测基准。此外,本研究提出了一种基于多模态码本的图文翻译模型,通过引入图像编码器、文本编码器、文本解码器以及可桥接图文语义的多模态代码本,实现了跨模态语义的高效对齐与增强的翻译性能。同时,论文设计了一套多阶段训练框架,充分利用不同类型的数据资源,逐步优化各个模块:先基于双语文本进行文本模块的预训练,接着引入基于码元的掩码翻译任务进一步训练多模态码本与文本编码器和解码器模块,再借助图文对齐与对抗训练方法在OCR数据集上优化图像编码器模块与多模态码本,最后使用图文翻译数据集对整个模型进行微调。实验结果表明,该模型在中英与中德图文翻译任务中均显著优于现有方法,验证了其跨模态建模与阶段训练策略的有效性。

content/post/3/index.md

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -7,7 +7,8 @@ ICML会议(International Conference on Machine Learning,国际机器学习
77
- - -
88
- 论文标题:EpiCoder: Encompassing Diversity and Complexity in Code Generation
99
- 录用类型:ICML2025主会长文
10-
- 论文作者:王耀祥+,李皓凌(清华)+,张鑫(微软)+,杨余久(清华)\*,苏劲松\*
10+
- 论文作者:Yaoxiang Wang+, Haoling Li+, Xin Zhang+, Jie Wu, Xiao Liu, Wenxiang Hu, Zhongxin Guo, Yangyu Huang, Ying Xin, Yujiu Yang\*, Jinsong Su\*, Qi Chen, Scarlett Li
11+
- 完成单位:厦门大学,清华大学,微软
1112
![](1.jpg)
1213
- 论文简介:
1314
现有的大语言模型在代码生成方面已取得显著进展,但在面对复杂结构、多样语义与跨文件依赖等真实开发场景时仍存在能力瓶颈。为了支持更高质量、结构合理、复杂度可控的代码生成任务,论文提出了一个结构驱动的数据合成框架 EpiCoder,引入“特征树(feature tree)”作为代码语义的中间结构表示,系统性地控制代码片段的结构、语义及跨组件依赖关系。借助这一结构化合成流程,EpiCoder 能够生成可调复杂度、结构清晰且跨语义路径多样化的代码数据,从而有效提升模型在结构化理解与复杂生成任务上的表现。实验证明,EpiCoder 可广泛支持包括模块级代码生成、跨文件建构、语义覆盖增强等任务,并在多个代表性基准任务中显著提升现有代码大模型的性能与泛化能力。

content/post/4/index.md

Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -9,45 +9,52 @@ ACL会议全称为Annual Meeting of the Association for Computational Linguistic
99
- 论文标题:Advancing SMoE for Continuous Domain Adaptation of MLLMs: Adaptive Router and Domain-Specific Loss
1010
- 录用类型:Main, Long paper
1111
- 论文作者:Liang Zhang+, Ziyao Lu+, Fandong Meng, Hui Li, Jie Zhou, and Jinsong Su\*
12+
- 完成单位:厦门大学,微信
1213
![](1.jpg)
1314
- 论文简介:
1415
近期研究已经探索了多模态大模型的连续任务学习。然而,更加现实的多模态大模型连续领域学习还没被探索过。因此,本研究提出了一个基于SMoE的多模态大模型连续领域适应方法。具体而言,该方法为每一个新领域在多模态大模型的每个FFN子层中学习一个单独的SMoE模块。通过这种方法来避免领域之间冲突所带来的灾难性遗忘问题。同时,为了提高模型对每个领域的学习能力,每个SMoE模块配备了一个基于自适应阈值的路由器(AT-Rounter),其根据每个指令token的重要性来进行专家分配。为了缓解SMoE模块中专家训练不充分的问题,本研究引入了一个领域特定的自回归损失 (DSAL),其能够让每个专家能够利用每个训练指令进行充分训练。此外,DSAL还能够用于识别实例测试指令是来自哪一个领域,以准确地分配对应SMoE模块来进行处理。最后,本文构建了一个连续领域学习的benchmark,并验证了本研究方法的有效性。
1516
- - -
1617
- 论文标题:A Self-Denoising Model for Robust Few-Shot Relation Extraction
1718
- 录用类型:Main, Long paper
1819
- 论文作者:Liang Zhang, Yang zhang, Ziyao Lu, Fandong Meng, Jie Zhou, and Jinsong Su\*
20+
- 完成单位:厦门大学,微信
1921
![](2.jpg)
2022
- 论文简介:
2123
在低资源关系抽取领域中,现有工作都采样原型网络的范式,并且假设每个few-shot 任务中的支持集仅包含准确标注的支持实例。然而,在现实场景中噪声标签是不可避免的,因此进一步提高关系抽取模型对支持集中噪声标签的鲁棒性是一个关键的研究课题。为此,本研究提出了一个自降噪声的关系抽取模型,其包含了两个关键成分:标签修正模块和关系预测模块。具体来说,对于每个few-shot 任务,本研究首先使用标签修正模块根据支持集中支持实例在嵌入空间中的相对位置来修正它们的噪声标签。然后,关系预测模块根据这些修正标签去准确地预测每个询问实例的关系。此外,本文提出了一个基于反馈的训练策略,其聚焦于训练标签修正模块和关系预测模块去协调地处理支持集中的噪声标签。最后,两个常用数据的实验有效地验证了我们模型的有效性。
2224
- - -
2325
- 论文标题:FaithfulRAG: Fact-Level Conflict Modeling for Context-Faithful Retrieval-Augmented Generation
2426
- 录用类型:Main, Long paper
2527
- 论文作者:Qinggang Zhang+, Zhishang Xiang+, Yilin Xiao, Le Wang, Junhui Li, Xinrun Wang, and Jinsong Su\*
28+
- 完成单位:厦门大学,香港理工大学,咪咕新空,苏州大学,新加坡管理大学
2629
![](3.jpg)
2730
- 论文简介:
2831
检索增强型生成系统在处理知识密集型任务中展现出巨大潜力,然而,当检索到的上下文与大模型的参数化知识发生冲突时,生成结果的不一致性问题成为了一个亟待解决的重大挑战。目前的忠实性提升方法主要通过严格限制模型对上下文的依赖来解决这一问题,但这些方法往往会抑制模型的参数化知识,导致模型内部知识结构受损,增加了对上下文的误读风险。针对这些问题,本研究提出了创新性的FaithfulRAG框架。该框架通过明确对模型参数化知识与检索上下文之间的差异进行建模,精准定位知识冲突,设计了一个自我思考过程,使大模型能够在生成响应之前对冲突事实进行推理和整合。大量的实验结果表明,我们方法不仅能够有效解决知识冲突问题,还显著提高了生成结果的准确性和忠实性,同时保持了模型对上下文的正确解读能力。
2932
- - -
3033
- 论文标题:Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls
3134
- 录用类型:Main, Long paper
3235
- 论文作者:Ante Wang, Linfeng Song\*, Ye Tian, Dian Yu, Haitao Mi, Xiangyu Duan, Zhaopeng Tu\*, Jinsong Su\*, and Dong Yu
36+
- 完成单位:厦门大学,腾讯AI Lab,苏州大学
3337
![](4.jpg)
3438
- 论文简介:
3539
近期研究表明,树搜索算法可显著提升大模型的推理性能,但其高昂的计算成本严重制约了实际应用。通过深入分析,本文发现该研究方向存在“过思考”与“欠思考”的双重问题:(1)搜索树中冗余状态(语义等价状态)的重复探索导致过思考问题;(2)验证器评分的高方差引发搜索路径频繁切换,造成欠思考问题。为此,本研究提出FETCH——一种即插即用的高效树搜索框架,与主流树搜索算法具有良好的兼容性。具体而言,FETCH通过聚类算法合并语义相似状态以缓解过思考问题;同时,采用时序差分学习优化验证器训练,并引入验证器集成策略降低评分方差,有效缓解欠思考问题。在多个数学推理基准测试中的实验结果表明,我们方法可显著提升树搜索算法的推理准确率和计算效率,为大模型的实用化推理提供了高效解决方案。
3640
- - -
3741
- 论文标题:Locate-and-Focus: Enhancing Terminology Translation in Speech Language Models
3842
- 录用类型:Main, Long paper
3943
- 论文作者:Suhang Wu, Jialong Tang, Chengyi Yang, Pei Zhang, Baosong Yang, Junhui Li, Min Zhang, and Jinsong Su\*
44+
- 完成单位:厦门大学,通义实验室,苏州大学
4045
![](5.jpg)
4146
- 论文简介:语音翻译领域正受到日益广泛的关注,然而,准确翻译语音中的专业术语仍然是一个亟待解决的重大挑战。目前的研究主要集中于将各类翻译知识整合到语音大模型中,但这些方法往往会受到无关信息的干扰,且未能充分发挥翻译知识的潜力。针对这些问题,本研究提出了创新性的Locate-and-Focus方法。该方法首先精准定位语音中包含专业术语的语音片段,效减少语音翻译模型中的干扰信息。随后,该方法将翻译知识与语音和翻译文本建立关联,使语音大模型在翻译过程中能够更加精准地聚焦于相关的翻译知识。在多个数据集上的实验结果证明了我们方法不仅能够有效定位语音中的专业术语,并显著提高了专业术语的翻译准确率,同时还能够保持通用翻译的质量。
4247
- - -
4348
- 论文标题:Investigating inference-time scaling for chain of multi-modal thought: A preliminary study
4449
- 录用类型:Findings, Long paper
4550
- 论文作者:Yujie Lin+, Ante Wang+, Moye Chen, Jingyao Liu, Hao Liu, Jinsong Su\*, and Xinyan Xiao
51+
- 完成单位:厦门大学,百度
4652
![](6.jpg)
4753
- 论文简介:近期研究已经证明思维链的推理时间扩展是提升多模态推理能力的一种有效方法,然而现有工作大多聚焦于纯文本的思维链。本研究首次针对多模态思维链探讨推理时间扩展带来的影响。在跨不同领域的10个多模态任务上,本研究系统评估了主流的基于采样和基于树搜索的推理时间扩展方法,并提供了全面的分析。此外,本研究统一采用一致性增强的验证器,以确保在推理过程中提供有效的指导。实验结果表明,对比纯文本思维链,多模态思维链展现出更优的推理性能。然而,这种优势也伴随着更高的令牌消耗成本,给实际应用带来一定挑战。
4854
- - -
4955
- 论文标题:AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity
5056
- 录用类型:Findings, Long paper
5157
- 论文作者:Zhibin Lan, Liqiang Niu, Fandong Meng, Wenbo Li, Jie Zhou, and Jinsong Su\*
58+
- 完成单位:厦门大学,腾讯微信
5259
![](7.jpg)
5360
- 论文简介:当前大型多模态模型在处理高分辨率图像时往往引入大量视觉标记,导致模型推理速度较慢。针对这一问题,本研究提出 AVG-LLaVA,一种能够根据输入图像和指令自适应选择视觉粒度的模型。具体而言,本研究在 LLaVA-NeXT基础上引入视觉粒度缩放器和视觉粒度路由器,分别用于获取不同粒度视觉特征和动态选择视觉粒度。此外,本研究还提出基于多模态大模型反馈的训练范式,使路由器预测的粒度与模型偏好对齐,而无需额外注释数据。实验表明,AVG-LLaVA 在 11 个多模态基准上表现优异,并能显著提高推理速度。特别的,在 AI2D 基准上减少 85.3% 视觉标记,推理速度提升 2.53 倍。

i18n/zh.yaml

Lines changed: 1 addition & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -261,8 +261,7 @@
261261

262262
# Published with
263263

264-
- id: published_with
265-
translation: 由{hugoblox}支持发布——免费{repo_link}开源{/repo_link}网站,为创作者赋能。
264+
266265

267266
# 研究方向对应翻译显示
268267
- id: pub_Text Machine Translation

0 commit comments

Comments
 (0)