File tree Expand file tree Collapse file tree
Expand file tree Collapse file tree Original file line number Diff line number Diff line change @@ -5,7 +5,7 @@ date: 2025-12-01
55&emsp ;&emsp ; 本视频展示了一套DeepLIT课题组自主研发的 GraphRAG 可视化交互 Web 系统。针对当前 RAG 技术中推理过程不透明、策略对比困难的问题,本系统集成了微软 GraphRAG 与港大 LightRAG 两大主流框架,为研究人员和开发者提供了一个强大的测试与分析环境。
66
77<!-- more-->
8- <video controls width =" 100% " src =" GraphRAGdemo .mp4" >
8+ <video controls width =" 100% " src =" GraphRAG .mp4" >
99 您的浏览器不支持视频播放。
1010</video >
1111
Original file line number Diff line number Diff line change 1+ ---
2+ title : 多模态图像翻译系统演示
3+ date : 2025-12-03
4+ ---
5+ &emsp ;&emsp ; 本视频展示了一款多功能的智能多模态图像定位与翻译系统(PATIMT)。针对传统图像翻译中排版极易错乱、图文空间对齐困难的问题,本系统不仅支持细粒度的** 框选区域局部翻译** ,还能实现精准的** 全图定位翻译** 。无论是处理排版密集的专业医学长图,还是复杂的图文混合文档,模型都能在精准翻译并渲染图像的同时,灵活输出包含精确空间坐标的结构化JSON数据,助力高质量多模态对齐图谱的构建与端到端跨语言视觉任务的高效落地。
6+
7+ <!-- more-->
8+ <video controls width =" 100% " src =" 多模态翻译.mp4 " >
9+ 您的浏览器不支持视频播放。
10+ </video >
11+
12+ ## 视频详情
13+ &emsp ;&emsp ; 本视频展示了课题组最新研发的多模态图像翻译系统 PATIMT 的前端交互界面(基于 Gradio)及其核心功能。演示以一张复杂的医学科普长图(先天性心脏病)为例,直观呈现了系统在处理图文排版密集型输入时的强大性能。
14+
15+ 视频重点展示了系统的两大核心模式:
16+
17+ - 局部框选翻译: 用户可通过鼠标在图像上自由拖拽生成边界框,系统能够精准识别所选区域内的文本,并提供高质量的目标语言(如中译英)翻译结果。
18+ - 全图定位翻译: 一键处理整张复杂图像。系统不仅能在视觉层面上将原图中的文本替换为目标语言并尽可能保留原有的排版风格,还能在后台输出结构化的 JSON 格式数据。该 JSON 数据详细记录了每个文本块的空间坐标 (bbox_2d)、原文内容 (text_content) 以及翻译结果 (translation),实现了文本内容与视觉空间位置的精准对齐。
19+ ---
20+
21+ ## 知识背景
22+ 在传统的工作流中,图像翻译通常依赖于级联系统,即先使用光学字符识别(OCR)提取文本,再调用机器翻译模型进行文本翻译,最后通过图像渲染技术将译文覆盖回原图。这种分离的架构容易导致误差累积,且在处理复杂排版、非标准字体或依赖视觉上下文消除歧义的文本时,往往力不从心。
23+
24+ ** 多模态机器翻译** 与** 视觉定位** 旨在打破这种壁垒。
25+
26+ 本演示中的 PATIMT 系统展示了多模态大模型在端到端图像翻译任务中的潜力。其不仅具备深度的跨语言理解能力,更重要的是引入了强大的视觉定位机制。这意味着模型不仅“知道”文字的意思,还“知道”这些文字在图像中的精确空间坐标。
27+
28+ 系统输出的带坐标信息的 JSON 数据具有极高的学术与工程价值:
29+
30+ 1 . 可解释性与精准渲染: 坐标数据使得下游的渲染模块能够像素级地将译文贴合回原文本位置,极大提升了排版还原度。
31+
32+ 2 . 丰富的数据沉淀: 为构建高质量的多模态图文对齐数据集、辅助视觉问答或进一步训练跨模态检索模型提供了干净的结构化数据支持。
33+
Original file line number Diff line number Diff line change 1+ ---
2+ title : 闽音智聆智能语音处理平台系统演示
3+ date : 2025-12-04
4+ ---
5+ &emsp ;&emsp ; 本视频展示了课题组自主研发的“闽音智聆”智能语音处理平台。针对闽方言种类繁多、口音复杂且数字化资源匮乏的挑战,本系统构建了一套涵盖方言识别、合成、理解与对话的全栈式智能语音服务体系。系统不仅能够实现高准确度的福建方言语音转文字,还通过大模型技术赋予了机器理解方言内涵、甚至以方言进行跨时空对话的能力,为方言保护与智能化适老化服务提供了创新的技术方案。
6+
7+ <!-- more-->
8+ <video controls width =" 100% " src =" 智能语音处理平台.mp4 " >
9+ 您的浏览器不支持视频播放。
10+ </video >
11+
12+ ---
13+
14+ ### 1. 视频详情
15+
16+ 本视频全方位演示了“闽音智聆”平台的各项核心模块及其在数字人交互中的应用场景:
17+ * ** 多维度方言处理模块:**
18+ * ** 方言语音识别 (ASR):** 支持闽南话、福州话等典型方言到标准汉字的实时转换,精准捕捉地方口音。
19+ * ** 方言语音合成 (TTS):** 将文字转化为带有地道韵味和情感起伏的方言语音。
20+ * ** 音频内容理解:** 智能分析方言音频内容,自动生成摘要、提取关键信息。
21+ * ** 智能对话音频:** 实现用户与模型之间的方言语音问答交互。
22+ * ** 数字嘉庚:沉浸式方言对话系统:**
23+ * 演示重点展示了“陈嘉庚先生”数字人系统。用户可以通过语音询问关于厦大校史、抗战事迹等问题。
24+ * ** 核心特性:** 该模块展示了** 长短期记忆能力** (能记住用户之前的提问)以及** 跨语言/跨方言理解** (用户用普通话提问,数字人以地道闽南语回答),将方言 AI 技术与数字孪生、历史传承完美结合。
25+ ---
26+
27+ ### 2. 知识背景
28+
29+ 闽方言(包括闽南语、福州话、莆仙话等)作为汉语中最为复杂的方言区之一,被学术界称为“汉语的活化石”,具有极高的历史文化研究价值。然而,在人工智能领域,闽方言属于典型的** 低资源语言** ,面临着标注数据少、音系结构复杂(如多音调、连读变调)等技术难题。
30+
31+ ** 方言大模型与语音生成技术** 是本系统的技术底座。
32+ 1 . ** 端到端方言语音建模:** 课题组通过迁移学习与自监督学习技术,在有限的方言语料上实现了高鲁棒性的语音识别与合成。
33+ 2 . ** 多模态交互:** 结合数字人(Digital Human)技术,将单纯的语音处理扩展到视觉、听觉、语言多维度的交互,这对于非物质文化遗产的数字化保护具有重要意义。
34+ 3 . ** 社会价值:** 随着人口老龄化,许多仅使用方言的老年人面临数字鸿沟。该系统能够作为翻译器和助手,帮助方言群体更好地融入智能社会,同时也让历史人物以更亲切的方式“开口说话”。
35+
You can’t perform that action at this time.
0 commit comments