［feats/llm］语音大模型背景下的llm集成 #2142

Mddct · 2023-11-14T02:36:26Z

现状

deepspeed refactor(deepspeed): Refine traning code #2055
中文paraformer 全语种whisper [paraformer] support fintune #2139 @xingchensong feat(whisper): support whisper arch #2141
代码简洁容易diy
llm decoder onoy 下代码几乎一致
有 lora的pr, LoRA support #2049

语音大模型是一方面https://github.com/wenet-e2e/wenet/issues/2097，另外一个路子是和llm的结合，后者目前paper 日益增多，缺少合语音、llm的一体的简单易于diy/研究的repo

在此有个想法，wenet集成llm 比如llama

宗旨

数据、模型、代码全部都会开源开放，欢迎大家贡献，有数据的出数据，有意见的出意见，有机器的出机器，大家共创。
且做且分析

目标

base 当前/未来语音大模型中文开源语音大模型计划 #2097 + xxx llm，构造Audio+LLM的语音语言打模型，unify all speech task + speech multi-round chat ability
积累语音所有任务的数据以及构造audio instruct/prompt数据

Action

数据

中文开源语音大模型计划 #2097 (comment)
构造speech instruct/prompt

训练

部署

wenet.cpp (speech.cpp+xxxllm.cpp)
int4量化，降低带宽需求

目前可行方案，

https://github.com/salesforce/BLIP
https://github.com/QwenLM/Qwen-Audio
https://google-research.github.io/seanet/audiopalm/examples/
etc
特点：主要为微调，微调对数据量要求不高，方法类似,
需要基座： Llama + whisper + tune

robin1001 · 2023-11-14T02:44:37Z

可以的，我们之前的思路是：

模型放大，简单粗暴，大就是强。
LLM based，站在巨人的肩膀。
在语音任务中直接引入 LLM 的方法，让语音模型直接有理解能力。

目前在做的是1，在做 1 的生态和基础设施。2 确实现在出现了很多的 paper，是新的研究热点。以前的思路是资源有限，先做 1，1 和 2 本质上是不冲突的，社区有资源的话，可以都搞起来。

xingchensong · 2023-11-14T03:48:50Z

周哥可以针对这条路线，起草个计划，我们给你打工

Mddct · 2023-11-14T11:19:51Z

周哥可以针对这条路线，起草个计划，我们给你打工

大佬谦虚了，我给你打工

我先整理下这方面的最新成果，看能不能抽出共性东西，再写个TODO (现在功力不够)

xingchensong · 2023-11-16T03:31:57Z

提一个，tokenizer可能需要重构一下，现在有两种模式，一种是纯词表模式，一种是bpe模式，未来肯定还会有适配LLM的模式，这样就是三种模式了，需要重新构建下代码

Mddct · 2023-11-19T09:34:00Z

xingchensong · 2023-11-20T02:28:24Z

我在想，直接import transformers行不行，和自己重新实现一遍，各有什么pros & cons

Mddct · 2023-11-20T13:39:20Z

我在想，直接import transformers行不行，和自己重新实现一遍，各有什么pros & cons

第一步先单纯imoort transformers
后边再看会有什么问题，上边那个列表先列那里了。

缺点是：
不好魔改，比如阿里的通义audio 会有个model parallel ，hugface封装过厚 fintune audio llm 如果需要对llm做些改动需要去hug里去改。而且输入输出需要符合hg的接口

robin1001 · 2023-11-20T14:12:24Z

+1，我觉得对于文本大模型的支持，直接 import transformer，不需要重复造轮子了。

xingchensong · 2023-11-23T02:22:25Z

espnet/espnet#4099 this might be a reference for integrating hugginface

Mddct · 2023-11-23T02:37:14Z

hg的llm模型几乎是下边伪代码pattern

from transformers import CasulLM...

tokenizer = from_pretrain

tokenizer.add_special_tokens

# 这里dataset 包含mask的计算
dataset = ...

model = from_pretain 

# 这里可以构造和语音id或emb的input+ text 给model， 包含att mask
output = model（....）

calac loss

model.generate for base

model.chat for chat

xingchensong · 2023-11-23T03:32:41Z

提一个，tokenizer可能需要重构一下，现在有两种模式，一种是纯词表模式，一种是bpe模式，未来肯定还会有适配LLM的模式，这样就是三种模式了，需要重新构建下代码

This might be a reference for refactoring tokenizer https://github.com/espnet/espnet/tree/master/espnet2/text

Mddct · 2023-11-23T06:54:21Z

hg的llm模型几乎是下边伪代码pattern

from transformers import CasulLM...

tokenizer = from_pretrain

tokenizer.add_special_tokens

# 这里dataset 包含mask的计算
dataset = ...

model = from_pretain 

# 这里可以构造和语音id或emb的input+ text 给model， 包含att mask
output = model（....）

calac loss

model.generate for base

model.chat for chat

cv有篇工作，https://arxiv.org/pdf/2311.03079.pdf

该做法整体看，和通义audio相似，区别在于他给llm 加了个cross attention，这里涉及到了对llm的修改

xingchensong · 2023-11-23T07:12:07Z

涉及到修改的可不可以通过下面的方式：

from transformers import XXXModelForCasulLM
from wenet.transformer.asr_model import AsrModel

class NewModel(nn.Module, AsrModel, XXXModelForCasulLM):
    def __init__(self, ...):
        # init father
        super().__init__()
        # add new member if needed, i.e.,
        self.new_member = nn.Identity()

    def forward(self, ...):
        # overwrite father
        pass

    # overwrite other functions if needed, i.e., function from XXXModelForCasulLM
    def from_pretrained(self, ...):
        pass
        
    # overwrite other functions if needed, i.e., function from AsrModel
    def _cal_att_loss(self, ...):
        pass

Mddct · 2023-11-23T07:15:38Z

涉及到修改的可不可以通过下面的方式：

from transformers import XXXModelForCasulLM
from wenet.transformer.asr_model import AsrModel

class NewModel(nn.Module, AsrModel, XXXModelForCasulLM):
    def __init__(self, ...):
        # init father
        super().__init__()
        # add new member if needed, i.e.,
        self.new_member = nn.Identity()

    def forward(self, ...):
        # overwrite father
        pass

    # overwrite other functions if needed, i.e., function from XXXModelForCasulLM
    def from_pretrained(self, ...):
        pass
        
    # overwrite other functions if needed, i.e., function from AsrModel
    def _cal_att_loss(self, ...):
        pass

+1 也倾向于这种

Mddct · 2023-12-07T07:57:01Z

gemini 是最近谷歌发布的多模态模型，支持语音输入

文中提到了语音输入还是经过”USM“化，输入LLM 从头pretrain

（NOTE：区别图片patch，无预训练比如vit，直接patch 输入）

该形式和通义之类的实现是类似的（区别解释通义的mutli task），个人觉得咱们可以搞搞这类实现的代码框架

@robin1001 @xingchensong

TODO:

add_special tokens [text] huggingface tokenizer #2186
load huggingface model
adapter
load encoder from whsiper feat(whisper): support whisper arch #2141
多么形式上的IO IO 重构，提升多机多卡训练效率 + 代码复用 #2152

如果上述实现，即使不训练，也可以load 通义audio的开源模型

Mddct · 2024-02-06T23:21:25Z

https://arxiv.org/abs/2402.01831

xingchensong pinned this issue Nov 14, 2023

Mddct added the future plan label Nov 18, 2023

Mddct mentioned this issue Nov 24, 2023

[refine/tokenzier] 重构tokenizer接口 #2160

Closed

5 tasks

MrSupW unpinned this issue May 13, 2024

Mddct pinned this issue Jun 1, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

［feats/llm］语音大模型背景下的llm集成 #2142

［feats/llm］语音大模型背景下的llm集成 #2142

Mddct commented Nov 14, 2023 •

edited

robin1001 commented Nov 14, 2023

xingchensong commented Nov 14, 2023

Mddct commented Nov 14, 2023 •

edited

xingchensong commented Nov 16, 2023

Mddct commented Nov 19, 2023 •

edited

xingchensong commented Nov 20, 2023 •

edited by Mddct

Mddct commented Nov 20, 2023

robin1001 commented Nov 20, 2023

xingchensong commented Nov 23, 2023 •

edited

Mddct commented Nov 23, 2023 •

edited

xingchensong commented Nov 23, 2023

Mddct commented Nov 23, 2023

xingchensong commented Nov 23, 2023

Mddct commented Nov 23, 2023

Mddct commented Dec 7, 2023 •

edited

Mddct commented Feb 6, 2024

［feats/llm］语音大模型背景下的llm集成 #2142

［feats/llm］语音大模型背景下的llm集成 #2142

Comments

Mddct commented Nov 14, 2023 • edited

宗旨

目标

Action

数据

训练

部署

目前可行方案，

robin1001 commented Nov 14, 2023

xingchensong commented Nov 14, 2023

Mddct commented Nov 14, 2023 • edited

xingchensong commented Nov 16, 2023

Mddct commented Nov 19, 2023 • edited

step1: support wenet llama2, Adhering to the principle of maximizing reuse of wenet code

Features

xingchensong commented Nov 20, 2023 • edited by Mddct

Mddct commented Nov 20, 2023

robin1001 commented Nov 20, 2023

xingchensong commented Nov 23, 2023 • edited

Mddct commented Nov 23, 2023 • edited

xingchensong commented Nov 23, 2023

Mddct commented Nov 23, 2023

xingchensong commented Nov 23, 2023

Mddct commented Nov 23, 2023

Mddct commented Dec 7, 2023 • edited

Mddct commented Feb 6, 2024

Mddct commented Nov 14, 2023 •

edited

Mddct commented Nov 14, 2023 •

edited

Mddct commented Nov 19, 2023 •

edited

xingchensong commented Nov 20, 2023 •

edited by Mddct

xingchensong commented Nov 23, 2023 •

edited

Mddct commented Nov 23, 2023 •

edited

Mddct commented Dec 7, 2023 •

edited