#

multimodal-deep-learning

Here are 341 public repositories matching this topic...

salesforce / LAVIS

LAVIS - A One-stop Library for Language-Vision Intelligence

deep-learning salesforce image-captioning deep-learning-library vision-framework vision-and-language multimodal-deep-learning multimodal-datasets vision-language-transformer vision-language-pretraining visual-question-anwsering

Updated Apr 19, 2024
Jupyter Notebook

Awesome-Text-to-Image

Yutong-Zhou-cv / Awesome-Text-to-Image

(ෆ`꒳´ෆ) A Survey on Text-to-Image Generation/Synthesis.

survey generative-adversarial-network image-manipulation image-generation text-to-image image-synthesis multimodal multimodal-deep-learning awseome-list text-to-face

Updated Apr 22, 2024

kyegomez / BitNet

Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch

machine-learning deep-neural-networks artificial-intelligence deeplearning multimodal multimodal-deep-learning gpt4

Updated Apr 28, 2024
Python

pytorch-widedeep

jrzaurin / pytorch-widedeep

A flexible package for multimodal-deep-learning to combine tabular data with text and images using Wide and Deep models in Pytorch

python deep-learning text images tabular-data pytorch pytorch-cv multimodal-deep-learning pytorch-nlp pytorch-transformers model-hub pytorch-tabular-data

Updated May 6, 2024
Python

DWCTOD / CVPR2024-Papers-with-Code-Demo

收集 CVPR 最新的成果，包括论文、代码和demo视频等，欢迎大家推荐！Collect the latest CVPR (Conference on Computer Vision and Pattern Recognition) results, including papers, code, and demo videos, etc., and welcome recommendations from everyone!

computer-vision segmentation object-detection cvpr multimodal-deep-learning cvpr2021 cvpr2022 llm cvpr2023 segment-anything cvpr2024

Updated Apr 25, 2024

yuewang-cuhk / awesome-vision-language-pretraining-papers

Recent Advances in Vision and Language PreTrained Models (VL-PTMs)

bert vision-and-language multimodal-deep-learning pretraining vl-ptms

Updated Aug 19, 2022

AlibabaResearch / AdvancedLiterateMachinery

A collection of original, innovative ideas and algorithms towards Advanced Literate Machinery. This project is maintained by the OCR Team in the Language Technology Lab, Tongyi Lab, Alibaba Group.

ocr computer-vision artificial-intelligence text-recognition document text-detection document-analysis end-to-end-ocr multimodal scene-text-recognition multimodal-deep-learning scene-text-detection vision-language document-understanding scene-text-detection-recognition document-recognition document-intelligence documentai vision-language-transformer vision-language-model

Updated Apr 23, 2024
C++

TheShadow29 / awesome-grounding

awesome grounding: A curated list of research papers in visual grounding

natural-language-processing computer-vision paper awesome-list arxiv papers video-understanding captioning-images captioning-videos phrase-grounding language-grounding multimodal-deep-learning grounding visual-grounding embodied-agent video-grounding image-grounding paper-roadmap

Updated Apr 9, 2023

KimMeen / Time-LLM

[ICLR 2024] Official implementation of " 🦙 Time-LLM: Time Series Forecasting by Reprogramming Large Language Models"

machine-learning deep-learning time-series language-model time-series-analysis time-series-forecast time-series-forecasting multimodal-deep-learning cross-modality multimodal-time-series cross-modal-learning prompt-tuning large-language-models

Updated May 6, 2024
Python

declare-lab / multimodal-deep-learning

This repository contains various models targetting multimodal representation learning, multimodal fusion for downstream tasks such as multimodal sentiment analysis.

multimodal-interactions multimodal-learning multimodal-sentiment-analysis multimodal-deep-learning

Updated Mar 15, 2023
OpenEdge ABL

blended-latent-diffusion

omriav / blended-latent-diffusion

Official implementation for "Blended Latent Diffusion" [SIGGRAPH 2023]

computer-vision deep-learning pytorch generative-model image-generation text-to-image diffusion multimodal multimodal-deep-learning text-to-image-synthesis diffusion-models text-guided-manipulation text-driven-editing

Updated Dec 14, 2023
Jupyter Notebook

jianghaojun / Awesome-Parameter-Efficient-Transfer-Learning

A collection of parameter-efficient transfer learning papers focusing on computer vision and multimodal domains.

machine-learning computer-vision deep-learning transfer-learning multimodal-deep-learning parameter-efficient-learning parameter-efficient-tuning

Updated Mar 11, 2024

richard-peng-xia / awesome-multimodal-in-medical-imaging

A collection of resources on applications of multi-modal learning in medical imaging.

medical-imaging multimodal-learning visual-question-answering multimodal-deep-learning large-language-models medical-report-generation multimodal-large-language-models large-multimodal-models

Updated May 5, 2024

theislab / scarches

Reference mapping for single-cell genomics

deep-learning scrna-seq data-integration single-cell rna-seq-analysis single-cell-genomics batch-correction multimodal-deep-learning multiomics human-cell-atlas

Updated Apr 9, 2024
Jupyter Notebook

DWCTOD / ECCV2022-Papers-with-Code-Demo

收集 ECCV 最新的成果，包括论文、代码和demo视频等，欢迎大家推荐！

ai computer-vision cv dataset face-recognition image-segmentation nerf diffusion eccv multimodal-deep-learning objection-detection vision-transformer eccv2022

Updated Nov 15, 2022

fcakyon / content-moderation-deep-learning

Deep learning based content moderation from text, audio, video & image input modalities.

profanity-detection nudity-detection genre-classification violence-detection multimodal-deep-learning movie-trailer nsfw-recognition content-moderation content-ratings movie-content-filter

Updated Jan 6, 2023

MUStARD

soujanyaporia / MUStARD

Multimodal Sarcasm Detection Dataset

sarcasm multimodal-interactions sarcasm-detection multimodal-deep-learning

Updated Apr 1, 2023
OpenEdge ABL

phellonchen / awesome-Vision-and-Language-Pre-training

Recent Advances in Vision and Language Pre-training (VLP)

vision-and-language multimodal-deep-learning pretraining vision-and-language-pre-training vlp

Updated Jun 6, 2023

Yutong-Zhou-cv / Awesome-Multimodality

A Survey on multimodal learning research.

awesome-list multimodality multimodal-deep-learning

Updated Aug 22, 2023

ilaria-manco / multimodal-ml-music

List of academic resources on Multimodal ML for Music

resources music-information-retrieval awesome-list academic-publications multimodal-learning multimodal-deep-learning multimodal-data music-ai music-research

Updated Mar 25, 2023
TeX

Improve this page

Add a description, image, and links to the multimodal-deep-learning topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the multimodal-deep-learning topic, visit your repo's landing page and select "manage topics."