Suggest an alternative to Multimodal-Toolkit

Multimodal model for text and tabular data with HuggingFace transformers as building block for text data