Source
Задуха | Зробив першу адаптацію токенізатора для подальшого перетворення звичай...
425 Views/Reach
2026-03-04 23:14
Message №9900
Зробив першу адаптацію токенізатора для подальшого перетворення звичайної LLM на Bio-Foundation model.https://huggingface.co/transhumanist-already-exists/NVIDIA-Nemotron-3-Nano-Bio-tokenizer Google брали текстову мовну модель в Cell2Sentence-Scale, з її дефолтним токенізатором. Це простіше, але коли ми її тюнили то виявили - неймовірну не ефктивність, бо кожен ген токенізувався в 3 токена, що не дозволяло аналізувати відразу групи клітин через обмеження контекстного вікна (та і тренувати дорого), + збільшувало помилки при генерації.Оскільки комунікація з van Dijk Lab в нас не задалась я вирішив йти шляхом іншої моделі, а саме обрав Nemotron, та вже мав дзвінок з відповідальним за dev community Nvidia і маю бажання вибудувати взаємодію з їх командами розробників. Порадившись з Dmytro Krasnienkov я додав на першому етапі 5 модальностей: text (звичайно), Single-cell Transcriptomics, BEL Pathways, Protein FASTA та DNA Methylation. При цьому залишив латинські (майже всі) та грецькі (для математики) токени що були в оригінальному словнику.Далі було б правильно зробити дістілейшин з C2S-Scale-Gemma-27B а потім дотренувати. Але то вже треба компьют, поки хочу зафіксувати цей токенізатор, та знову поспілкуватися з представником Nvidia та можливо щось вже опублікувати. Рухаємось і в біо напрямку, не втрачаємо фокус)