Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - Задуха
Added 06 Dec 2025

Задуха

@zaduha
Number of subscribers: 1 294
Photos: 4,000
Videos: 599
Links: 4,410
Description:
Вітаю, я Богдан, Deep learning інженер. Роблю всякі кастомні штуки з трансформерами. Прибічник ідеї трансгуманізму, мрію зробити внесок в збільшення тривалості життя людини. В каналі: авторський контент, етика, естетика, спілкування і срачі в коментарях.
Source

Задуха | Зробив першу адаптацію токенізатора для подальшого перетворення звичай...

Telegram community logo - Задуха Задуха @zaduha
425 Views/Reach 2026-03-04 23:14 Message №9900
Зробив першу адаптацію токенізатора для подальшого перетворення звичайної LLM на Bio-Foundation model.https://huggingface.co/transhumanist-already-exists/NVIDIA-Nemotron-3-Nano-Bio-tokenizer Google брали текстову мовну модель в Cell2Sentence-Scale, з її дефолтним токенізатором. Це простіше, але коли ми її тюнили то виявили - неймовірну не ефктивність, бо кожен ген токенізувався в 3 токена, що не дозволяло аналізувати відразу групи клітин через обмеження контекстного вікна (та і тренувати дорого), + збільшувало помилки при генерації.Оскільки комунікація з van Dijk Lab в нас не задалась я вирішив йти шляхом іншої моделі, а саме обрав Nemotron, та вже мав дзвінок з відповідальним за dev community Nvidia і маю бажання вибудувати взаємодію з їх командами розробників. Порадившись з Dmytro Krasnienkov я додав на першому етапі 5 модальностей: text (звичайно), Single-cell Transcriptomics, BEL Pathways, Protein FASTA та DNA Methylation. При цьому залишив латинські (майже всі) та грецькі (для математики) токени що були в оригінальному словнику.Далі було б правильно зробити дістілейшин з C2S-Scale-Gemma-27B а потім дотренувати. Але то вже треба компьют, поки хочу зафіксувати цей токенізатор, та знову поспілкуватися з представником Nvidia та можливо щось вже опублікувати. Рухаємось і в біо напрямку, не втрачаємо фокус)