2 780

DeepSeek-R1: Китайски AI модел с висока ефективност и достъпност ВИДЕО

  • deepseek-r1
  • ai модел

Той предизвика вълнение в научните среди като достъпна и отворена алтернатива на други усъвършенствани модели

Милен Ганев Милен Ганев Главен редактор във Fakti.bg

На 20 януари 2025 г. китайската компания DeepSeek пусна на пазара новия си голям езиков модел DeepSeek-R1, който предизвика вълнение в научните среди като достъпна и отворена алтернатива на други усъвършенствани модели като OpenAI o1. Тези нови "логически" модели генерират отговори стъпка по стъпка, наподобявайки човешкото мислене, което ги прави по-способни в решаването на научни задачи, пише Nature.com.

Постиженията на DeepSeek-R1

Първоначалните тестове показват, че моделът има резултати, сравними с тези на o1, особено в области като химия, математика и програмиране. Например, DeepSeek-R1 постигна впечатляващ резултат от 97.3% върху набора от математически задачи MATH-500, създаден от Калифорнийския университет в Бъркли, и надмина 96.3% от човешките участници в програмния конкурс Codeforces.

"Това е невероятно и напълно неочаквано," коментира Елвис Саравия, изследовател в областта на изкуствения интелект и съосновател на DAIR.AI, базирана във Великобритания.

Една от ключовите характеристики на DeepSeek-R1 е неговата "отвореност". Моделът е публикуван с лиценз MIT, който позволява свободно използване и доразвиване на алгоритъма, въпреки че тренировъчните данни не са предоставени. Това го отличава от конкурентите му като o1 и o3 на OpenAI, които са "черни кутии", твърди д-р Марио Крен, ръководител на лабораторията Artificial Scientist към Института Макс Планк в Германия.

DeepSeek-R1 също така е значително по-достъпен финансово. Компанията предлага интерфейс за използване на модела, който е около 30 пъти по-евтин от o1. Освен това, DeepSeek е създала "дистилирани" версии на R1, които изискват по-малка изчислителна мощност, позволявайки на учени с ограничени ресурси да работят с модела.

Според изчисления на Марио Крен, експеримент, който би струвал над £300 с o1, струва под $10 с R1. "Това е драматична разлика, която със сигурност ще повлияе на бъдещото му приемане," допълва той.

Интелигентен подход към ограничени ресурси

DeepSeek-R1 е създаден в условия на ограничен достъп до най-добрите чипове за AI обработка, наложени от ограниченията за износ на САЩ. Въпреки това, DeepSeek успява да компенсира с иновативен алгоритмичен подход.

Един от основните методи, използвани при обучението на модела, е така нареченият "chain of thought" (верига на мислене), който му помага да решава по-сложни задачи, като понякога се връща назад и преоценява своя подход. За това фирмата използва метод за подсилващо обучение (reinforcement learning), при който моделът се възнаграждава за правилни отговори и ясно обяснени стъпки на мислене.

Допълнително, екипът е използвал "миксове от експерти" (mixture-of-experts) - архитектура, която активира само релевантните части на модела за всяка задача, което съществено намалява разходите за обучение.

DeepSeek-R1 представлява не само технологично, но и стратегическо предизвикателство за останалите играчи в индустрията, включително и за Nvidia - основният доставчик на чипове за американските конкуренти като OpenAI и Meta. Успехът на DeepSeek показва, че високоефективни AI модели могат да бъдат създавани дори с ограничени хардуерни ресурси и без най-съвременните чипове, което поставя под въпрос необходимостта от скъпоструваща инфраструктура. Това намалява зависимостта на китайските компании от Nvidia и подкопава тяхната доминираща позиция в глобалния пазар на AI хардуер. Докато Nvidia продължава да снабдява американските гиганти с мощни графични процесори, успехът на DeepSeek демонстрира, че интелигентните алгоритми и ефективността на ресурсите могат да изместят фокуса от чистата изчислителна мощ към иновациите в софтуера.

Историята на DeepSeek

DeepSeek е дъщерно дружество на компанията High-Flyer, която е известна като изключително успешна фирма за количествени изчисления (quant firm). Според Han Xiao, изследовател в областта на изкуствения интелект, фирмата е създадена от изключително умни професионалисти с дълбоки познания в математиката и от години използва мощни GPU за търговия и добив на криптовалути. "DeepSeek е техен страничен проект, с който се опитват да оптимизират използването на тези GPU," споделя Han Xiao в X.

Научно и практическо приложение

Въпреки че R1 леко изостава спрямо o1 в оценяването на изследователски идеи, той демонстрира по-добри резултати при изчисления в квантовата оптика, споделя Крен. "Това е доста впечатляващо," добавя той.

Освен това, откритостта на модела позволява на учените да изучават неговата "логика", което подобрява разбирането и интерпретацията на процесите.

DeepSeek-R1 е част от бързо развиващата се вълна на китайски езикови модели, които съкращават разликата с водещите разработки в САЩ. Успехът на модела подчертава значението на ефективното използване на ресурсите, като същевременно откроява необходимостта от международно сътрудничество в областта на изкуствения интелект.

Недостатъци

Въпреки иновативните си характеристики и впечатляващите си резултати, DeepSeek-R1 има и някои вградени ограничения, които подчертават влиянието на контекста, в който е създаден. Моделът избягва да отговаря на въпроси, които Китай счита за чувствителни, включително теми като Тайван, ситуацията с уйгурите, събитията на площад Тянанмън или всякаква критика към президента Си Дзинпин и други бивши лидери на Китайската комунистическа партия. В такива случаи R1 или заявява, че темата е извън неговия обхват, или изтрива отговора, след като го е започнал. Това създава съмнения относно способността на модела да бъде наистина отворен и универсален инструмент, като същевременно подчертава влиянието на националните политики върху развитието на изкуствения интелект. Подобни ограничения могат да доведат до недоверие извън Китай, особено в академични и изследователски среди, които изискват прозрачност, неутралност и свобода на изразяване при работата с чувствителни исторически и политически теми.

Източник: money.bg

Китай
Поставете оценка:
Оценка 5 от 5 гласа.

Свързани новини