Цитаты персоны

Роман Душкин

главный архитектор систем искусственного интеллекта исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ

Высказанные мнения:

сортировать по рейтингу / по датерейтинг / дата

Мнение к материалу от 14 мая 2024 года:

«OpenAI представила GPT-4o, распознающую голос и видео»

«OpenAI обучили новую модель GPT воспринимать как минимум данные четырех новых модальностей, трех или четырех, в зависимости от того, как считать. Значит, если ChatGPT или GPT-3.5 принимает данные одной модальности, то есть текст, который мы пишем, GPT-4 воспринимает данные двух модальностей — это текст и картинки, которые мы можем кидать в чат, то GPT-4o уже добавляет две новые модальности данных — это аудио и видео. То есть мы можем с ней голосом общаться, при этом она воспринимает интонацию, невербальные признаки разговора, которые мы воспринимаем интуитивно. Также она теперь может воспринимать видео, то есть можно прямо поток видеокамеры ей пускать, и она в режиме реального времени или очень близком обрабатывает этот поток и может или комментировать, или как-то реагировать. То есть это гиперавтоматизация каких-то рутинных процессов, связанных с когнитивной обработкой информации. Например, первое, что приходит в голову, — это видео, например комментирование каких-то спортивных матчей, то есть она же может на лету описывать то, что происходит. Это же можно применить, например, для системы охранного видеонаблюдения, для того чтобы смотреть, что происходит в створе видеокамеры, не происходит ли каких-то инцидентов».

Читать полностью...

Мнение к материалу от 14 мая 2024 года:

«OpenAI презентовала нейросеть GPT-4o, которая быстро анализирует информацию»

«OpenAI обучили новую модель GPT воспринимать как минимум данные четырех новых модальностей, трех или четырех, в зависимости от того, как считать. Значит, если GPT-4 классическая или GPT-3.5 принимает данные одной модальности, то есть текст, который мы пишем, GPT-4 классическая воспринимает данные двух модальностей — это текст и картинки, которые мы можем кидать в чат, то GPT-4o уже добавляет две новые модальности данных — это звуки, аудио, то есть мы можем с ней голосом общаться, при этом она воспринимает интонацию, невербальные признаки разговора, которые мы воспринимаем интуитивно. Также она теперь может воспринимать видео, то есть можно прямо поток видеокамеры ей пускать, и она в режиме реального времени или очень близком обрабатывает этот поток и может или комментировать, или как-то реагировать. Использовать это можно там же, где и GPT-4, как минимум, то есть это гиперавтоматизация каких-то рутинных процессов, связанных с когнитивной обработкой информации. Вот эта система получает данные и обрабатывает данные в двух новых модальностях, то есть видео и звук, она может использоваться в том числе и для решения новых задач. Например, первое, что приходит в голову, это видео, например, комментирование каких-то спортивных матчей, то есть она же может на лету описывать то, что происходит. Это же можно применить, например, для системы охранного видеонаблюдения, для того чтобы смотреть, что происходит в створе видеокамеры, не происходит ли каких-то инцидентов».

Читать полностью...

Мнение к материалу от 11 мая 2024 года:

«В айфонах может появиться встроенный ChatGPT»

«Apple опаздывает, и, в общем то, это резонно признать, у них нет собственной разработки, а у Google такая разработка есть, даже у «Яндекса» и у «Сбера» есть такие разработки, и это собственные, аутентичные разработки, а у Apple, которая одна из инновационных компаний в мире, можно сказать, такой разработки нет. Эту интеграцию точно не стоит считать инновацией, потому что на смартфонах Android из коробки прямо интеграция с Gemini. Любая система, которая подключается к Bing, имеет Bing AI, если к «Яндексу» это Яндекс GPT и так далее. Но у iPhone закрытая экосистема, они сами отгородились от окружающего мира, и тут им можно только посочувствовать. То, что сейчас происходит, на моой взгляд, это попытка наверстать, но все это будет представляться как существенные революционные шаги, которые компании делают навстречу друг другу и так далее, маркетинговое нагромождение слов будет повсеместным, но тут надо ухо востро держать».

Читать полностью...

Мнение к материалу от 4 апреля 2024 года:

«Поиск в Google может стать платным. По крайней мере, частично»

«Я думаю, что какая-то часть рынка точно будет в этом заинтересована, особенно люди, которые хотят получить точную информацию — выверенную, верифицированную, не листать поисковую выдачу, не заниматься самостоятельным поиском. И мы уже начинаем к этому привыкать. Если не говорить про Google, а говорить, например, про «Яндекс»... В поисковой выдачи «Яндекса» уже интегрирована YandexGPT — та же самая модель, которая в «Алисе». Результаты ее деятельности мы можем наблюдать практически при любом поисковом запросе, особенно если он очень конкретный. Например, что такое какой-то объект, дать определение или найти какую-то конкретную информацию. Тогда первой плашкой в поисковой выдаче будет как раз результат работы YandexGPT. Там так и пишется: этот результат получен при помощи модели искусственного интеллекта, пожалуйста, будьте осторожны».

Читать полностью...

Мнение к материалу от 18 марта 2024 года:

«Маск обнародовал исходный код для новой версии ИИ под названием Grok»

«Систему, которая была разработана в его компании, они решили сделать открытой. Что это значит? Насколько я понимаю, открытыми являются [синаптические] веса в нейросети, которые они обучили, и любой желающий в принципе может использовать эти веса для того, чтобы воспроизвести эту большую звуковую модель в своих решениях. Но, с другой стороны, Илон Маск не первый, кто это сделал, там есть большое количество уже открытых решений в области больших языковых моделей, которые любой желающий может скачать и использовать у себя. в любом случае этот шаг придаст еще большее ускорение отрасли в своем развитии, и это здорово. Здесь всегда нужно исходить из того, какую задачу конкретному разработчику, конкретному архитектору надо решить. И если у нас есть задача, например, организации текстового интерфейса к какой-нибудь информационной системе, то с этим может справиться ChatGPT, то есть даже не GPT-4, а просто ChatGPT. Или в нашем случае «Яндекс GPT» или GigaChat. То есть не нужно простые задачи решать сложными инструментами. Использование таких сложных инструментов как GPT-4 или вот этот Grok, — это серьезный экономический фактор, потому что функционирование таких серьезных, больших моделей связано с потреблением большого количества электроэнергии. Они потребляют большой объем вычислительных мощностей».

Читать полностью...

загрузить еще...