воскресенье, 16 июня 2024 г.

ИИ - о проблеме с обучением.

В связи с успехами искусственного интеллекта тем не менее пока никто не замечает проблему.
А именно, чтобы искусственный интеллект показывал впечатляющие результаты, его нужно обучить. А именно, для этого иметь подготовленный человек набор данных. И это отнюдь не новые данные. Это данные, которые созданы человеком. И находятся в области уже созданного и воспроизведенного каким либо человеком, затем верифицированного другим человеком.

Неплохой пример проблем ИИ приведен в статье "Почему ИИ не умеет в 1С" (https://habr.com/en/articles/814437/). И дело тут не в 1С, а в отсутствии подготовленного человеком набора данных для обучения ИИ.

С одной стороны, "успехи искусственного интеллекта в генерации программного кода впечатляющи. Первые сообщения о том, что большие языковые модели в состоянии делать работающий код появились еще до бума ChatGPT, случившегося в конце 2022 года. С тех пор ситуация только улучшалась. Вновь появляющиеся большие языковые модели кодировали лучше, своих предшественниц. Сейчас получение работающего кода на таких языках программирования, как Python, C, Java, JavaScript стало обыденностью".

Но пока нет возможности выдать работающий код на языке 1С.  Почему?

Все дело в деталях обучения ИИ. Недья просто "скормить" GPT документацию по 1С и код типовых конфигураций, ИТС. "Нейросеть это не человек (и даже не существо). В общем случае, ей нельзя дать почитать книжку, чтобы она стала умной. Для обучения программированию, вам нужно давать нейросети пары вопрос‑правильный ответ. И таких пар должно быть много, очень много. Для получения приемлемого результата потребуются сотни тысяч таких пар".

В случае с Python, SQL и другими популярными языками программирования необходимое для обучения количество пар вопрос‑правильный ответ уже имелось в готовом виде и в свободном доступе на ресурсе Stackoverflow. А вот для 1С пока нет такого контента в нужных количествах. И кто-то должен целенаправленно заняться созданием датасета

Пример 1С показателен в том смысле, что он наглядно показывает значение надлежащего датасета для обучения нейронной сети.

Сейчас планируется внедрить ИИ везде где можно обосновать добавленную стоимость бизнеса, построенного либо на основе ИИ, либо на на использовании ИИ. Но "везде" ограничено и очень существенно наличием датасета. Вот так то. А создание датасета - это уже большие данные и большие деньги. 

Комментариев нет:

Отправить комментарий