Apple показала новий спосіб “мислення” ШІ.Останні новини Новини України та Світу на сайті - iTechua. Свіжа стрічка новин сьогодні.
У новій науковій роботі дослідники Apple представили підхід, який покращує якість відповідей великих мовних моделей у задачах на кшталт математичних міркувань і генерації коду. Йдеться не про створення нової моделі, а про фреймворк, який змінює сам процес “мислення” LLM.
У дослідженні під назвою LaDiR: Latent Diffusion Improves LLMs for Text Reasoning описано поєднання двох підходів – дифузійного та авторегресивного. Дифузійні моделі працюють паралельно з багатьма токенами, поступово уточнюючи результат, тоді як авторегресивні генерують текст послідовно, токен за токеном. У LaDiR ці методи не конкурують, а доповнюють один одного: дифузія використовується на етапі міркування, а фінальна відповідь формується класичним способом.
Ключова ідея полягає в тому, що модель одночасно запускає кілька варіантів міркування. Кожен із них починається як випадковий “шум” і поступово перетворюється на логічно узгоджений крок. Такий підхід дозволяє досліджувати різні варіанти розв’язання задачі, не зводячи все до одного сценарію занадто рано. Завдяки цьому підвищується різноманітність і якість відповідей.
Після того як модель “визначається” з напрямком, вона переходить до фінального етапу – авторегресивної генерації, де відповідь будується послідовно. Важливо, що LaDiR працює поверх уже існуючих моделей, змінюючи логіку їхнього мислення, а не замінюючи їх повністю.
У практичних тестах цей підхід показав помітні покращення. Зокрема, при використанні LLaMA 3.1 8B для математичних задач і планування, а також Qwen3-8B-Base для генерації коду, система демонструвала вищу точність і стабільніші результати. У тестах на кшталт HumanEval LaDiR краще справлявся зі складними задачами, а в логічних головоломках знаходив більше коректних варіантів рішень, ніж базові моделі загального призначення, хоча й поступався вузькоспеціалізованим рішенням у точності з першої спроби.
Попри технічну складність, ця робота добре ілюструє новий напрям розвитку LLM: замість простого нарощування розмірів моделей дослідники шукають способи зробити їхнє “мислення” гнучкішим і ефективнішим.