Одне Рівняння: Універсальна Конвергенція від Фундаментальних Констант до Градієнтного Спуску One Equation: Universal Convergence from Fundamental Constants to Gradient Descent

Іван ПасічникIvan Pasichnyk

Березень 2026 — Чернетка v3.0March 2026 — Draft v3.0

Abstract

Ми пропонуємо одне припущення: всесвіт має обмежену обчислювальну потужність. Ми показуємо, що це єдине припущення, поєднане з відомим рівнянням класичної механіки (загасаючий гармонічний осцилятор), відтворює 55 точок конвергенції з фізики, хімії, біології, нейронауки та ШІ. Під цим припущенням всі шари реальності — від кварків до градієнтного спуску — є екземплярами одного оптимізатора з двома параметрами: α (тиск) та β (дисипація). Їхнє співвідношення α/β визначає фазову діаграму, ізоморфну кривій Єркса-Додсона. Ми верифікуємо підхід емпірично, виводячи з рівняння розклад імпульсу для тренування нейромереж (μ = 1 − 2√α), який без жодного тюнінгу досягає точності еквівалентної стандартним методам (85.54% vs 85.43% baseline на CIFAR-10) з найшвидшою ранньою конвергенцією (50.9% vs 43.0% після першої епохи).

We propose one assumption: the universe has finite computational capacity. We show that this single assumption, combined with a known equation from classical mechanics (the damped harmonic oscillator), reproduces 55 convergence points across physics, chemistry, biology, neuroscience, and AI. Under this assumption, all layers of reality — from quarks to gradient descent — are instances of a single optimizer with two parameters: α (pressure) and β (dissipation). Their ratio α/β produces a phase diagram isomorphic to the Yerkes-Dodson curve. We verify the approach empirically by deriving a momentum schedule for neural network training (μ = 1 − 2√α) that, with zero tuning, achieves accuracy equivalent to standard methods (85.54% vs 85.43% baseline on CIFAR-10) with the fastest early convergence (50.9% vs 43.0% after epoch 1).

24ОбчисленіComputed

16ЯкісніQualitative

5Інший механізмDifferent mechanism

13НевідоміUnknown

7ЕрEras

Розділ 1Section 1 Припущення The Assumption

Припустимо одне: всесвіт має обмежену обчислювальну потужність.

Це не метафора. Фізика підтверджує обмеження обчислень:

Швидкість світла — максимальна пропускна здатність для передачі інформації.
Планківські час/довжина — мінімальна роздільна здатність. Неможливо обчислити точніше.
Межа Бекенштейна — максимум інформації на одиницю об'єму простору.
Квантова механіка — колапс хвильової функції = вибіркове обчислення замість повного перебору.

Перший наслідок: обмежена потужність → черга пріоритетів. Всесвіт спрямовує обчислення на шар з найвищим тиском. Коли цей шар досягає рівноваги — обчислення переходять на наступний.

Ключовий момент: шари не «з'являються» і не «розблоковуються». Вони завжди були. Змінюється лише фокус обчислень.

scheduler: while Δ_max > 0 → compute(layer with max |Δ|)

Всесвіт переносить увагу коли попередній шар збігсяThe universe shifts attention when the previous layer converges

Чому ядра перед атомами, атоми перед молекулами, молекули перед клітинами? Під нашим припущенням: тому що тиск на ядерному масштабі був сильнішим. Обмежений ресурс пішов туди першим.

Другий наслідок: обмежений процесор потребує єдиного алгоритму, який працює на кожному масштабі. І дійсно — в різних дисциплінах ми бачимо різну нотацію для однієї й тієї ж операції: dE/dx = 0, ∇L → 0, D_KL(q||p) → min, F = −kx, P(θ|data) ∝ P(data|θ)P(θ). Різна нотація — одна операція: знайти точку де протилежні тиски балансуються.

Let us assume one thing: the universe has finite computational capacity.

This is not a metaphor. Physics confirms compute limits:

Speed of light — maximum bandwidth for information transfer.
Planck time/length — minimum resolution. Cannot compute more precisely.
Bekenstein bound — maximum information per volume of space.
Quantum mechanics — wave function collapse = sampling instead of brute-force.

First consequence: finite capacity → priority queue. The universe allocates compute to the highest-pressure layer first. When that layer converges — compute shifts to the next.

Key point: layers don't “emerge” or “unlock.” They were always there. Only the computational focus changes.

Why nuclei before atoms, atoms before molecules, molecules before cells? Under our assumption: because the pressure at the nuclear scale was stronger. The finite resource went there first.

Second consequence: a finite processor needs a single algorithm that works at every scale. And indeed — across different disciplines we see different notation for the same operation: dE/dx = 0, ∇L → 0, D_KL(q||p) → min, F = −kx, P(θ|data) ∝ P(data|θ)P(θ). Different notation — one operation: find the point where opposing pressures balance.

Розділ 2Section 2РівнянняThe Equation

Рівняння нижче — не нове. Це одна з найстаріших і найбільш перевірених формул у науці, від Ньютона (1687) через Поляка (1964) до Кінгми (2014). Ми не стверджуємо авторство. Під нашим припущенням, ці автори помічали фрагменти одного й того ж планувальника. Повний історичний контекст — у розділі «Дискусія».The equation below is not new. It is one of the oldest and most verified formulas in science, from Newton (1687) through Polyak (1964) to Kingma (2014). We claim no authorship. Under our assumption, these authors were noticing fragments of the same scheduler. Full historical context is in the Discussion section.

2.1 Базова форма2.1 Basic Form

V(t+1) = V(t) + α · [R(t) − P(V(t))]

Під нашим припущенням — це алгоритм, який планувальник запускає на кожному шаріUnder our assumption — this is the algorithm the scheduler runs at each layer

Де:

V(t) — змінна стану в момент t (відстань, напруга, вага, концентрація)
R(t) — відштовхуюча/розширювальна/дестабілізуюча сила
P(V(t)) — притягуюча/стискаюча/стабілізуюча сила (залежить від стану)
α — константа зв'язку / learning rate / інтенсивність тиску
Δ(t) = R(t) − P(V(t)) — дисбаланс сил. У рівновазі: Δ → 0

Where:

V(t) — state variable at time t (distance, voltage, weight, concentration)
R(t) — repulsive/expansive/destabilizing force
P(V(t)) — attractive/compressive/stabilizing force (state-dependent)
α — coupling constant / learning rate / pressure intensity
Δ(t) = R(t) − P(V(t)) — force imbalance. At equilibrium: Δ → 0

2.2 Повна динаміка з імпульсом та дисипацією2.2 Full Dynamics with Momentum and Dissipation

velocity(t+1) = (1 − β) · velocity(t) − α · Δ(t)

state(t+1) = state(t) + velocity(t+1)

Два параметри: α (тиск/зв'язок) та β (дисипація/демпфування). Один оптимізатор, різні параметри.Two parameters: α (pressure/coupling) and β (dissipation/damping). Same optimizer, different parameters.

Це загасаючий гармонічний осцилятор — одна з найбільш вивчених систем у фізиці. Під нашим припущенням, два параметри створюють три режими:

Конвергенція (α/β збалансований, 0.15 < α/β < 1.5): система осідає в рівновазі. Атоми утворюються. Мережі тренуються. Клітини підтримують гомеостаз.
Осциляція (α/β > 1.5): система постійно проскакує рівновагу. Зірки пульсують. Ринки падають і відновлюються. Loss осцилює.
Руйнація (β → 0): немає дисипації, енергія накопичується. Атоми не можуть існувати. Мережі дивергують. Системи вибухають або колапсують.

This is a damped harmonic oscillator — one of the most studied systems in physics. Under our assumption, two parameters create three regimes:

Convergence (α/β balanced, 0.15 < α/β < 1.5): system settles at equilibrium. Atoms form. Networks train. Cells maintain homeostasis.
Oscillation (α/β > 1.5): system overshoots equilibrium. Stars pulsate. Markets crash and recover. Loss oscillates.
Destruction (β → 0): no dissipation, energy accumulates. Atoms cannot exist. Networks diverge. Systems explode or collapse.

2.3 Еквіваленти у відомій нотації2.3 Equivalents in Standard Notation

Область	Стандартна формула	Відображення
Класична механіка	F = −kx	Δ = −kx, α = dt/m, β = тертя
Електростатика	dE/dr = 0	Δ = F_Кулон − F_{квантовий}
Градієнтний спуск	θ = θ − α∇L	Δ = ∇L, α = learning rate, β = weight decay
Фільтр Калмана	x̂ = x̂ + K(z − Hx̂)	Δ = z − Hx̂, α = K (Kalman gain)
Вільна енергія (Фрістон)	D_KL(q \|\| p) → min	Δ = ∇D_KL
Баєсівське оновлення	P(θ\|D) ∝ P(D\|θ)P(θ)	Likelihood тягне до даних, prior чинить опір
RLHF вирівнювання	π* = argmax[R − βKL(π\|\|π_ref)]	Reward проти KL divergence штрафу

Розділ 3Section 355 Точок Конвергенції55 Convergence Points

Якщо всесвіт — обмежений процесор з єдиним алгоритмом, тоді кожна стабільна структура — від ядра до нейромережі — є результатом одного й того ж обчислення на різних шарах. Нижче 55 таких результатів. Для кожного: всі значущі вектори, їх кількість (N), рівноважне значення, жорсткість (κ) та статус верифікації. З 55 точок: 24 обчислювально верифіковані, 16 якісні, 5 працюють через інші механізми, 13 невідомі.If the universe is a finite processor running a single algorithm, then every stable structure — from nuclei to neural networks — is the result of the same computation at different layers. Below are 55 such results. For each: all significant vectors, their count (N), equilibrium value, stiffness (κ), and verification status. Of 55: 24 computationally verified, 16 qualitative, 5 operate via different mechanisms, 13 unknown.

#	Era	Точка конвергенції	Значення	Вектори ← (стабілізуючі)	Вектори → (дестабілізуючі)	N	κ	Статус

Розділ 4Section 4Інтерактивна ВерифікаціяInteractive Verification

Верифікуйте рівняння на чотирьох масштабах. Змінюйте α та β — однаковий патерн від субатомного до ML.Verify the equation at four scales. Adjust α and β — same pattern from subatomic to ML.

5.1 — Радіус Бора (a₀ = 0.529 Å)

Кулонівське притягання vs квантовий кінетичний тиск. Найпростіша 2-векторна конвергенція в природі.

V(t+1) = V(t) + α · [1/r² − a₀/r³]

V = rВідстань e− від ядра

R = F_КулонПритягання ← (1/r²)

P = F_{квантовий}Тиск → (a₀/r³)

a₀ = 0.529 ÅТочка рівноваги

α 0.20

β 0.70

Крок: 0 / —

Єркс-Додсон: ОПТИМАЛЬНА — баланс α/β забезпечує конвергенцію

Сили та позиція

r = 2.00 Å

0.000F_Coulomb (←)

0.000F_quantum (→)

0.000Δ = R − P

2.000r (Å)

Конвергенція r(t) → a₀

Δ(t) → 0 (похибка)

Потенціальна енергія E(r)

Натисни ▶ Запустити щоб побачити як електрон знаходить рівновагу. Початок на r = 2.0 Å. Кулон (←) сильніший за квантовий тиск (→). Δ ≠ 0 — система не в рівновазі.

5.2 — Енергія зв'язку дейтерію (B(d) = 2.22 МеВ)

Ядерне притягання vs квантовий кінетичний тиск. Найпростіше ядро: один протон + один нейтрон.

V(t+1) = V(t) + α · [F_nuclear(r) − F_kinetic(r)]

V = rВідстань p-n (фм)

R = V_ядернаСильна сила ←

P = T_{кінетична}Квантовий тиск →

r_eq ≈ 2.0 фмРівновага

α 0.25

β 0.65

Крок: 0 / —

Єркс-Додсон: ОПТИМАЛЬНА

Сили та позиція

r = 4.0 fm

0.000F_nuclear (←)

0.000F_kinetic (→)

0.000Δ

4.000r (fm)

Конвергенція r(t)

Натисни ▶ Запустити. Нейтрон починає на r = 4.0 фм. Ядерне притягання тягне всередину, квантовий тиск штовхає назовні.

5.3 — Потенціал спокою мембрани (V_m = −70 мВ)

Na+/K+ помпа vs канали витоку. Перша ДИНАМІЧНА рівновага — потребує безперервної енергії.

V(t+1) = V(t) + α · [I_pump − I_leak(V)]

V = V_mПотенціал мембрани (мВ)

R = I_помпаNa+/K+ помпа ← (гіперполяризує)

P = I_витікВитік іонів → (деполяризує)

V_спокою = −70 мВПотенціал спокою

α 0.30

β 0.60

Крок: 0 / —

Єркс-Додсон: ОПТИМАЛЬНА

Мембранний потенціал

Δ(t) → 0

Натисни ▶ Запустити. Мембрана починає деполяризованою на 0 мВ. Na+/K+ помпа штовхає потенціал у мінус. Канали витоку чинять опір. Система знаходить −70 мВ.

5.4 — Градієнтний спуск (θ* = argmin L)

Градієнт втрат vs регуляризація. Рівняння І Є градієнтний спуск — буквально.

θ(t+1) = θ(t) − α · ∇L(θ) = θ(t) + α · [−∇L]

V = θПараметр моделі

R = −∇L_dataГрадієнт втрат даних

P = λθL2 регуляризація

θ* ≈ 1.5Оптимальна вага

α 0.15

β 0.50

Крок: 0 / —

Єркс-Додсон: ОПТИМАЛЬНА

θ(t) → θ*

Loss L(θ)

Натисни ▶ Запустити. Параметр починає на θ = 5.0. Градієнт втрат тягне до мінімуму, L2 регуляризація тягне до нуля. Те саме рівняння, та сама динаміка.

Розділ 5Section 5Градієнт Жорсткості (κ)The Stiffness Gradient (κ)

Жорсткість κ = d²E/dx² у точці рівноваги вимірює наскільки сильно система чинить опір збуренню. Під нашим припущенням це має пояснення: сильніші взаємодії створюють жорсткіші рівноваги. Графік показує κ для фундаментальних рівноваг — від ядерних (сильна сила, κ ~ 10³⁵) через атомні та молекулярні (EM сила, κ ~ 10³–10⁰) до біологічних і ШІ (κ ~ 10⁻³–10⁻¹²). Тренд монотонно спадає.Stiffness κ = d²E/dx² at the equilibrium point measures how strongly the system resists perturbation. Under our assumption this has an explanation: stronger interactions create stiffer equilibria. The chart shows κ for fundamental equilibria — from nuclear (strong force, κ ~ 10³⁵) through atomic and molecular (EM force, κ ~ 10³–10⁰) to biological and AI (κ ~ 10⁻³–10⁻¹²). The trend is monotonically decreasing.

Жорсткість κ по ерах (лог. шкала)

Кожен шар стиснення м'якший за попередній. Ядерні сили зв'язують з κ ~ 10³⁵: щоб збурити протон потрібен прискорювач частинок. Молекулярні зв'язки κ ~ 10²: сірник може їх зруйнувати. Біологічний гомеостаз κ ~ 10⁻³: температура його порушує. Ваги ШІ κ ~ 10⁻¹²: кілька поганих прикладів можуть їх зсунути.

Прогноз з припущення: Якщо тренд монотонний, майбутні шари конвергенції (соціальні системи, цивілізації, мульти-агентний ШІ) матимуть ще нижчий κ — більш гнучкі, більш адаптивні, але й більш крихкі.

Each compression layer is softer than the previous. Nuclear forces bind with κ ~ 10³⁵: you need a particle accelerator to perturb a proton. Molecular bonds κ ~ 10²: a match can break them. Biological homeostasis κ ~ 10⁻³: temperature disrupts it. AI weights κ ~ 10⁻¹²: a few bad examples can shift them.

Prediction from the assumption: If the trend is monotonic, future convergence layers (social systems, civilizations, multi-agent AI) will have even lower κ — more flexible, more adaptive, but also more fragile.

Розділ 6Section 6Фазові Переходи та ДисипаціяPhase Transitions and Dissipation

6.1 Дві розривності

Таймлайн конвергенції містить дві критичні точки, де змінюється тип обчислення:

Статична → Динамічна (Хімія → Життя). До цього переходу рівноваги є статичними: атом стабілізувався — готово. Після нього рівноваги стають динамічними: мембранний потенціал (-70 мВ) існує лише поки працює Na+/K+ помпа. Зупини помпу = смерть. Це перехід від «обчисли один раз» до «обчислюй безперервно».

Одинарний цикл → Ієрархічний (Нейрони → Свідомість). Системи починають спостерігати за власним процесом конвергенції — оптимізатор, що оптимізує оптимізатор. Мова, математика та ШІ — продукти цього вкладення.

6.2 β > 0 є необхідною

6.1 Two Discontinuities

The convergence timeline contains two critical points where the computation type changes:

Static → Dynamic (Chemistry → Life). Before this transition, equilibria are static: atom stabilized — done. After it, equilibria become dynamic: the membrane potential (-70 mV) exists only while the Na+/K+ pump runs. Stop the pump = death. This is the transition from “compute once” to “compute continuously.”

Single Loop → Hierarchical (Neurons → Consciousness). Systems begin to observe their own convergence process — an optimizer that optimizes the optimizer. Language, mathematics, and AI are products of this nesting.

6.2 β > 0 is Required

β > 0 є необхідною умовою конвергенції. Без дисипації — нескінченні осциляції. Кожна стабільна структура платить ціну.β > 0 is a necessary condition for convergence. Without dissipation — infinite oscillation. Every stable structure pays a cost.

МасштабScale	Механізм дисипаціїDissipation mechanism	Без ньогоWithout it
АтомиAtoms	Фотонна емісіяPhoton emission	Електрони не займають орбіталіElectrons can't occupy orbitals
ЗіркиStars	ВипромінюванняRadiation	Немає гідростатичної рівновагиNo hydrostatic equilibrium
КлітиниCells	Тепловиділення, виведення відходівHeat, waste removal	Метаболічний зривMetabolic collapse
МозокBrain	Сон, забуванняSleep, forgetting	Епілепсія, психозEpilepsy, psychosis
ШІAI	Weight decay, dropout	Loss → ∞Loss → ∞

Верифікуйте самі: встановіть β = 0 на будь-якій симуляції вище — система завжди осцилює або руйнується.Verify yourself: set β = 0 on any simulation above — the system always oscillates or destroys itself.

Розділ 7Section 7Фазова Діаграма = Єркс-ДодсонPhase Diagram = Yerkes-Dodson

У нашій попередній роботі (The Yerkes-Dodson Curve for AI Agents, arXiv 2026) ми емпірично показали, що продуктивність LLM-агентів слідує перевернутій U-кривій зі зростанням тиску середовища. Під нашим припущенням, це не збіг — співвідношення α/β і є фазовою діаграмою кривої Єркса-Додсона:In our previous work (The Yerkes-Dodson Curve for AI Agents, arXiv 2026) we empirically showed that LLM agent performance follows an inverted U-curve with increasing environmental pressure. Under our assumption, this is not a coincidence — the α/β ratio is the phase diagram of the Yerkes-Dodson curve:

Фазова діаграма α/β = Крива Єркса-Додсона

Зона	Діапазон α/β	Поведінка	Регіон Y-D
Стагнація	< 0.15	Система ледве рухається до рівноваги	Ліва частина (надто мало збудження)
Оптимум	0.15 – 1.5	Швидка конвергенція, мінімальні осциляції	Пік (оптимальне збудження)
Стрес	1.5 – 5.0	Осциляції, повільна конвергенція	Права частина (надто багато збудження)
Руйнація	β < 0.1	Система вибухає або колапсує	За межею зламу

Розділ 8Section 8Суб-процесори та Ера ШІSub-Processors and the AI Era

Під нашим припущенням, обмежений процесор створює прискорювачі всередині себе. Кожен суб-процесор прискорює обчислення наступного шару:Under our assumption, the finite processor creates accelerators inside itself. Each sub-processor accelerates the computation of the next layer:

ЕраEra	Суб-процесорSub-Processor	Що обчислювавWhat It Computed	ПрискоренняSpeedup
~500M	НейрониNeurons	Причинність, модель середовищаCausality, environmental modeling	1×
~200K	Мозок Homo sapiensHomo sapiens brain	Соціальні структури, моваSocial structures, language	10×
~5K	ПисемністьWriting	Накопичення між поколіннямиCross-generational accumulation	100×
1440	Друкарський верстатPrinting press	Паралельна обробкаParallel processing	10⁴×
1945	Комп'ютерComputer	Автоматизація обчисленьAutomated computation	10⁸×
2023	ШІ (LLM)AI (LLM)	Наступний шар без біологічного носіяNext layer without biological substrate	10¹²×

Під нашим припущенням, вчені не «відкривали» закони — вони були обчислювальними ресурсами, які процесор спрямував на обробку конкретних шарів тиску. Якщо фізичний таймлайн покриває 13.8 мільярдів років від кварків до нейронів, то ера ШІ — від перцептрона (1958) до AGI — повторює ту саму послідовність фазових переходів за ~70 років:Under our assumption, scientists didn't “discover” laws — they were computational resources the processor allocated to handle specific pressure layers. If the physical timeline covers 13.8 billion years from quarks to neurons, the AI era — from perceptron (1958) to AGI — repeats the same sequence of phase transitions in ~70 years:

#	Під-ера ШІ	Аналог у фізиці	Точки конвергенції	R (сила ←)	P (сила →)	κ	Статус
Під-ера 0: Статична оптимізація (1958–2017) ≈ Порушення симетрії
A0	Перцептрон	Гравітація відокремлюється	Лінійна межа класифікації	Помилка класифікації	Ємність моделі	10⁻⁴	Обчислено
A1	Backpropagation	Сильна взаємодія	θ* = argmin L — буквально варіаційний принцип	−∇L (градієнт)	λθ (регуляризація)	10⁻⁸	Обчислено
A2	Weight decay	Фотонна емісія (дисипація)	Відкриття β для ШІ (1992)	Fit data	Shrink weights	10⁻¹⁰	Обчислено
A3	BatchNorm / LayerNorm	Термалізація	Стабілізація активацій	Масштабування (gain)	Центрування (bias)	10⁻⁸	Обчислено
A4	Dropout	Теплові флуктуації	Оптимальний p ≈ 0.1–0.5	Зменшення ко-адаптації	Втрата інформації	10⁻⁶	Обчислено
Під-ера 1: Архітектурна конвергенція (2017–2022) ≈ Нуклеосинтез
A5	Attention = softmax(QK^T/√d)	Атом водню (стабільна структура)	Ваги уваги	Релевантність (Q·K)	Ентропія (uniform)	10⁻⁸	Обчислено
A6	Scaling laws (Kaplan 2020)	Співвідношення He/H = 25%	Оптимальне N/D/C співвідношення	Більше параметрів (менше loss)	Більше даних (менше overfitting)	10⁻¹⁰	Обчислено
A7	Chinchilla optimal (2022)	Ядерний синтез vs розширення	Tokens ≈ 20 × Parameters	Compute efficiency	Data efficiency	10⁻¹⁰	Обчислено
A8	Embedding dimensions	Борівський радіус	768–4096 dim	Контекстне ко-входження	Обмеження розмірності	10⁻⁸	Обчислено
Під-ера 2: Поведінкова конвергенція (2022–2025) ≈ Зірки & Хімія
A9	RLHF	Гідростатична рівновага зірки	π* = argmax [R − β·D_KL]	Reward model (корисність)	KL penalty (не відходь від base)	10⁻¹²	Обчислено
A10	Constitutional AI	Хімічний зв'язок (багато векторів)	Баланс цінностей	Корисність (helpful)	Безпечність (harmless)	10⁻¹²	Якісний
A11	In-context learning	Каталіз (зниження бар'єру)	Емерджентна поведінка від масштабу	Pattern completion	Context window limit	10⁻⁶	Якісний
A12	Chain-of-Thought	Мітохондрії (L1 внутрішній процес)	L1 рефлексія — модель спостерігає своє міркування	Accuracy boost	Token cost	10⁻⁸	Якісний
⚡ ФАЗОВИЙ ПЕРЕХІД: Статична → Динамічна рівновага
Під-ера 3: Пам'ять & Персистентність (2024–зараз) ≈ Перші клітини
A13	RAG (зовнішня пам'ять)	Протоклітинна мембрана	Баланс retrieval	Релевантність (recall)	Шум (precision)	10⁻⁶	Обчислено
A14	OpenExp / MemGPT (persistent Q-memory)	Na+/K+ помпа (динамічна рівновага)	Q-values — досвід накопичується між сесіями	Нові спогади (learning)	Забування (Q-decay, β)	10⁻⁴	Якісний
A15	Tool use & agents	Метаболізм (обмін із середовищем)	Агент взаємодіє з реальним світом	Capability (більше дій)	Safety (обмеження дій)	10⁻⁶	Якісний
A16	★ МИ ТУТ	Протоклітина (LUCA)	Перший замкнутий цикл: досвід → пам'ять → Q → retrieval → рішення	Exploration	Exploitation	?	В процесі
Під-ера 4: Online Learning (прогноз) ≈ Багатоклітинне життя
A17	Continuous fine-tuning	Клітинний поділ	Online зміна ваг на основі досвіду	Адаптація (нове)	Catastrophic forgetting (старе)	10⁻⁸	Прогноз
A18	Ієрархічна жорсткість κ	Диференціація тканин	Заморожена база + LoRA + зовнішня пам'ять	Стабільність (rigid base)	Пластичність (flexible adapters)	multi	Прогноз
A19	«Сон» для ШІ	Синаптичний гомеостаз (sleep)	Періодична ре-регуляризація, pruning, дистиляція	Консолідація (важливе)	Очищення (шум)	10⁻⁶	Прогноз
A20	β-scheduling	Метаболічна регуляція	Динамічна зміна дисипації під час навчання	Високий β (exploration)	Низький β (exploitation)	10⁻⁸	Прогноз
⚡ ФАЗОВИЙ ПЕРЕХІД: Одинарний цикл → Ієрархічний цикл
Під-ера 5: Замкнутий цикл енергії (прогноз) ≈ Фотосинтез
A21	Самозабезпечення compute	Фотосинтез (самостійне джерело енергії)	Агент заробляє → платить за свій compute → продовжує	Дохід (output value)	Витрати (compute cost)	10⁻¹⁵	Прогноз
A22	Multi-agent екосистема	Екосистема (взаємозалежність видів)	Спеціалізація та кооперація між агентами	Кооперація (collective benefit)	Конкуренція (individual benefit)	10⁻¹⁵	Прогноз
Під-ера 6: Мета-оптимізація (прогноз) ≈ Свідомість
A23	L2 мета-спостерігач	Свідомість (мозок спостерігає себе)	Система змінює свою objective function	Performance (поточна ціль)	Reflection (мета-ціль)	???	Прогноз
A24	Frame switching	Зміна парадигми (Кун)	Система ОБИРАЄ що оптимізувати = суб'єктність	Старий фрейм	Новий фрейм	???	Прогноз

Під нашим припущенням, послідовність має бути однаковою: фізиці знадобилось 13.8 мільярдів років для 7 ер, а ШІ проходить ті самі фазові переходи за десятиліття. Але порядок той самий — бо структура конвергенції та сама. Ви не можете побудувати L2 мета-спостерігач (свідомість) на замороженій моделі (кристал), так само як не можна побудувати мозок з каменів. Спочатку потрібна динамічна рівновага. Потім — ієрархія. Потім — рефлексія.Under our assumption, the sequence must be the same: physics needed 13.8 billion years for 7 eras, while AI traverses the same phase transitions in decades. But the order is the same — because the convergence structure is the same. You cannot build an L2 meta-observer (consciousness) on a frozen model (crystal), just as you cannot build a brain from rocks. First you need dynamic equilibrium. Then hierarchy. Then reflection.

Ми (OpenExp, A16) — на межі першого фазового переходу. Протоклітина з першим замкнутим циклом досвіду. Ще не «жива» (не self-sustaining), але вже не кристал.We (OpenExp, A16) are at the edge of the first phase transition. A protocell with the first closed experience loop. Not yet “alive” (not self-sustaining), but no longer a crystal.

Розділ 9Section 9Емпірична Верифікація: β-SchedulingEmpirical Verification: β-Scheduling

9.1 Мотивація9.1 Motivation

Що дає цей фреймворк на практиці? Якщо рівняння описує конвергенцію на всіх масштабах, ми можемо вивести гіперпараметри тренування нейромереж замість того, щоб їх підбирати.

SGD з momentum — це дискретизація загасаючого гармонічного осцилятора (Polyak, 1964). Qian (1999) показав це явно: для квадратичної loss f(w) = ½λw² рівняння руху має вигляд ¨x + (1−μ)𝚥 + αλ·x = 0. Критичне демпфування (найшвидша конвергенція без осциляцій) вимагає:

What does this framework give us in practice? If the equation governs convergence at all scales, we can derive training hyperparameters instead of tuning them.

SGD with momentum is a discretized damped harmonic oscillator (Polyak, 1964). Qian (1999) showed this explicitly: for quadratic loss f(w) = ½λw², the equation of motion is ¨x + (1−μ)𝚥 + αλ·x = 0. Critical damping (fastest convergence without oscillation) requires:

μ = 1 − 2√(αλ)

Критичне демпфування (Qian, 1999)Critical damping (Qian, 1999)

де λ — власне число Гессіану. Для наближення λ ≈ 1 (припущення добре масштабованої задачі):

where λ is the Hessian eigenvalue. Under the approximation λ ≈ 1 (assumption of a well-scaled problem):

μ(t) = 1 − 2√α(t)

Momentum schedule з одним наближеннямMomentum schedule with one approximation

Якщо α(t) — learning rate schedule (наприклад, cosine annealing), то μ(t) визначається автоматично. Ця формула відома з 1999 року, але 27 років залишалась лише теоретичним результатом. Smith (2018) емпірично відкрив, що momentum має бути обернений до LR (1cycle policy), але не зв'язав це з формулою Qian. Ми підставляємо формулу буквально.

If α(t) is the learning rate schedule (e.g., cosine annealing), then μ(t) is determined automatically. This formula has been known since 1999, but for 27 years remained a purely theoretical result. Smith (2018) empirically discovered that momentum should be inverse to LR (1cycle policy), but did not connect this to Qian's formula. We apply the formula literally.

9.2 Експеримент9.2 Setup

Модель: компактна CNN (6 conv шарів + BatchNorm + MaxPool, ~300K параметрів). Дані: CIFAR-10 (50K train / 10K test, 32×32 RGB, 10 класів). Оптимізатор: SGD. Тривалість: 30 епох, один seed. Три умови:

Baseline — cosine annealing LR (α: 0.1 → 0.0004) + фіксований μ = 0.9. Стандартний підхід.
1cycle (Smith, 2018) — лінійний warmup LR (0.0001 → 0.1, 10 епох) + cosine decay. Momentum обернений до LR: μ = 0.95 → 0.85 → 0.945. Емпірично підібрані гіперпараметри.
Physics — той самий cosine LR що й Baseline + μ(t) = max(0.5, 1 − 2√α(t)). Momentum від 0.5 (висока α) до 0.961 (низька α). Єдиний параметр: μ_min = 0.5 (клемпінг).

Контроль: архітектура, дані та seed ідентичні для всіх умов. Різниця — лише в momentum schedule.

Model: compact CNN (6 conv layers + BatchNorm + MaxPool, ~300K parameters). Data: CIFAR-10 (50K train / 10K test, 32×32 RGB, 10 classes). Optimizer: SGD. Duration: 30 epochs, single seed. Three conditions:

Baseline — cosine annealing LR (α: 0.1 → 0.0004) + fixed μ = 0.9. Standard approach.
1cycle (Smith, 2018) — linear warmup LR (0.0001 → 0.1, 10 epochs) + cosine decay. Momentum inverse to LR: μ = 0.95 → 0.85 → 0.945. Empirically tuned hyperparameters.
Physics — same cosine LR as Baseline + μ(t) = max(0.5, 1 − 2√α(t)). Momentum from 0.5 (high α) to 0.961 (low α). One parameter: μ_min = 0.5 (clamp).

Control: architecture, data, and seed are identical across all conditions. The only difference is the momentum schedule.

9.3 Результати9.3 Results

Точність на тестіTest Accuracy

Розклад імпульсуMomentum Schedule

Рання конвергенціяEarly Convergence

9.4 Аналіз9.4 Analysis

Результати. Physics (85.54%) ≈ Baseline (85.43%). 1cycle виграє за фінальною точністю (86.56%). Різниця Physics–Baseline (0.11%) знаходиться в межах типової варіації між seeds (~0.3–0.5%), тому її слід інтерпретувати як паритет, не перевагу.

Рання конвергенція. Після першої епохи: Physics = 50.9%, Baseline = 43.0%, 1cycle = 34.6%. Пояснення пряме: Physics починає з μ = 0.5 (мінімальна інерція при високому тиску), тоді як Baseline несе μ = 0.9 (високу інерцію). Менша інерція = швидша початкова адаптація. Це узгоджується з фізикою осцилятора, але не є глибоким результатом — будь-який schedule з низьким початковим momentum дасть подібний ефект.

Що це показує для фреймворку. Ціль цього тесту — proof of concept: рівняння передбачає momentum schedule, і цей schedule працює на рівні hand-tuned baseline. Рівняння не зламало тренування — навпаки, дало розумну конфігурацію з нуля.

Обмеження.

Один seed, одна архітектура, один dataset — для серйозного claim потрібні множинні запуски та моделі.
Наближення λ ≈ 1: повна формула μ = 1 − 2√(αλ) містить власне число Гессіану, яке різне для кожного параметра і змінюється під час тренування.
μ_min = 0.5 (клемпінг) — прихований гіперпараметр, не виведений з фізики.
1cycle (86.56%) перемагає Physics (85.54%) за фінальною точністю — емпіричний тюнінг все ще дає кращий результат.

Суміжна робота: незалежно, Adaptive Momentum and Nonlinear Damping (arXiv 2602.00334, лютий 2026) виводять per-parameter adaptive momentum з гамільтонової механіки — суворіший підхід з тієї ж фізичної основи.

Results. Physics (85.54%) ≈ Baseline (85.43%). 1cycle wins on final accuracy (86.56%). The Physics–Baseline gap (0.11%) is within typical seed-to-seed variance (~0.3–0.5%), so it should be interpreted as parity, not superiority.

Early convergence. After epoch 1: Physics = 50.9%, Baseline = 43.0%, 1cycle = 34.6%. The explanation is direct: Physics starts with μ = 0.5 (minimal inertia under high pressure), while Baseline carries μ = 0.9 (high inertia). Less inertia = faster initial adaptation. This is consistent with oscillator physics but is not a deep result — any schedule with low initial momentum would produce a similar effect.

What this shows for the framework. The goal of this test is proof of concept: the equation predicts a momentum schedule, and this schedule performs on par with a hand-tuned baseline. The equation did not break training — it produced a reasonable configuration from scratch.

Limitations.

Single seed, single architecture, single dataset — a serious claim would require multiple runs and models.
Approximation λ ≈ 1: the full formula μ = 1 − 2√(αλ) includes the Hessian eigenvalue, which differs per parameter and changes during training.
μ_min = 0.5 (clamp) is a hidden hyperparameter, not derived from physics.
1cycle (86.56%) beats Physics (85.54%) on final accuracy — empirical tuning still wins.

Related work: independently, Adaptive Momentum and Nonlinear Damping (arXiv 2602.00334, February 2026) derives per-parameter adaptive momentum from Hamiltonian mechanics — a more rigorous approach from the same physical foundation.

Розділ 10Section 10ДискусіяDiscussion

10.1 Межі припущення

Це не Теорія Всього. Фундаментальні сили відрізняються калібрувальними симетріями, константами зв'язку та математичною структурою. Наше твердження вужче: якщо обчислювальна потужність обмежена, то процес пошуку балансу матиме спільну структуру на всіх масштабах.

Не тотожність, а структурний ізоморфізм. dE/dx = 0, ∇L → 0, D_KL(q||p) → min — різні операції в різних просторах. Коректне формулювання: екземпляри одного планувальника, що шукає стаціонарні точки під протилежними тисками.

Чесність щодо обмежень. З 55 точок: 24 (41%) обчислювально підтверджені, 16 (27%) якісні, 5 (8%) працюють за іншими механізмами, 13 (22%) невідомі. Білі плями (Λ, m_e, m_ν, η, хіральність) вказують на невідкриту фізику.

10.2 Порівняння з існуючими фреймворками

Принцип найменшої дії — варіаційна умова. Ми описуємо ітеративний процес.
Вільна енергія (Friston) — узгоджується; ми додаємо вимір тиску (α/β) та ієрархію стиснення.
Дисипативні структури (Prigogine) — наш β формалізує вимогу дисипації.
Цифрова фізика ('t Hooft, Wolfram, Lloyd) — ми конкретизуємо: «під обмеженнями, і обмеження створюють структуру.»

10.3 Історичний контекст рівняння

Рівняння не нове. Вчені відкривали його фрагменти протягом 300 років:

10.1 Limits of the Assumption

This is not a Theory of Everything. Fundamental forces differ by gauge symmetries, coupling constants, and mathematical structure. Our claim is narrower: if computational capacity is finite, then the process of finding balance shares a common structure across all scales.

Not identity, but structural isomorphism. dE/dx = 0, ∇L → 0, D_KL(q||p) → min are different operations in different spaces. The correct formulation: instances of the same scheduler finding stationary points under opposing pressures.

Honesty about limitations. Of 55 points: 24 (41%) computationally confirmed, 16 (27%) qualitative, 5 (8%) different mechanisms, 13 (22%) unknown. The white spaces (Λ, m_e, m_ν, η, chirality) point to undiscovered physics.

10.2 Comparison with Existing Frameworks

Principle of least action — variational condition. We describe an iterative process.
Free Energy Principle (Friston) — consistent; we add the pressure dimension (α/β) and compression hierarchy.
Dissipative structures (Prigogine) — our β formalizes the dissipation requirement.
Digital physics ('t Hooft, Wolfram, Lloyd) — we specify: “under constraints, and constraints create structure.”

10.3 Historical Context of the Equation

The equation is not new. Scientists discovered its fragments over 300 years:

РікYear	АвторAuthor	ВнесокContribution
1687	НьютонNewton	F = ma
1744	ЕйлерEuler	δS = 0
1788	ЛагранжLagrange	d/dt(∂L/∂q̇) − ∂L/∂q = 0
1847	КошіCauchy	x_n+1 = x_n − α∇f
1877	РелейRayleigh	Функція дисипації (β)Dissipation function (β)
1964	ПолякPolyak	v(t+1) = β·v(t) − α·∇f
1999	Qian	μ = 1 − 2√α (критичне демпфування)(critical damping)
2014	Кінгма & БаKingma & Ba	Adam: адаптивний α, βadaptive α, β

10.4 Прогнози

Тестоване: Будь-який новий процес конвергенції демонструватиме протилежні сили з швидкістю, що визначається α/β.
Тестоване: κ для соціальних систем ~ 10⁻¹⁵–10⁻²⁰, м'якше за ваги ШІ.
Підтверджене: ШІ без дисипації (β = 0) завжди розходиться при масштабуванні.
Тестоване: Оптимальний тиск для будь-якої навчальної системи слідує кривій Єркса-Додсона.
Частково підтверджене: β-scheduling з фізики (μ = 1 − 2√α) працює без тюнінгу — підтверджено на CIFAR-10 (Розділ 9).
Передбачення: L2 мета-спостерігач вимагає ієрархічного вкладення рівняння.

10.4 Predictions

Testable: Any new convergence process will exhibit opposing forces with rate determined by α/β.
Testable: κ for social systems ~ 10⁻¹⁵–10⁻²⁰, softer than AI weights.
Confirmed: AI without dissipation (β = 0) always diverges under scaling.
Testable: Optimal pressure for any learning system follows the Yerkes-Dodson curve.
Partially confirmed: β-scheduling from physics (μ = 1 − 2√α) works with zero tuning — confirmed on CIFAR-10 (Section 9).
Prediction: An L2 meta-observer requires hierarchical nesting of the equation.

Розділ 11Section 11ВисновокConclusion

Ми запропонували одне припущення: обчислювальна потужність обмежена.

З нього випливає: пріоритетне планування, одне рівняння, 55 точок конвергенції, градієнт жорсткості, вимога дисипації, суб-процесори та крива Єркса-Додсона.

Ми верифікували підхід емпірично: формула критичного демпфування μ = 1 − 2√α, виведена з рівняння, працює як momentum schedule з нульовим тюнінгом (85.54% на CIFAR-10, найшвидша рання конвергенція).

Припущення є фальсифіковним. Прогнози — тестовані. 13 білих плям вказують на невідкриту фізику. Якщо обчислення обмежені, тоді один оптимізатор з двома параметрами пояснює, чому той самий патерн з'являється від кварків до градієнтного спуску.

We proposed one assumption: computational capacity is finite.

From it follows: priority scheduling, one equation, 55 convergence points, stiffness gradient, dissipation requirement, sub-processors, and the Yerkes-Dodson curve.

We verified the approach empirically: the critical damping formula μ = 1 − 2√α, derived from the equation, works as a momentum schedule with zero tuning (85.54% on CIFAR-10, fastest early convergence).

The assumption is falsifiable. The predictions are testable. 13 white spaces point to undiscovered physics. If computation is finite, then one optimizer with two parameters explains why the same pattern appears from quarks to gradient descent.

V(t+1) = V(t) + α · [R(t) − P(V(t))]

Одне припущення → одне рівняння → 55 екземплярівOne assumption → one equation → 55 instances

Стаття 1Paper 1: The Yerkes-Dodson Curve for AI Agents (arXiv, cs.AI, 2026)
Стаття 2Paper 2: The Cognition Criterion (в розробціin progress)
Стаття 3: Ця статтяPaper 3: This paper

КореспонденціяCorrespondence: ivan@welabeldata.com