トークンという「見えない文字数制限」Gemma 4をMacに入れて気づいたこと
今日は、1日、Macの中でAIを動かしていた。
Googleの「Gemma 4」という、無料で使えるオープンモデル。
これをダウンロードして、Macの中に“住まわせた”。
起動して、端末の中で動かしてみる。
- 質問する
- ちゃんと答えが返ってくる
- ネット接続は切っていても、普通に会話ができる
いつも使っているClaudeと同じようなことが、Macの中だけで完結する。
素直に、感動した。
そして自分で作った生成ツールを改造していた。
- これまでClaudeにつないでいた部分を
- Gemma 4 につなぎ替える作業
テスト用に、簡単な質問を投げてみる。「1+1は?」
Gemmaは、30秒くらい黙った。
そのあと、ようやく一言返ってきた。「2」
中をのぞいてみると、理由がわかった。
Gemmaは「2」と答える前に、裏側で660文字ぶんくらい考えていた。
- 「1足す1か。これは基本的な算数の問題だ」
- 「答えは2になる」
- 「ユーザーは数字だけ答えろと言っている」
- 「だから2という数字だけを返そう」
──というようなことを、延々と“頭の中”で独り言してから、最後に「2」と言っている。
これは、Gemma 4 の「Thinking(思考)モード」という機能。
いったん内側でじっくり考えてから、外に出す設計になっている。
プログラム側から見ると、ここで大量の「トークン」を消費している。
トークンとは、AIが扱う「文字の単位」だ。
- ひらがな1文字
- 英単語1つ
- 記号
そういうものが、だいたい「0.数〜数トークン」に相当する。
1回のやりとりで使えるトークン数には、上限がある。
これは、クラウドでもローカルでも同じ。
さっきの「1+1は?」に対して、Gemmaは合計207トークンを使っていた。
- 内訳:
- 思考に202トークン
- 最後の「2」に5トークン
98%が、こちらからは見えない「考えごと」だった。
ここで、冷静になった。
「ちょっと待って。様々なことを調べさせるのに、98%も裏で考えられたら、
本文を書くトークンが足りなくなる。」
あわてて、Gemmaを動かしているアプリ(LM Studio)の設定を見直す。
そこにあったのが、
- Enable Thinking(思考を有効にする)
というスイッチ。
これをOFFにして、もう一度「1+1は?」と聞いてみる。
今度は、ほぼ即答「2」
裏での長い思考もなく、トークン消費もほとんどゼロ。
ここで、もうひとつ大事なことに気づいた。
Claudeを使うときは、料金が発生する。
- 1000トークンいくら、という従量課金
- 思考モード(長く考えるモード)をONにすると、そのぶん料金も増える
一方、Gemma 4 はローカルで動く。
- 月額も従量課金もゼロ円
- どれだけトークンを消費しても、請求書は来ない
じゃあ、「Gemmaはトークンのことを気にしなくていいのか?」
Claude(今これを書いているAI)に聞いてみたら、
「それは違う」と言われた。
- お金の請求はない
- でも、「一度に処理できるトークン数」という上限は、やっぱり存在する
例えるなら、自家用の井戸と、水道の違い。
- 水道:使ったぶんだけ料金がかかる
- 井戸:料金はゼロ。でも出せる水量には物理的な限界がある
AIもこれと同じで、
- クラウド:トークン=料金
- ローカル:トークン=メモリと処理時間の上限
という別の制約になる。
AIは、タダで動く。
でも、タダじゃない。
結局のところ、大事なのはこの一点だった。同じAIでも、「考えさせるか」「考えさせないか」を
人間側で選ばないといけない。
- 思考モードをONにすれば、精度は上がる。
でも、時間もトークンも食う。 - 思考モードをOFFにすれば、速くて軽い。
でも、ときどき浅い答えも混ざる。
「最強の設定」は存在しない。
- カッチリした文章や、大事な判断には「考えるモード」
- 日常のメモや、スピード優先の用途には「すぐ答えるモード」
用途に合わせて、使い分けるしかない。
これを考えていて、ふと眼鏡のことを思い出した。
- 1本のフレームで、
ビジネスも、スポーツも、読書も、全部カバーしようとすると、
どこかに無理が出る。
お客様の生活、顔立ち、目的によって、
- 仕事用
- 運転用
- 読書用
- 趣味用
と、場面ごとに“ちょうどいい選択”が変わる。
AIも、まったく同じだと思った。
47歳。
Macの中にAIを迎え入れて、
その動き方を一日じっくり観察していたら、
気づいたら夕方になっていた。
AIはタダで動く。
でも、タダじゃない。
その「見えない制約」の中で、どう付き合っていくか。
その設計を考えること自体が、いまの自分にとって、けっこう楽しい時間になっている。
ーーーー
ーーーー
Tokens as an “Invisible Character Limit” — What I Learned Running Gemma 4 Locally
Today I spent the entire day running AI locally on my Mac.
I installed Google’s Gemma 4, a free, open model, and let it live inside my machine.
It worked.
I could ask questions, and it would answer. Even without an internet connection, the conversation felt natural. Something I usually rely on cloud-based AI for was now happening entirely on my own device.
That alone was impressive.
Then I started modifying my own content generation tool.
Until now, it had been connected to Claude. Today, I rewired it to use Gemma 4 instead.
As a quick test, I asked a simple question.
“1 + 1?”
Gemma paused. For about 30 seconds.
Then it replied, “2.”
Curious, I looked under the hood.
Before answering, Gemma had generated a long internal chain of reasoning—hundreds of characters—thinking through the problem step by step before finally giving the answer.
This is Gemma 4’s “Thinking Mode.” It processes the question internally before producing an output.
From a system perspective, this uses a large number of tokens.
A token is essentially a unit of text the AI processes. A character, a word, or a symbol can all count as tokens, and every response has a limit on how many tokens it can use—whether the model is running in the cloud or locally.
For the simple question “1 + 1?”, Gemma used over 200 tokens. Almost all of them were spent on internal reasoning, and only a few were used for the visible answer.
That made me pause.
If most of the capacity is used for thinking, there won’t be much left for the actual output—especially for something longer, like writing a blog post.
So I checked the settings in the app I was using.
There it was: “Enable Thinking.”
I turned it off and asked the same question again.
This time, the answer came instantly.
“2.”
No delay, almost no token usage.
At that moment, something clicked.
With cloud AI like Claude, you pay per token. The more it thinks, the more it costs.
Gemma, running locally, doesn’t charge anything. So it’s easy to assume tokens don’t matter anymore.
But that’s not true.
There’s no financial cost, but there is still a limit on how much can be processed at once.
It’s similar to the difference between a utility water supply and a private well. With a utility, you pay for what you use. With a well, it’s free—but there’s a physical limit to how much water you can draw.
AI works the same way.
In the cloud, tokens translate into cost.
Locally, tokens translate into limits on memory and processing.
AI can run for free, but it isn’t truly free.
The key realization was this: you have to decide whether to let the AI “think” or not.
Turning Thinking Mode on improves accuracy, but it takes more time and uses more tokens. Turning it off makes responses faster and lighter, but sometimes less detailed.
There’s no single best setting.
It depends on how you use it.
For careful writing or important decisions, it makes sense to let it think.
For quick notes or simple tasks, speed matters more.
This reminded me of something familiar.
Eyeglasses.
You can’t expect one pair to work perfectly for every situation. Work, driving, reading—each requires a different balance.
AI feels the same.
I’m 47.
Today I spent the day experimenting with an AI running inside my Mac, adjusting settings and observing how it behaves.
Before I knew it, it was evening.
AI runs for free, but it isn’t free.
Learning how to work within those invisible limits has become, unexpectedly, a very interesting process.
カテゴリー
– Archives –
– other post –
– Will go to Mars Olympus –
– next journey Olympus on Mars through Space Travel –
– 自己紹介 インタビュー –
– Books –
*“Yesterday, I Went to Mars ♡”*
- Mercari Notification 10 Minutes After Delivery: 2026年4月23日A short reflection on a small but noticeable shift in e […]
- Starting from “1 + 1” at 47 — My Git Debut 2026年4月21日This episode reflects on starting to use Git for the fi […]
- From the Browser to the Terminal — AI Agents and Git as a “Save Point” 2026年4月21日This episode reflects on a shift in how AI is being use […]
- Phishing Scam: “American Express Centurion Invitation” Email. 2026年4月20日This episode shares a real example of a phishing email […]
- Voice Input and Smartwatches — Apple Watch Ultra 3 and Google Pixel Watch 4. 2026年4月18日This episode explores how increased use of AI is changi […]