世界を動かす技術を、日本語で。

最後の技術面接

概要

  • 技術面接の従来手法が限界を迎えつつある現状
  • 面接プロセスの根本的な問題点と失敗例
  • HRと現場エンジニアの間にある変革への抵抗
  • シグナル(評価材料)不足が採用の本質的課題
  • インターンや仮採用など、より実践的な評価方法への移行

技術面接の終焉とその背景

  • 技術面接プロセス の限界と時代遅れ感
  • AmazonのBar RaisersMicrosoftのAA など、信頼できる面接官による「監視役」制度の存在
    • 面接チームの判断能力に対する不信感の表れ
  • 面接プロセスの「バンドエイド」的な改善策の繰り返し
    • 4~6回の面接を1~2日で実施という形は不変
  • 統計的に見ても、 偽陽性(不適格者の採用)偽陰性(適格者の不採用) が多発
  • 本質的な課題は「 人材評価の信頼性の低さ
  • HR部門は問題を認識しているが、現場のエンジニア側は慣性で変革を拒否
  • GoogleやAmazon でも面接結果と実際のパフォーマンスの相関が薄いことが判明

面接プロセスの失敗例と内省

  • Googleの「Hiring Committee」では、自分たちの過去の面接記録を匿名で再評価
    • 結果として、 自分たち自身を2/3不採用と判定
  • 面接プロセスの無意味さを痛感しつつも、根本的な改善には至らず
  • 面接プロセスを批判すること自体が社内でタブー視される文化
  • 面接を突破した人ほど、プロセスの正当性を擁護しがち

シグナル問題と現状の限界

  • 採用に必要な「 シグナル(評価材料)」が圧倒的に不足
    • レジュメは 信頼性が低く、AI活用でさらにノイズ増加
    • 技術電話面接もZoomの普及で形骸化
    • オープンソース活動やコーディングチャレンジも、実際の協働を評価できない
    • 現場面接(オンサイト)も実際の業務とはかけ離れている
  • 数時間の評価で、数年単位の雇用判断を迫られる現実

インターン・仮採用という新たな評価軸

  • 最も信頼できるシグナルは「 インターンシップ」や「 仮採用」による実務体験
    • 3ヶ月のインターンで、短時間の面接よりも遥かに多くの情報を得られる
    • インターン中の実績で最終判断する企業も増加傾向
  • インターンや仮採用の導入による「 実践的評価」へのシフト
    • 面接プロセスは単なる足切り要素に
    • チームとの相性や実際の業務遂行能力を重視

今後の方向性と提案

  • 技術面接は 時代遅れの手法 として、今後数年で廃れる可能性
  • 採用評価の主軸は「 実際の仕事を通じた長期的な観察」へ移行
  • 業界全体で「 仮採用・インターン型評価」の導入が進む見込み
  • 面接プロセスの抜本的な見直しを提唱

技術面接の未来と業界の変革

  • 技術面接は「 かつて存在した奇妙な習慣」として歴史の一部になる可能性
  • 採用評価の本質は「 十分なシグナルを、実際の業務を通じて得ること
  • 業界全体で足並みを揃え、 新たな評価基準 への移行が必要
  • 今後は「 実務ベース評価」が主流となり、従来型面接は徐々に姿を消す流れ

Hackerたちの意見

このジョークのテキストが見つからなかったんだけど、Diracに帰属してるやつね。要約すると、ある男がペットショップに入るんだ。100ドルのオウムがいて、「このオウムは完璧な英語を話します」と書いてある。その隣は1000ドルで、「このオウムは12カ国語を流暢に話します」と。で、ちょっとみすぼらしいオウムがいて、そのラベルには「100万ドル」とだけ書いてある。男は「オペラを歌ったり、大統領に立候補したりするのか?」と皮肉を込めて聞く。店主は「このオウムは、_考えている_んです」と答える。これがこの投稿の全てなんだ。人を評価する方法、スコア、相関、などなど。雇ってみて、考えるかどうかを見ればいい。考えないなら、クビにすればいい。資格や信号のごちゃごちゃより安上がりだよ。ほとんどが法的な無駄話だからね。確かに、これは単純な戦略で、ShoogleやBanthropic、Gooberには通用しないかもしれないけど、知ったこっちゃない。お前らは兆ドル企業なんだから、しっかりしろ。ゾンビの群れがドアの前にいるのに、「本当の宝石」を見つけるのが難しいって文句言ってるだけだろ。数年後にはどうせ冷酷にクビにするんだから、その痛みや苦悩を感じるべきだよ。選択を後悔し続けるのが、宇宙のバランスを保つ唯一の方法なんだ。

昔のMalcom Gladwellのポッドキャストエピソードがあって、たしか「Revisionist History」っていう番組だったと思うんだけど、彼は自分をインタビューのニヒリストだと言ってた。相手がそこそこ能力がありそうで、必要なことを少しでもできそうなら、雇えばいいって。インタビューは正しくやるのが難しいから、結局言ってることが一番効果的になるんだ。追記:最初はリンクを貼らなかったけど、見つけるのが難しいと思ったから。実際は簡単に見つかるみたい。 https://www.pushkin.fm/podcasts/revisionist-history/hamlet-w...

我々の採用の機能不全は、対立や誰かをクビにするのが嫌いな人が多いからだ。

あるGoogleのインタビューで、Googleの社員を通してどれだけ雇われるかを見た方がいいってフィードバックをしたことがある。実際にそれを試してくれたみたいで良かった。結局、誰かを雇うのが理想的な方法だっていうのは確かだけど、社員評価はインタビューよりもさらに悪い状況に直面することがある。フィードバックを求められたときに、過去6〜12ヶ月間に何をしていたか全く分からないマネージャーがパニックになるのを目の当たりにすることもある。

あるGoogleのインタビューで、Googleの社員を通してどれだけ雇われるかを見た方がいいってフィードバックをしたことがある。実際にそれを試してくれたみたいで良かった。やったけど、問題を解決するつもりはなかったみたい。この問題は信頼性のことなんだ。同じものを測るときの測定器の概念的な「相関」について。信頼性は心理測定学の二大概念の一つで、もう一つは妥当性で、測定器と測りたい現実の部分との相関のこと。妥当性の背後にある質問は「Xを知りたい;Yを測ったらどれくらい役立つか?」。信頼性の背後にある質問は「Zを測ったら、その測定はどれくらい正確か?」 https://en.wikipedia.org/wiki/Reliability_(statistics) https://en.wikipedia.org/wiki/Construct_validity Yeggeはこのエッセイの中で、両方の概念を明示的に指摘しているけど、名前は出していない。>> インタビューの結果は統計的にひどい。Googleは何年にもわたって波状的に分析を行い、すべての結果は信じられないほど落胆させるものだった。>> [信頼性] いくつか挙げると、インタビュアー同士がほとんど合意しなかった。最も優秀な二人の前に同じ候補者を置くと、一人は自信満々で「強い採用」と言い、もう一人は「ノー」と言うことがよくあった。>> [妥当性、ただしここでの「問題」は範囲の制限によって強く混乱している] 実際に仕事を始めたら、インタビューのスコアは彼らがどれだけできるかについてほとんど何も教えてくれなかった。>> [信頼性] うちのスター選手の中には、Googleのインタビューに4回か5回落ちて、2年以上経ってやっと入社した人もいる... >> [妥当性] ...そしてその後、他の誰よりも目立った。インタビューの結果が統計的にひどいという議論は、どのようにひどいのかを具体的に示すことで改善されるだろう。問題を知ることは、それを解決するための重要なステップだ。 (ちなみに、Googleから聞いた最後の話では、年に一度以上インタビューをすることは許可されていないらしい。2年で5回インタビューするのは、その方針に違反するように思える。)どんな測定器の妥当性も、信頼性の平方根によって上限が制約されるという基本的な定理がある。信頼性のない測定器が現実と密接に相関することは不可能だ。なぜなら、それ自体が定義上、何とも密接に相関していないから。これが信頼性がないということの意味だ。したがって、良い採用プロセスを望む会社は、そのプロセスを正確にすることに非常に気を使う必要がある。同じ人を評価する際に同じ決定を下す必要があるから。これはインタビューでは極端なコストをかけない限り達成できないことだ。信頼できる評価を得るには、5回以上のインタビューが必要だろうけど、このエッセイでは「4回以上のインタビューは食べ物で遊んでるだけ」と言っている。もちろん、Googleのインタビューはそもそも信頼性がないはずだから、その意味ではその主張はおそらく正しい。Yeggeが提案する処方は妥当だ。数ヶ月の仕事評価は強力で信頼性が高く、妥当な信号を与えてくれる。ただし、非常に高価でもある。このエッセイが完全に無視しているもう一つの点は、この問題が長い間認識されてきたことで、すでに信頼性が高く、妥当で、安価に実施できる評価方法があるということだ。それは標準化テストと呼ばれている。

2つのエピソード... 1) 私が受けた中で最悪のインタビュー(比べ物にならない)はGoogleでのもので、失礼な人たちで、時間を尊重しない。まだまだ言いたいことがある。お金が降ってくるのを得るために再挑戦したけど、長い目で見れば価値があった。2) 彼らの「パフォーマンス管理」の新しいシステムは詐欺だ。他の場所と同じように、「文書化」して、無言のルールや様々な恣意的な理由で簡単にクビにできるようにしている。友達は、事前に合意した目標をすべて達成したのに、「成果を出さない」という理由で追い出された。

雇われた人がうまくいかないのは必ずしも悪いことじゃない。理由は:1. 基準が高くなったから。早めに入って自分を証明できたら大丈夫だけど、今の面接を通過できるとは限らない。2. マラソンランナー(稀な例外を除いて)は、ランダムな日にマラソンを走れない。特定の日に向けてトレーニングするのと同じで、面接の準備もそうだよ。

採用資格のゴールドスタンダードは、作業サンプルテストだ。うまく機能する。採用を「利益センター」にしたり、「仮採用」したり、インターンシップを行う必要はない。正しく行われた作業サンプルは、候補者からインタビューよりも少ない時間を要求し、インタビューよりもスケールしやすい。標準化可能で、繰り返し実施できる。ここで読んでいるのは、FAANGの採用慣行に毒された人のようだ --- それはひどい --- そして、ほとんどの作業が見逃されている(Googleの自分たちのプロセスを暴く素晴らしい仕事を除いて)。ここでの「キッチンの秘密」を感謝するけど、Yeggeに関しては、彼はずっとオリーブガーデンで働いていたと思う。Gramercy Tavernでステージをやってみて!規模は違うけど、「ゴールドスタンダード」に対する異なる視点は得られるはずだ。

作業サンプルテストの問題(開発者候補者が解くための宿題として一般的に実施される)は二つある。a) 4時間以上の集中した時間を平日の夜や週末に割けない人を差別する。複数の仕事を持つ人やシングルペアレントなど。b) AIの時代においては、誰かのスキルを測る信頼できる手段ではなくなっている。Yeggeとは違って、私はFAANGで働いたことはないけど、私が働いた会社はすべて彼が説明するのと同じ採用慣行に従い、同じ問題に苦しんできた。仮採用(またはそれが不可能な場合は、十分な報酬を得たインターンシップ)がすべての問題を解決する。候補者は3〜6ヶ月の安定した雇用を得て、雇用者は大量の作業サンプルテストを得て、彼らがAIをどのように使っているか、どれくらい使っているかを見ることができる。

仕事サンプルの面接については、設計もしたし、自分も受けたことがあるから、ちょっと迷ってるところがあるんだよね。伝統的なテック面接もそれなりに経験してきたけど、全部スタートアップで、FAANGではないんだ。面接官としては、仕事サンプル面接から得られるシグナルの方が好きだな。1時間のZoomセッションよりも、採用の推薦に自信が持てる。ただ、仕事サンプルやZoom面接で作られたチームを見てみると、結果がそんなに良くなかったようには思えない。面接を受ける側としては、逆の立場にいるときのフラストレーションも理解できる。対面の面接だと、自分がダメだったとか、改善点があるとか、頭の中で繰り返し考えることが多いから、結果もあまり驚かない。仕事サンプルの場合は、自分がミスをしているのか、他の人が4倍の努力をして解決策を磨いているのか、判断が難しいんだよね。ただ、一度だけ、仕事サンプル面接でその会社の内部の問題が浮き彫りになったことがあった。両方の面接プロセスについて言えば、実際にどれだけの候補者を無駄にしているのか、フィットする人を拒否するのにどれだけの努力が無駄になっているのか、まだまだ大きな未知数があると思う。だから、面接官としてプロセスを選ぶなら、やっぱり仕事サンプル面接を選ぶかな。「ゴールドスタンダード」として考えるべきかどうかは、ちょっと躊躇するけど、まだコントロールが難しい限界があると思う。Starfighter/Stockfighterモデルがもっと広まってたら面白かったのに、こういう採用会社が専門化して、面接結果を複数の会社に提供するモデルがうまくいくところを見たかったな。

ポートフォリオがあればいいけど、システムが壊れすぎてて、それが見えにくくなってるよね。必要ない分野でPhDを雇うバイアスがある理由の一つは、少なくとも仕事のポートフォリオがあるからだと思う。

テイクホームは、選択肢のある良い候補者を一掃するのにいい方法だったよ。彼らは何も提出せずに他の人を選ぶからね。AIや多くのレイオフがある今は状況が変わってるかもしれないけど、ここ数年試してないし、あまり期待はしてないかな。

「仮採用」のアイデアは最初は良さそうに聞こえるけど、実際にどう機能するか考えると、ちょっと疑問が出てくるよね。1つのポジションに対して100人の応募者がいるとしたら、どの人を仮採用するの?もちろん、10人を評価するために伝統的な面接ループをやらなきゃいけないよね。だから、伝統的な面接ループをやって、6ヶ月間の仮採用が始まる。何も置き換えてないし、ただみんなにとって余計な手間が増えただけだよ。

これで会社の悪い採用リスクが下がったってことだよね。そうすれば、普通なら見送るような候補者に「チャンスを与える」ことができるかもしれない。

現在安定した雇用を享受している人を採用するのは障害になるよね。ジュニアには大丈夫かもしれないけど、家族がいるような経験豊富な人には難しいんじゃないかな。

高い離職率の一時的な労働者のプールだと、もう少し選択肢を広げられるかもね。インターンシッププログラムみたいな感じ。ただ、それが誰でもインターンになれるってわけじゃないけど。

正直言うと、そういうアイデアは多いよね。雇われたいけど、実際に雇用プロセスを運営したことがない人たちから出てきてる。

利点は一方通行のようだね。最初の100 -> 10(ATS/面接/コインフリップ)フィルタリングプロセスは、いつものように偽陽性と偽陰性の大きな割合を持つだろう。偽陰性は、雇いたかった人を誤って拒否してしまった候補者と雇用会社の両方にとって最悪だね。「仮採用」プロセスの利点は、偽陰性を避けられなくても、少なくとも偽陽性を排除して、会社が適格でフィットする人を雇えるようになることだと思う(偽陰性のせいでさらに良い候補者を拒否してしまうかもしれないけど)。

こういうプログラムを運営したことがあるよ。君の反論に対する答えはこうだ:全員にやるわけじゃなくて、十分良さそうな人だけにやるんだ。履歴書のフィルターと30分の会話があれば大体足りるよ。採用が決まったらすぐにやめるし。もし選ぶのが下手なら、投資のレベルが高いからすぐにシグナルを学べるよ。従来の長い面接ループを置き換えるんだ。最初にあまり話さないし、候補者には作業フェーズの後にオファーを出すって伝える。もう一つの反論は、全員がその時間を君と過ごせるわけじゃないってこと。確かにそうだね。私たちは彼らに報酬を支払って、それでも断られることもあったよ。どの面接スタイルがどの候補者に合うかは、受け入れなきゃいけないことだね。好きな候補者もいるだろうし。

別の人生では、FAANG企業で複数の面接ステージを経験したことがあるよ。セッションの合間に、(未来の)マネージャーたちと話す機会があったんだ。そのうちの一人が、面接プロセスが壊れているから、みんな一時的に雇って様子を見るべきだって言ってたよ(Yeggeが提案しているのと似てる)。そのバッチにはおそらく30人くらいがいたけど、全員を配置するのは簡単じゃないけど、確実にできると思う。

1つのポジションに対して100人の応募者がいる。どの候補者を仮採用する? 6ヶ月の契約社員を見つけるには、100人のサンプルサイズは多すぎる気がする。まずは1人から始めてみたらどう? 応募者を並べ替えて(ランダムでも、自分の選んだ基準でも、事前にフィルタリングしてもいいし)、最低限の資格を満たす最初の人を選んで、あなたの選んだ簡素な面接プロセスに基づいて雇う。もし必要なら、もっと大きなサンプルサイズで実験してもいいかも(少なくとも1人の適格な候補者が見つかることを期待できるくらいの大きさで)。

この投稿から得たシグナルはこんな感じ:- スティーブの会社はアマゾンに買収されて、面接の苦労なしに入社できた。 - FAANGからFAANGへの転職は簡単だってのは有名な話だから、グーグルの面接中はかなりのアドバンテージがあったし、ブログも人気が出てきた。 - これらすべてが、心の奥底にインポスター症候群を引き起こし、内部から面接プロセスを「改善」しようとした結果になったけど、企業の政治によってすぐに足を引っ張られた。法律家は何も再発明するつもりはないらしく、エンジニアよりも重要視されているみたい。 - 投稿自体は、基本的には失敗した努力に対する自己賛美になってる。「頑張ったよ」

スティーブ・イェッジが自己賛美の投稿を書くなんて?信じられない! =)

「これによって強い候補者が集まるんだ。君の拒否すら彼らにとっては価値があるからね。」これは完全にガスライティングだね!スティーブ、君のチームに拒否されるくらいなら、自分のキャリアにプラスになることをする時間を無駄にしたくないよ。

読んでみたけど、そういう印象は受けなかったな。あれは思考実験で、それ以上のものじゃない。ただ、いくつかの会社では「コワーキングデー」を設けて、チームのいろんな人と一緒にビジネスの問題を解決することがあるよね。彼がそれを提案できたらよかったのにと思う。

まあ、正確にはそうじゃないかな。彼はGeoworksの採用プロセスが非常に厳格だったと言っていて、それを通過したんだ。著者の名前は知ってるけど、彼の人生の全ては知らない。ただ、彼はGeoworksがAmazonに買収される前に雇われて、元同僚を全員連れてきたみたいだね。

私たちは2つの異なる投稿を読んだみたいだね。たとえ君の解釈が正しいとしても、ちょっと失礼すぎるよ。面接プロセスが嫌いで、改善しようとしている人をバカにするつもりなの?

彼は具体的に、Geoworksが彼がAmazonにいた時に買収されたと言ってたから、実際に多段階の面接プロセスを通過したんだよ。君がうまく読めないからって、そんなに皮肉っぽくならなくてもいいじゃん。

投稿には「どれも本当に役に立たないバンドエイドで、私たちは依然としてたくさんの偽陽性(不適格者)を雇い、偽陰性(実際には適格な人)を断ってしまう」と書いてあって面白いね。投稿では解雇に関する規制が法的問題を引き起こすことに触れてるけど、残念ながら偽陰性を断ることはビジネスにとってあまりコストがかからないんだ。悪い採用は非常に高くつくけど、良い採用を断ることで失う収益はそれほど悪くない(後で再度雇うのは簡単だから)。スタンプのアイデアはいいし、評判に基づく採用は重要だね。採用における紹介の使われ方がそれを示してる。なぜ企業内で紹介を追跡して、実際に合う人を推薦している人と、ただ友達を助けようとしている人(あまり良い採用じゃないかもしれない)を見分けないのか、ずっと不思議に思ってた。さらに、反腐敗や反縁故主義が採用を妨げる問題もあると思う。スタートアップで働いていると、他の人が入らずに最も才能のある人を雇うのがずっと簡単だけど、大企業では良い人を知っている人がいても、長い面接プロセスや高い拒否の可能性にうんざりしていることがある。解雇に関する規制がなければ、何らかの形で仕事を賭けるのが効果的だと思う。誰かを紹介して、ほとんどのプロセスをスキップさせることができるけど、それが悪い判断だった場合、あなたの仕事が危険にさらされるからね。

こういう考え方があるから、多くのマーケットプレイスのスタートアップが失敗するんだよね。二者があまり良くない形でやり取りしてて、解決策が一方(雇用側)には良くて、もう一方(候補者)にはかなり悪くなるっていう。候補者に「これが良いことだよ」って納得させようとしても、そんなの無理だよ。例えば、>「渡すスタンプは、合格でも不合格でも、候補者を来た時よりも豊かにする。」これで優秀な候補者が集まるんだ。だって、たとえ不合格でも彼らにとっては価値があるから。候補者はスタンプなんて欲しくない。安定した仕事が欲しいんだよ。

そうそう!ある時、著者は(弱い)アメリカの雇用法について、誰かを解雇するのがめちゃくちゃで、インターンシップからは簡単に解雇できるって不満を言ってたよ。従業員が求める安定性について、これが全てだね。

仕事がそんな風に常に分解できて、外部の人がすぐに効果的に取り組めるなんて、ちょっと懐疑的だな。おもちゃの問題以外ではね。「彼らがエージェントを指示できる」って言うのは、ちょっと曖昧だし。確かに助けにはなるけど、成熟したコードベースには数週間かかるし、エージェントが埋められないギャップも出てくる。これは、あまり専門知識を必要としない新しいプロジェクトにしか通用しない気がする。「製品の使い方」みたいなことでも、理解するのに数日かかることもあるし。候補者にとってもあまり良くないと思う。最も避けたいのは、世界で最も高い生活費がかかる場所で、気まぐれなスタートアップの不安定なギグワークをすることだよ。それに、雇用から健康保険みたいなものを切り離さない限り、これがうまくいくとは思えない。多くの人にとっては不安定すぎるから。

アメリカでも同じかは分からないけど、オーストラリアでは一般的にすべての仕事に3〜6ヶ月の試用期間があって、基本的にほとんどの(保護されていない)理由で雇用を終了できるんだ。私が見た限り、そのオプションはあまり使われていないみたい。たぶん、マネージャーが部下の数を減らすインセンティブがあまりないからだと思う。ほとんどの場所ではまだ面接を行ってるし。3〜6ヶ月の雇用はまだ費用がかかるからね。大企業では、オンボーディングに何週間もかかることがあるし、生産的になることを考えるのはその後だよ。面接は100%正確である必要はない。時間効率が良くて、最悪の人を雇わないためのフィルターとして機能すればいいんだ。悪い雇用市場が、熟練した人たちが雇用を得るためにインターンをする意欲を高めるとは思えない。雇用は市場だから、需要が減れば、反応として価格が下がるよ。学生がインターンをするのは、供給が高くて需要が低いから、実質的に何も(またはほとんど何も)支払わずに雇えるからなんだ。インターンたちは、インターンシップが終わると新しいカテゴリーにアップグレードされることを知ってる。大学の学位に大金を払う理由も同じだよ。だから、面接は変わらないだろうね。需要が崩壊すれば、賃金が下がるのを見て、ソフトウェアの人たちが早期退職やキャリアチェンジ、選択を減らす反応が出ると思う。そうなってから雇用方法の大変革が起こるんじゃないかな。

アメリカではその試用期間が永遠に終わらないんだよ。ほとんどどんな理由でもいつでも解雇される可能性がある。

テイクホームプロジェクトが好きなんだ。候補者がそれをプレゼンして質問に答える必要があるからね。LLMのおかげで、ここではもっと野心的になれるよ(ただし、トークンにはお金がかかるけど)。仮採用の問題は、新しく雇った人が生産的になるまでにかなり時間がかかることだと思う。複雑なFAANG環境では、チームにとって負担にならなくなるまでに約6ヶ月、完全に生産的になるまでには1〜2年かかるんじゃないかな。技術的だけじゃなくて組織的にも複雑で、プロジェクトが停滞するか前に進むかの違いを生む隠れたルールやマイクロディシジョンがたくさんあるんだよね。