https://frosthead.com

ある作家は、統計を使用して、優れた文章を作成する秘Secretを明らかにしました

ほとんどの大学レベルの文学コースでは、シェークスピアの独白、ジョイスの意識の流れ、ヘミングウェイのスタッカート文など、文学の古典の小さな部分を分析する学生を見つけます。 間違いなく、このタイプの綿密な読書によって、作家、彼または彼女の技術、そして物語の意味について学ぶことができることがたくさんあります。

しかし、Ben Blattは別のアプローチを強く主張しています。 特定の文と段落に焦点を当てることで、彼は彼の新しい本であるNabokovのFavorite Word is Mauveで 、読者は他のすべての単語を無視しています。これは平均的な長さで数万のデータポイントです。

ジャーナリストと統計学者は、20世紀の名作とベストセラーのほんの一部からテキストのデータベースを作成し、関心のある多くの質問に定量的に答えました。 彼の分析では、気付かれないかもしれない風変わりなパターンがいくつか明らかになりました。

数字で見ると、小説の最初の最高の文章は短くなる傾向があります。 多作の著者ジェームズ・パターソンは、100, 000ワードあたり平均160クリシェ(尊敬されるジェーン・オースティンより115多い)であり、ウラジミール・ナボコフは、過去2世紀の平均的な作家よりも44倍頻繁にモーヴという言葉を使用しました。

Smithsonian.comはBlattと彼の方法、彼の主要な調査結果のいくつか、およびビッグデータが文学の研究に重要である理由について話しました。

Where's WaldoからSeinfeldまで 、ファーストフードジョイントからポップソングまで、すべてを研究するための統計的アプローチを取りました。 あなたの方法を説明してもらえますか?

私はデータジャーナリストであり、ポップカルチャーやアートのことを考えています。 私は、人々が経験したことのない多くの情報を持っているものを定量的かつ公平に見るのが本当に好きです。 アメリカの典型的な人がどんな人なのかを知りたいなら、それは有用でしょうが、ただ一人の人と話をして、彼らについてのすべてを知り、それからアメリカの人々についてのすべてが同じ。 書くことで失われることの1つは、特に創造的なライティングクラスや1つのパッセージで、著者が1つの文に集中できることであり、作家が使用しているこれらの一般的なパターンと傾向を見るために、全体像を失うことだと思います何度も何度も自分の文章で

Preview thumbnail for video 'Nabokov's Favorite Word Is Mauve: What the Numbers Reveal About the Classics, Bestsellers, and Our Own Writing

ナボコフの好きな言葉は藤色:古典、ベストセラー、私たち自身の著作について数字が明らかにしていること

購入

それでは、なぜ文学に目を向けたのですか?

私のバックグラウンドは数学とコンピューターサイエンスですが、読書と執筆が大好きです。 執筆を重ねるにつれて、さまざまな作家や人々が執筆のアドバイスをどのように行っているかに非常に興味を持つようになりました。 理にかなっているが、情報に裏付けられていないように思われるものや、互いに矛盾するものがたくさんあります。 私はちょうど、これらのトピックを書面で取り上げて、人々がすでによく知っていることや話していること、そしてこのアドバイスが本物か、それとも規範的アドバイスかを確認するために、優れた著者や人気のある著者でテストする方法が必要だと思ったtは、実際の本と実際のページのすべてを意味します。

文学の古典やベストセラーについて最初に尋ねたい質問は何でしたか?

本の最初の章は、副詞を使うべきかどうかのアドバイスです。 これは、私が年代順に書いた最初の章でもあります。 それは、主に彼の著書On Writingの副詞を使わないようにするStephen Kingのアドバイスに基づいています。これは、多くの作家にとって執筆に関する本です。 しかし、トニー・モリソン、チャック・パラニウクなど、他の多くの作家や創造的な執筆クラスは、不必要な言葉であり、簡潔ではないという兆候があるため、副詞を使用しないことをお勧めします。 「彼はすぐに走った」と言う代わりに、「彼は全力で走った」と言うことができます。

知りたかったのですが、これは本当ですか? これが非常に良いアドバイスであるならば、あなたは偉大な著者が実際にそれをあまり使わないことを期待するでしょう。 アマチュア作家は、出版された著者よりもそれを使用していることを期待するでしょう。 ステファン・キングが彼自身のアドバイスに従ったかどうか、そしてそれが他のすべての偉大で尊敬されている著者に当てはまるかどうか、まずスタイル的に知りたかったのです。

それで、あなたは何を見つけましたか?

実際、Hemingway、Morrison、Steinbeckのような著者、彼らの最高の本は、現在最も注目を集めており、副詞の量が最も少ない本であるという傾向があります。 また、最近のベストセラーやピューリッツァー賞の受賞者と編集されていないアマチュアフィクションの執筆とオンラインの執筆を比較すると、出版された著者があまり使用しない副詞を使用するという矛盾があります。 私はあなたが大丈夫な本から副詞を取り出すだけでいい本だと思うほど、一方的なものではありません。 それは明らかにそれがどのように機能するかではありません。 しかし、非常に直接的な方法で書いている作家は、全体的に最も長く生きる本を作るという事実に何かがあります。

p13-Adverbs.JPG

文学作品のデータベースをどのように作成しましたか?

質問の多くについて、私は幾分arbitrarily意的に選んだ同じ50人の著者を使用していました。 本質的には、ベストセラーリストのトップにいる著者、すべての時間リストの最高の著者のトップにいる著者、さまざまなジャンルや時代、読者を代表している著者に基づいています。 そうすれば、本全体を通して、これらの著者を比較して知ることができます。

「トニ・モリソンがこの言葉をこの割合で使用している」などと言ったら、彼女が書いたすべての小説について話していたのは、私がたまたま持っていた3つだけではありませんでした。 私の本では、全体を通して50〜100人の著者が言及されています。 私は彼らの書誌を見つけ、それから彼らが完全な記録としてそれまでに書いたすべての小説を見つけました。 ある意味では、それはスポーツ統計を保持することに少し似ています。各本は季節のようなもので、これらの季節や本はすべてキャリアとしてまとめられます。 著者が時間とともにどのように変化するか、そして彼らが全体的にどうするかを見ることができます。 すべての書籍をファイルに保存したら、ある意味で非常に困難なこれらの質問に答えることは非常に簡単です。

そして、そのすべてのテキストをどのように処理しましたか?

Pythonと呼ばれるプログラミング言語があり、その中に、Natural Language Toolkitと呼ばれる一連のツールがあります。多くの場合、NLTKと略されます。 それに関係するツールは誰でも自由に利用できます。 パッケージをオンラインでダウンロードして、Pythonまたは他の言語で使用できます。 特に文章に関する質問の多くは得られませんが、この単語はテキストに何回登場するのでしょうか? 文章の終わりと始まり、文章の始まり、品詞、形容詞対副詞対動詞を特定できます。 そのため、これらのツールがあれば、データを取得できます。

どのような統計を手動でコンパイルしましたか? 最も退屈だったのは何ですか?

冒頭の文章を見るセクションが1つあります。 非常に成功した小説家だったエルモア・レナードは、「天気で本を開かないでください」と言っていました。これは、多くの執筆ガイドで見られるアドバイスでもあります。 そこで、何百人もの著者を調べて、天気に関する本を開く頻度を確認しました。 例えば、ダニエル・スティール、私は彼女の本の最初の文章の45パーセントが天気に関するものだと信じています。 多くの場合、それは単に「素晴らしい一日でした」または「明るく晴れていた」などです。 そのため、エラーなしで自動的にそれを行う方法はなかったので、すべての書籍ファイルを調べて、天気が関係しているかどうかをマークしました。 大量のデータが収集されたため、退屈だったと言えますが、一度に何百もの冒頭の文章を読んで読むのは、とても楽しかったです。 時間の経過とともに著者から明らかに現れる他のパターンがあります。

p207 --- Weather.jpg

あなたが言うように、いくつかのために退屈な、他のために楽しい。 この分析的アプローチは退屈だと思う人もいるかもしれませんが、それは「面白く」、「しばしばおかしい」ことがあると主張します。あなたの最も面白い発見は何でしたか?

この本のタイトル、 ナボコフの好きな言葉は藤色です。数字で見ると、彼が英語と比較して最も高い割合で使う言葉は藤色です。 彼が共感覚を持っていたので、彼の背景を見ると、それは多くの理にかなっています。 彼は自伝で、さまざまな文字や音を聞いたときに、脳が自動的に色を想起させる方法について話した。

私はその実験を他の100人の著者に繰り返して、自分の好きな言葉が何であるかを確認しました。 その結果、最もよく使用する単語で記述を表す3つの単語が得られます。 礼儀正しさ、空想、軽率。 それがジェーン・オースティンです。 もしあなたがそれらの言葉を見たなら、ジェーン・オースティンはあなたの最初の推測の一つかもしれません。 そして、もう少しザラザラでリアルな、別の時代のジョン・アップダイクのような作家がいます。 彼の好きな言葉は縁取られ、刺され、犯される。 これらの単純な数学的質問に基づいて性格が現れるのを見るのは非常に興味深いと思います。 好きな作家がいる場合、それを調べると、以前は気付かなかったかもしれない性格について何かを明らかにすることができます。

レイ・ブラッドベリーは、彼の好きな言葉はシナモンだと書いていました。 数字では、彼はそれをたくさん使っています。 彼がシナモンを好んだ理由の彼の説明は、それが彼の祖母のパントリーを思い出させたということでした。 それで、私は調べてみると、祖母のパントリーに関連する可能性のある他のスパイスの言葉と匂いの言葉を見つけました。レイ・ブラッドベリーはこれらの言葉のほとんどを非常に高い割合で使用しています。 ある意味では、著者の幼少時代についてのこの奇妙でフロイト的な見方をすることができます。 レイ・ブラッドベリーがそれを言わなかったなら、あなたはまだそれを理解できるかもしれません。

あなたはアメリカ人とイギリス人の作家を比較し、アメリカ人は騒々しいというステレオタイプを確認しました。 これを説明できますか?

これは、実際には元々スタンフォード大学の大学院生が行った研究に基づいていました。 彼は本の中で対話を説明するために使用される単語を特定し、それらを大声、中立、または静かなものとして説明しました。 「ささやく」と「つぶやく」は静かになります。 ニュートラルは「彼が言った」または「彼女が言った」、大きな声は「彼が叫んだ」または「叫んだ」だろう。私は見た50人の著者と、ファンフィクションの大きなサンプルを調べたが、クレイジーなマージンですが、意味のあるマージンで、アメリカ人は静かな言葉に対する大きな言葉の比率が高いことを確認します。 いくつかの説明があります。 それは、それがアメリカ人が彼らの人生のすべてを通して話す方法であるかもしれないので、それは作家が彼らが頻繁に話すことを記述する方法です。 また、アメリカの作家は、より微妙なものよりも、アクションベースのスリラーでハイテンポなストーリーを好むように見えます。 アメリカ人は確かに数字が大きいです。

Blatt_author photo_Credit Sierra Katow.JPG ナボコフの「Favourite Word Is Mauve」の著者、Ben Blatt(Sierra Katow)

文学に数学を適用することが文学を勉強するのに良い方法だと思うのはなぜですか?

あなたがあなたの文章を改善しようとしているなら、これが文学を研究する最初の方法であるべきだと私は絶対に主張していません。 しかし、中程度の長さの小説でさえ、おそらく50, 000ワードであり、それは50, 000データポイントです。 一度にすべてを吸収することはできません。自分で読んで答えることができない質問がいくつかあります。 大きな絵を見るのは良いことです。 座って1つの段落を勉強すると、あなたは創造的なライティングクラスで教授と話します。それを見るための設定方法があれば、それをすべてを通して見るだけです。 しかし、データがあれば、その種のデータは解放され、これらのバイアスなしでいくつかの質問に答えて、実際に新しい情報を得ることができます。

あなたは、Roald Dahlの「The Great Grammatizator」を思い出し続けたと言います。

本質的にエンジニアがストーリーを書く方法を考案する素晴らしいRoald Dahlストーリーがあります。 この終末のシナリオでは、誰かがマシンにプロットを与えるだけで、最終的な小説を吐き出します。 ほのめかしは、彼らがとても定型的で基本的な小説を作っているということです。 その物語の主人公は、機械の操作に参加しないことを選択し、彼自身の文章と芸術を作成することにより、機械と戦う。

この本は、あなたが執筆に取り組んでいるなら、あなたのためにたくさんの質問に答え、間違いなくあなたの考え方を変えると思いますが、最終的には人々を考えさせるシーンや人々を作るシーンに代わるものはありません怖いまたはキャラクターと接続します。 この本は執筆の技術に注目しており、必ずしも記憶に残る物語の作り方ではありません。 この本は完璧な小説を作成しようとはしておらず、一部の人々が恐れるほど私たちはそれに近いとは思わない。

ある作家は、統計を使用して、優れた文章を作成する秘Secretを明らかにしました